主題

[Python] 爬蟲程式練習(xí)2

Kmyth | 2023-11-01 01:23:51 | 巴幣 0 | 人氣 338

通勤滑手機(jī)，看到有趣的心理測驗，就丟到DC群。

意外滿多人回覆，就想說整理一張全體的圖出來。

不過問題是，網(wǎng)站並沒有給出所有測驗結(jié)果的圖片，

只能自己去做試驗蒐集結(jié)果。

本來想說應(yīng)該試個幾次應(yīng)該可以試出來，

不知道是結(jié)果分配不均，還是運(yùn)氣不好，總之就是缺了四種。

已經(jīng)耗掉一天，無奈之下，還是只能搬出爬蟲來搞。

總之，最後有把圖弄出來：

動態(tài)爬蟲

主要函式庫：selenium

說明：

前一次只需要分析靜態(tài)頁面，找到位置，抓到對應(yīng)物件的資料即可。

這次不同，需要回答12個問題，點擊後讓頁面跳轉(zhuǎn)，是動態(tài)的爬蟲。

因此需要webdriver─透過程式碼下指令，模擬實際網(wǎng)頁的各項操作。

每個瀏覽器的架構(gòu)都不同，也因此各自用到的webdriver也不同。

這邊我用到的是chrome，就是去載chromedriver。

流程：

driver = webdriver.Chrome() #開啟chromedriver

driver.get(url) #連上特定網(wǎng)頁

driver.find_element(By.CLASS_NAME, 'XXX').click() #找到物件，並執(zhí)行點擊

然而一開始就卡關(guān)，馬上就頭大了起來。

最討厭搞這種環(huán)境設(shè)置的各種問題。

難關(guān)1：版本問題

即使是同一個瀏覽器，也會因為版本不同，對應(yīng)的webdriver也不同。

解法：(都弄到最新最方便)

把瀏覽器更新到最新，然後也抓最新版的chromedriver。

難關(guān)2：路徑問題

不知道為何，明明把chromedriver跟程式碼的檔案放在同一個資料夾，

就是抓不到chromedriver，一直跟我講沒有driver用。

想了一下，可能是抓底層設(shè)置，也就是python的位置，而找不到chromedriver。

解法：(直接指定路徑)

加了一行，指定路徑，並把參數(shù)丟到driver裡

s = Service(r"C:\......\chromedriver.exe")
driver = webdriver.Chrome(service=s)

難關(guān)3：延遲問題

因為頁面跳轉(zhuǎn)時，畫面讀取的時間差，程式往下跑的時候，可能畫面資料還沒讀完，

結(jié)果就導(dǎo)致物件抓不到，引發(fā)錯誤，程式停擺。

解法：(設(shè)置延遲)

利用休眠，讓程式碼等網(wǎng)頁讀取完後再跑。

time.sleep(1)

精進(jìn)：

然而這個時間不好抓，每次執(zhí)行必須停等的時間會依據(jù)網(wǎng)路讀取速度而定。

等於是設(shè)定的越短，觸發(fā)錯誤的機(jī)率越大；

但設(shè)定太長，又會導(dǎo)致整體執(zhí)行時間過長。

可能寫成錯誤發(fā)生的例外，再延長停等時間，重複嘗試，更好。

圖片儲存

因為要把測驗的結(jié)果記錄下來，

而結(jié)果頁面是以圖片呈現(xiàn)，等於要把圖抓下來。

方法1：GUI操作

函式庫：pyautogui

程式碼：

action = ActionChains(driver).move_to_element(result) # 移動到該元素
action.context_click(result) # 右鍵點選該元素
action.perform() # 執(zhí)行
pyautogui.typewrite(['v']) # 敲擊V進(jìn)行儲存
#單擊圖片另存之後等1s敲確認(rèn)
time.sleep(1)
pyautogui.typewrite(['enter'])