主題

[Python] 爬蟲程式練習(xí)3

Kmyth | 2023-11-05 16:13:17 | 巴幣 0 | 人氣 138

因為找瑟瑟的資源，

找到MahoMangaDownloader無法處理的網(wǎng)站。

索性就自己寫一個爬蟲試試。

意外發(fā)現(xiàn)背後還滿單純的，除了操作介面之外，

主要邏輯，就只是連到對應(yīng)的網(wǎng)址，一張一張圖另存下來而已。

找頁數(shù)、書名

程式碼：

driver = webdriver.Chrome(service=s)

driver.get(gallery_url)

pages_text = driver.find_element(By.CLASS_NAME, 'pages').text

pages = pages_text[7:]

folder_name = driver.find_element(By.CLASS_NAME, 'subtitle').text

說明：

上篇也提過selenium核心的用法，

打開webdriver後，找到對應(yīng)物件，汲取關(guān)鍵的資料、數(shù)據(jù)。

創(chuàng)建資料夾

程式碼：

folder_check = os.path.exists(folder_name)

if not folder_check:

os.mkdir(folder_name)

說明：

唯一比前一次多做的事情：使用到OS，也就是資料夾、檔案操作相關(guān)的部分。

找網(wǎng)路資料夾路徑

程式碼：

first_page_url = view_url + '/1'

driver.get(first_page_url)

img_object = driver.find_element(By.ID, 'gimg')

fisrt_img_src = img_object.get_attribute("src")

img_file_src = fisrt_img_src[:-5]

for index in range(int(pages)): #pages is str

page = index + 1

filename = str(page) + '.jpg'

#page_url = view_url + '/' + page

#driver.get(page_url)

#img_object = driver.find_element(By.ID, 'gimg')

#img_src = img_object.get_attribute("src")

img_src = img_file_src + filename

...

說明：

因為這個網(wǎng)頁結(jié)構(gòu)比較簡單，把圖片都放在同一個資料夾，而且圖片也是用頁數(shù)來命名。

所以就先到第一頁，抓取那個資料夾的路徑，

之後用FOR迴圈修改頁數(shù)，就可以得到全部圖片的路徑了

難關(guān)：資料型別不符

這次唯一碰到的問題，也是常常在其他語言也會有的，

就是資料型別不會自動轉(zhuǎn)換。

在網(wǎng)頁抓到的頁數(shù)資料是text，直接丟到for迴圈條件的range就出錯了。

同樣地，在組成路徑時，頁數(shù)是number，因此+號無法處理兩邊不同型態(tài)的運(yùn)算。

解法：

在python轉(zhuǎn)型態(tài)很容易，直接丟到型態(tài)名稱的函式裡就搞定了！

圖片儲存

方法3： OS建檔

程式碼： (for 接續(xù))

...

r = requests.get(img_src)

save_path = os.path.join(folder_name, filename)

with open(save_path, 'wb') as outfile:

outfile.write(r.content)

說明：

繼前一次的兩個方法，這次就是直接開一個新檔案，然後把request抓來的資料丟進(jìn)去，

圖片就存好了。

#python #爬蟲

0

留言

創(chuàng)作回應(yīng)

Kmyth kmythmit

追蹤創(chuàng)作集

作者相關(guān)創(chuàng)作

作品資料夾

[Python] 爬蟲程式練習(xí)3

[Python] 爬蟲程式練習(xí)2

[Python] 爬蟲程式練習(xí)

正港分局的反思

課外討論 - 談開放世界

氣到Rebirth

自我感動 x 量子 x CHILL

某日的一餐

《電玩?zhèn)惱韺W(xué)》第五堂心得

《電玩?zhèn)惱韺W(xué)》第五堂-課前提問

《電玩?zhèn)惱韺W(xué)》第四堂-課前提問

《電玩?zhèn)惱韺W(xué)》第三堂心得(暫)

《電玩?zhèn)惱韺W(xué)》課間討論-回應(yīng)「放置遊戲是否算是遊戲」

《電玩?zhèn)惱韺W(xué)》第二堂心得

《電玩?zhèn)惱韺W(xué)》第二堂-課前提問

《電玩?zhèn)惱韺W(xué)》第一堂心得

《電玩?zhèn)惱韺W(xué)》自介

N片

進(jìn)巨完結(jié)小心得

突然就想色色

相關(guān)創(chuàng)作

達(dá)人 [ 知識圖譜 ] 自動網(wǎng)路爬蟲，生成知識圖譜系統(tǒng) 附程式

%%鼠拒收病婿

15

536

Python 基本網(wǎng)頁爬蟲 - 下載圖片

Rubibiyen

1

319

達(dá)人【爬蟲 + React + SQLite】實(shí)現(xiàn)無後端SQL查詢，養(yǎng)生寫前端

%%鼠拒收病婿

22

2144

可用於分析場外是否有網(wǎng)軍與其熱門趨勢?場外爬蟲程式碼

我也太廢了吧

5

619

巴哈場外休憩區(qū)10頁簡易標(biāo)題爬蟲

我也太廢了吧

1

546

車圖爬蟲 : BahaDrift (Ver 0.1.0) - 讓你再也不缺席！

虛鹿

8

625

拓元演唱會自動購票

艾倫D索妮雅

2

2437

side-project 1 gamewith 爬蟲馬娘版轉(zhuǎn)成excel 資料

執(zhí)傲者

0

295

【W(wǎng)eb + Github Page + Python爬蟲】免費(fèi)Host一個自己的網(wǎng)頁，順便寫個網(wǎng)頁紓壓

%%鼠拒收病婿

14

1664

網(wǎng)路爬蟲心得1

大豆喵喵

5

35

達(dá)人 [閒聊] 重返爬坑之豹紋守宮

黃勤(金絲眼鏡)

16

379

達(dá)人 Rust 所有權(quán)系統(tǒng)的先修課：記憶體洩漏

解凍豬腳

11

234

這個程式直接讓你錄取麥O勞

大豆喵喵

6

98

Flask + mssql 使用 sp 方法序列化回傳 api

執(zhí)傲者

0

41

公開個我寫的discord機(jī)器人

別讓他按下按鈕！！

15

306

弄了個轉(zhuǎn)換英文字母跟數(shù)字的小玩意

大豆喵喵

5

89

寫了一個簡單的凱薩密碼解碼程式

大豆喵喵

5

155

【Generative AI】從實(shí)作來學(xué)Diffusion Model，學(xué)習(xí)筆記

%%鼠拒收病婿

16

356

【動畫瘋/招募】Discord : ACG'news巴哈姆特動畫瘋分部

勇者不鬥惡龍

0

133

【情報】Discord動畫瘋新番爬蟲通知機(jī)器人v1.1(含教學(xué)片)

勇者不鬥惡龍

0

696

ETH官方钱包

[Python] 爬蟲程式練習(xí)3

找頁數(shù)、書名

創(chuàng)建資料夾

找網(wǎng)路資料夾路徑

圖片儲存

創(chuàng)作回應(yīng)

作者相關(guān)創(chuàng)作

相關(guān)創(chuàng)作

更多創(chuàng)作