之前寫過一篇 python selenium 來爬漫畫網站。
那麼最近有在碰 node js 就在想說用 JavaScript 寫爬蟲吧!
所以選擇 puppeteer 這個套件來寫爬蟲。
簡短來介紹一下這個套件。
puppeteer 跟 selenium 都是瀏覽器自動化的套件
在 python 裡面都有這兩個套,但我們這次不是使用 python 來爬蟲
而 puppeteer 這個套件是 google 所開發專案
使用方法,其實跟 selenium 功能大同小異
是一樣的思考方式。
首先先去抓出圖片的網址,先用 chrome 瀏覽網頁
在按 F12 進入 開發人員工具 選最上面 console 輸入已下
就會跑出以下結果,這樣我們就獲得圖片的網址
圖片網址獲得後,那麼頁數是不是也能透過類似的方法來取得呢?
答案是可以的,因為這些都是前端 JavaScript 基本的語法應用
頁數取得方法,一樣的作法。如下!
當我們就能夠取得 圖片網址、頁數 時,就能夠能開始寫我們的爬蟲了。
一樣的想法,使用 puppeteer 去瀏覽所需的網頁,在把圖片下載
這樣就能夠爬取所需的資料。
經驗、學習就像積木一樣,每一塊大小形狀都不同
學的東西越多越廣,卻好像都組合不起來
現在是這樣,但不代表以後都是如此
日後這個屬於自己的作品,都是靠自己一點一滴的組裝起來