ETH官方钱包

前往
大廳
主題

網(wǎng)路爬蟲心得1

大豆喵喵 | 2024-08-27 15:33:14 | 巴幣 2022 | 人氣 42

最近在學網(wǎng)路爬蟲,因為爬蟲前要先了解網(wǎng)頁結構,所以也學了點 HTML

雖然還不會寫,但至少看得懂一些 F12 在幹嘛了,讚

了解原理後,想到的就是用巴哈來練習(因為我也沒有其他常用的網(wǎng)站了QQ)

我必須說,巴哈的網(wǎng)頁寫得真好,哈拉版的文章用表格形式呈現(xiàn),而且非常工整
真的非常友善,很方便能找到要的東西

以活俠傳版為例,如果我想要找標題或內文包含 師兄 的文章
再加上gp 作者 文章連結等
(附上還沒精修過的程式)

就可以得到如下的結果(部分截取)

看到符合預期的成果出來的時候真的超興奮RRRRRヽ(●′?`●)?
話說原來顯示一般文章跟精華文的GP是用不同的寫法,一開始GP看到一排0的時候我納悶好久

然後又去找了GNN新聞,尋找主題是手機的文章


好棒

而且巴哈設置還有簡單的反爬蟲功能,很多其他用來練習的網(wǎng)站都沒有呢
(我有看過站規(guī),只要不是惡意危害系統(tǒng)或利用漏洞都可以,所以應該沒問題吧?)

不過這只是目前學習的成果,還有很多要學
像是 Youtube,這好像牽涉到什麼動態(tài)跟靜態(tài)內容,還沒學到,不會
還有一些有年齡限制或隱版的地方(像是場外)
這個也不會

我有好多不會QQ


2024/8/28 更

今天學了用 function 跟 for loop 的方式連續(xù)爬取多頁貼文
並序列化存成檔案存在電腦裡

稍微爬個三頁試水溫,節(jié)錄其中一部分

而且這套的模板還可以重複使用
只要把想要搜尋的關鍵字改一改,程式部分完全不用動就能找其他東西
比方說這是到神魔版同時搜尋黑金跟攻略內容的部分貼文
太好用了吧!

晚上7點更
現(xiàn)在加上互動式內容,可以選擇要搜尋幾頁
並且換頁與最後一頁時會加上提示
再設定條件把重複出現(xiàn)的文章刪掉(因為巴哈有時前一頁最後幾篇文章?lián)Q頁後還會顯示)


8/29 更
改成互動式內容,現(xiàn)在可以手動輸入網(wǎng)址與想要找的關鍵字(但是關鍵字只能輸入一個,晚點再優(yōu)化)
並可輸入想要搜尋的頁數(shù),並提示找到的文章出現(xiàn)在第幾頁
比方說,在黑悟空版搜尋劇情,想要找5頁的內容,就會出現(xiàn)如下結果


下午4點更
弄了個版本2,不是用頁數(shù)搜尋,改成搜尋想要找的數(shù)量
以楓之谷版輸入新手尋找10篇文章為例

晚上8點更
笑死,用巴哈練習爬蟲,結果發(fā)送請求太頻繁被 ban
所以中間寫了個程式看我要被 ban 多久,如果時間短的話就等,太長的話只能想辦法求情
還好只 ban 了一小時
我要讓它更像人類一點才行

然後這是程式現(xiàn)在的模樣
整合兩種搜尋模式,拉長搜尋時間減少伺服器負擔
可是它有未知的 bug ,有時不知道為什麼會抓不到資料,但重新輸入一次又可以找到......
然後我試著把這東西匯出,可是匯出的程式又不能用......
看來只能暫時先擱置,繼續(xù)學看看有沒有方法解決了


創(chuàng)作回應

黃人
這是老祖宗的智慧結晶https://truth.bahamut.com.tw/s01/202408/949751ab72f3b72708f13a5589a215fe.JPG
2024-08-27 19:02:56

相關創(chuàng)作

更多創(chuàng)作