最近在學網(wǎng)路爬蟲,因為爬蟲前要先了解網(wǎng)頁結構,所以也學了點 HTML
雖然還不會寫,但至少看得懂一些 F12 在幹嘛了,讚
了解原理後,想到的就是用巴哈來練習(因為我也沒有其他常用的網(wǎng)站了QQ)
我必須說,巴哈的網(wǎng)頁寫得真好,哈拉版的文章用表格形式呈現(xiàn),而且非常工整
真的非常友善,很方便能找到要的東西
以活俠傳版為例,如果我想要找標題或內文包含 師兄 的文章
再加上gp 作者 文章連結等
(附上還沒精修過的程式)
就可以得到如下的結果(部分截取)
看到符合預期的成果出來的時候真的超興奮RRRRRヽ(●′?`●)?
話說原來顯示一般文章跟精華文的GP是用不同的寫法,一開始GP看到一排0的時候我納悶好久
然後又去找了GNN新聞,尋找主題是手機的文章
好棒
而且巴哈設置還有簡單的反爬蟲功能,很多其他用來練習的網(wǎng)站都沒有呢
(我有看過站規(guī),只要不是惡意危害系統(tǒng)或利用漏洞都可以,所以應該沒問題吧?)
不過這只是目前學習的成果,還有很多要學
像是 Youtube,這好像牽涉到什麼動態(tài)跟靜態(tài)內容,還沒學到,不會
還有一些有年齡限制或隱版的地方(像是場外)
這個也不會
我有好多不會QQ
2024/8/28 更
今天學了用 function 跟 for loop 的方式連續(xù)爬取多頁貼文
並序列化存成檔案存在電腦裡
稍微爬個三頁試水溫,節(jié)錄其中一部分
而且這套的模板還可以重複使用
只要把想要搜尋的關鍵字改一改,程式部分完全不用動就能找其他東西
比方說這是到神魔版同時搜尋黑金跟攻略內容的部分貼文
太好用了吧!
晚上7點更
現(xiàn)在加上互動式內容,可以選擇要搜尋幾頁
並且換頁與最後一頁時會加上提示
再設定條件把重複出現(xiàn)的文章刪掉(因為巴哈有時前一頁最後幾篇文章?lián)Q頁後還會顯示)
8/29 更
改成互動式內容,現(xiàn)在可以手動輸入網(wǎng)址與想要找的關鍵字(但是關鍵字只能輸入一個,晚點再優(yōu)化)
並可輸入想要搜尋的頁數(shù),並提示找到的文章出現(xiàn)在第幾頁
比方說,在黑悟空版搜尋劇情,想要找5頁的內容,就會出現(xiàn)如下結果
下午4點更
弄了個版本2,不是用頁數(shù)搜尋,改成搜尋想要找的數(shù)量
以楓之谷版輸入新手尋找10篇文章為例
晚上8點更
笑死,用巴哈練習爬蟲,結果發(fā)送請求太頻繁被 ban
所以中間寫了個程式看我要被 ban 多久,如果時間短的話就等,太長的話只能想辦法求情
還好只 ban 了一小時
我要讓它更像人類一點才行
然後這是程式現(xiàn)在的模樣
整合兩種搜尋模式,拉長搜尋時間減少伺服器負擔
可是它有未知的 bug ,有時不知道為什麼會抓不到資料,但重新輸入一次又可以找到......
然後我試著把這東西匯出,可是匯出的程式又不能用......
看來只能暫時先擱置,繼續(xù)學看看有沒有方法解決了