ETH官方钱包

前往
大廳

主題

【W(wǎng)eb + Github Page + Python爬蟲】免費(fèi)Host一個自己的網(wǎng)頁，順便寫個網(wǎng)頁紓壓

%%鼠拒收病婿 | 2021-02-15 02:35:34 | 巴幣 1132 | 人氣 1667

上篇簡單說過使用github page來免費(fèi)Host網(wǎng)站，缺點是不能使用PHP等後端腳本。

因為一些"生活煩惱"所以覺得寫個網(wǎng)頁散散心，但我懶的想要用什麼內(nèi)容衝版面，於是想到用爬蟲來抓自己巴哈小屋的創(chuàng)作好了。

先上成品頁面:https://lontoone.github.io/

原始碼連結(jié):https://github.com/Lontoone/Lontoone.github.io

來個頁面截圖，大部分人看到的應(yīng)該是中文的網(wǎng)站，自動偵測語系的作法下面來講。

先講爬蟲，我是看這個影片學(xué)分析。

正常用ajax也能抓回網(wǎng)頁html，但巴哈有做些措施，不知道為甚麼ajax的要求都會卡在header資訊，明明帶的跟python腳本帶的是一樣的。

anyway，我就用python爬我的小屋創(chuàng)作並輸出成json文字檔push上git，用戶打開網(wǎng)頁時由js去解析並輸出。因為github page不能跑後端程式，所以我可能偶爾執(zhí)行一下爬蟲並push 結(jié)果上去或直接寫個腳本在我開機(jī)時自動git一次吧。

爬蟲腳本:https://github.com/Lontoone/Lontoone.github.io/blob/main/test.py

先抓我小屋創(chuàng)作總頁數(shù)

用regex抓的頁面元素

主要爬蟲:

38-40行: 巴哈有擋header沒設(shè)定user-agent的訪問，所以在訪問時加上資訊騙一下。

69-99行: 註解的是原本用regex抓資料的做法，後來發(fā)現(xiàn)beautifulsoup能直接找網(wǎng)頁元素比較好用。

104行: json.dump將dict型態(tài)的資料轉(zhuǎn)型成json格式並輸出。

python不能像C#在類別前面加個[system.serializable]就能自動序列化，所以在自訂類別加了個轉(zhuǎn)成dict的方法好搭配json.dump。 (有些參數(shù)暫時沒用到。)

結(jié)果(部分截圖):

文字檔大概格式是:

多語系:

其實也沒多厲害，就是準(zhǔn)備不同語言的文字檔，靠js偵測用戶瀏覽器語言後選擇要讀取哪個文字檔。

html只要呼叫方法讀檔。
讀取表格的作法上篇有用到，這個只要簡單讀文字檔就好。

以上，目前先做HOME和BLOG這兩頁，剩下的接著再看看吧!

雜紀(jì):

所謂"生活煩惱"，有空來談?wù)劏臱D

#網(wǎng)頁 #github #Github Page #Python #爬蟲

14

送禮物贊助創(chuàng)作者 !

0

創(chuàng)作回應(yīng)

御安鴨·摸頭害鴨哭

大佬

2021-02-15 13:50:07

%%鼠拒收病婿

不佬不佬，邊做邊學(xué)而已XD

2021-02-15 17:40:56

我像是看到了銀河系

2021-02-15 19:40:49

%%鼠拒收病婿

web應(yīng)用只會基本而已啦XD

2021-02-15 20:24:49

%%鼠拒收病婿 news2000tw

追蹤創(chuàng)作集

作者相關(guān)創(chuàng)作

作品資料夾

【W(wǎng)eb + Github Page + Python爬蟲】免費(fèi)Host一個自己的網(wǎng)頁，順便寫個網(wǎng)頁紓壓

[達(dá)人專欄] 【爬蟲 + React + SQLite】實現(xiàn)無後端SQL查詢，養(yǎng)生寫前端

[達(dá)人專欄] [ 知識圖譜 ] 自動網(wǎng)路爬蟲，生成知識圖譜系統(tǒng) 附程式

【W(wǎng)eb / Python / Git】寫個Python爬蟲爬自己小屋的創(chuàng)作，然後自動更新到Github page (下)

小專題，自幹C2C網(wǎng)頁。附上原始碼

【Unity WebGL】在Github page上host Unity WebGL、Facebook分享功能、安卓與ios包Unity專案雜談

【W(wǎng)eb】使用Github來免費(fèi)Host網(wǎng)頁 + 獻(xiàn)醜人生的第一個網(wǎng)頁作品

【Generative AI】從實作來學(xué)Diffusion Model，學(xué)習(xí)筆記

[達(dá)人專欄] [ ML新手寶典 ] 那些網(wǎng)站不會教你的，Train/ Test / Eval / Debug /Loss設(shè)計流程解析 (上)

[達(dá)人專欄] [ AI ] 了解AI模型Post Process，實作Polygon的 Non Maximum Suppression

[達(dá)人專欄] [星爆AI] 自訂義Data Mapper與Loader，使用Detectron2訓(xùn)練物件偵測AI

[達(dá)人專欄] [星爆AI #1] 了解繪圖AI原理，圖像生成對抗網(wǎng)路 GAN 基礎(chǔ)篇

[達(dá)人專欄] [Docker 筆記] 使用Docker建立 Node.js / Django / Apache 環(huán)境

[達(dá)人專欄] [Python+ CV ] 修圖軟體製作：GUI框架, JS事件, 縮放拖拉, based64轉(zhuǎn)numpy

[達(dá)人專欄] 【前端】Debug日記：從Three.js到React-three，淺談gltf和fbx模型與載入的幾種方法

[達(dá)人專欄] 【前端只是寫來養(yǎng)生的】React + Js 製作文章縮圖編輯器！

【Unity + OpenCV(python) 】使用socket跨軟體傳輸資料：Python傳送畫面至Unity、Tcp/Udp傳輸實作

【React】自幹私人部落格#1，原生js方法引入、js滑鼠事件、css變數(shù)、模糊特效、js的FixedUpdate

【React + Firebase筆記】add/set/update/get、batch上傳、document.count、用Async、UseEffect等待firebase資料

【CMake 學(xué)習(xí)筆記】add_library與target_include_directories

相關(guān)創(chuàng)作

Python 基本網(wǎng)頁爬蟲 - 下載圖片

1

319

[Python] 爬蟲程式練習(xí)3

0

138

[Python] 爬蟲程式練習(xí)2

0

325

可用於分析場外是否有網(wǎng)軍與其熱門趨勢?場外爬蟲程式碼

我也太廢了吧

5

619

巴哈場外休憩區(qū)10頁簡易標(biāo)題爬蟲

我也太廢了吧

1

546

車圖爬蟲 : BahaDrift (Ver 0.1.0) - 讓你再也不缺席！

8

625

拓元演唱會自動購票

艾倫D索妮雅

2

2437

side-project 1 gamewith 爬蟲馬娘版轉(zhuǎn)成excel 資料

執(zhí)傲者

0

295

達(dá)人讓你寫的程式自動讀取網(wǎng)頁資料！淺談網(wǎng)路爬蟲

117

5536

網(wǎng)路爬蟲心得1

5

35

達(dá)人 [閒聊] 重返爬坑之豹紋守宮

黃勤(金絲眼鏡)

16

379

達(dá)人 Rust 所有權(quán)系統(tǒng)的先修課：記憶體洩漏

11

234

這個程式直接讓你錄取麥O勞

6

98

Flask + mssql 使用 sp 方法序列化回傳 api

執(zhí)傲者

0

41

公開個我寫的discord機(jī)器人

別讓他按下按鈕！！

15

306

弄了個轉(zhuǎn)換英文字母跟數(shù)字的小玩意

5

89

寫了一個簡單的凱薩密碼解碼程式

5

155

第一次參加六角學(xué)院2024 軟體工程師體驗營心得

0

158

【動畫瘋/招募】Discord : ACG'news巴哈姆特動畫瘋分部

勇者不鬥惡龍

0

138

【情報】Discord動畫瘋新番爬蟲通知機(jī)器人v1.1(含教學(xué)片)

勇者不鬥惡龍

0

696

更多創(chuàng)作

%%鼠拒收病婿 news2000tw

追蹤創(chuàng)作集

其他創(chuàng)作

作品資料夾

<p id="mbwk9"></p>

<sup id="mbwk9"></sup>

<strong id="mbwk9"><track id="mbwk9"></track></strong>