針對巴哈姆特和噗浪的 Python 爬蟲
Python crawler for Gamer and Plurk
Player_SystemCall
2023 年 7 月 4 日不過除了程式碼和參考資料的連結可以複製外,
其他都不可以複製就是了。
目錄
(一)需求
(二)流程圖
(三)前置作業
(一)Google Sheets API
(二)Google Sheets
三、Python 程式
(三)副程式
3. 追蹤天數之取得
4. 月份最後一天之取得
5. 裝置網路卡資訊(MAC 位址、IPv4 和 IPv6)之取得
6. 裝置使用者名稱之取得
7. 網際網路(外網)IP 之取得和版本判定
8. 網際網路 IP 所在地區資料之取得
(四)主程式的共用段
1. 取得起始時間和裝置資訊
2. 使用 Google sheets API 憑證開啟試算表
3. 獲取運作天數
4. 結束
(五)對巴哈姆特 Gamer 的程式碼
1. 副程式
2. 主程式:取得起始時間和裝置資訊
3. 主程式:從小屋原始碼取得每日流量、好友人數和追蹤者人數
4. 主程式:取得追蹤者名單及其相關資訊
5. 主程式:取得好友名單及其相關資訊
6. 主程式:使用 Google sheets API 憑證開啟試算表
7. 主程式:獲取運作天數
8. 主程式:寫入追蹤者和好友的人數及人氣流量數
9. 主程式:對照追蹤者和朋友的資料後寫入名單和裡面帳號的相關資訊
10. 主程式:寫入程式執行時的相關細節
11. 主程式:結束
(六)對噗浪 Plurk 的程式碼
1. 副程式
2. 主程式:取得起始時間和裝置資訊
3. 主程式:從個人頁面原始碼取得總流量、好友人數和追蹤者人數
4. 主程式:取得粉絲名單及其相關資訊
5. 主程式:取得朋友名單及其相關資訊
6. 主程式:使用 Google sheets API 憑證開啟試算表
7. 主程式:獲取運作天數
8. 主程式:寫入粉絲和好友的人數及流量數
9. 主程式:對照粉絲和朋友的資料後寫入名單和裡面帳號的相關資訊
10. 主程式:寫入程式執行時的相關細節
11. 主程式:結束
(七)預留章節
1. 副程式
2. 主程式:取得起始時間和裝置資訊
3. 主程式:中繼節
4. 主程式:使用 Google sheets API 憑證開啟試算表
5. 主程式:獲取運作天數
6. 主程式:中繼節
7. 主程式:結束
四、本地端自動化
(一)程式執行
(二)批次檔案 Batch File
(三)工作排程器
五、遠端自動化
(一)GitHub 帳號
(二)GitHub Secret
(三)GitHub Action
六、結論
(一)關於程式的結論
(二)關於整個專案的結論
參考資料
不分類
環境變數
本地自動化──Batch File
雲端自動化──GitHub Secret
雲端自動化──GitHub Action 的 YAML 參考資料
附錄
附錄一:爬蟲程式使用的套件 Package
附錄二:同樣意思,2 種效率
附錄三:專案的 GitHub 網址