主題

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

LOVe高橋李依 | 2022-08-12 22:59:31 | 巴幣 20 | 人氣 441

我覺得很幹....最幹的那種...

之前實習要爬這個網頁

https://webb-site.com/dbpub/hksolfirms.asp

還有同網頁的其他頁面，都是table

要把table爬下來

然後當然就用beautiful soup這類static webpage的爬蟲軟件，把tags都爬下來，然後再多謝幾句code讓他們對齊format

搞了我兩個星期！?。。?！

其他部分沒問題，就是因爲format那些對不齊，總之就很煩

那時候心態是ok的，畢竟對爬蟲&coding不熟練，beautiful soup 基本上沒用過，而且經過不斷的嘗試，把大部分常用的code跟方法都記住了，那也算是有不少收穫

老闆那邊也不用擔心什麼，畢竟前面做的快，就這個task慢一點也沒什麼問題

然後事件過去幾天后，也就是今天

我無意中看到了這個網頁...

知乎——天秀！Pandas還能用來寫爬蟲？！

抱著好奇的心情點了進去

他説是static webpage的table都可以用 pd.read_html(url) 去爬下來

那就試試吧

結果...

.............

.....

...

..

後來想想，其實也合理

既然excel都能scrap html tables了（只是基本上沒人用，能用的都會用code解決），那理論上python也會有這種功能才對...用bs前應該先上網查一下的QQQQ

#萱弟 #實習

6

留言

創作回應

(??? ??)?{鳴aiRN7?

[e29] 辛苦了。

2022-08-13 13:41:59

LOVe高橋李依

感謝qq

2022-08-13 13:43:02

神無月若葉

甚麼英文...我看不懂[e26]

2022-08-29 22:50:55

LOVe高橋李依

啊這個是程式爬蟲啦

2022-08-29 23:05:03

LOVe高橋李依 acgllkotori

追蹤創作集

作者相關創作

作品資料夾

【大學】2022SUMMER實習心得+2022FALL時間表

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

【日?！课野终J同我的老婆了！！?。。。?！

【可愛/布偶】狗狗

【大學】2022-23 spring 時間表

日文1

大三上學期時間表——你有夢想嗎(ver2)

【煮】一次通關、椰汁(涼粉)(香蕉)西米露

【煮】兩次通關、番茄湯麵

【備份】RE: 亞洲盃徵中路隊友

大二下學期時間表

大二冬季時間表

【講解/進來給意見】simple linear regression原理+概念+流程（沒有任何數學

【半閑聊】關於聊天

2023 新年快樂

發國際短訊記得要加+++++++++++++++++

【備份】測試效果不錯的讀書方法

【備份】有興趣但不一定會用的科系要不要修？

測試界面

【備份】會計和經濟對投資的影響？

相關創作

婦產科實習隨手記2

日式烤企鵝

0

463

婦產科實習隨手記1

日式烤企鵝

1

412

【實習週記】2024W8&9──倦怠期

板橋a阿達

3

132

【實習週記】2024W6&7──我現在只想看失憶投捕漫畫第159集其他什麼都不想做

板橋a阿達

2

272

【實習日記第二季】番外──地獄廚房

君勾鏢

1

48

【實習週記】2024W4&5──對臺北宅宅而言，外出的終點站九成是臺北地下街

板橋a阿達

3

85

【實習週記】2024W3──這周領薪水了好耶

板橋a阿達

2

79

【實習日記第二季】畢業了(終)

君勾鏢

1

57

【實習週記】2024W2──巴哈的小屋創作不能放Emoji

板橋a阿達

3

124

【日誌】實習#3

冒險者黒崎

8

100

【實習日記第二季】畢典

君勾鏢

1

51

【實習週記】2024W1──我想不到標題要取什麼

板橋a阿達

3

94

【實習日記第二季】Google Summit

君勾鏢

2

59

【實習日記第二季】Newbie and Newbies

君勾鏢

2

59

綿延不斷的餐敘

君勾鏢

2

59

【實習日記第二季】The Final Presentation: That day

君勾鏢

1

115

【實習日記第二季】The Final Presentation: Before the Day

君勾鏢

1

119

變得混亂的日常

君勾鏢

1

79

【實習日記第二季】Jackpot

君勾鏢

1

66

【實習日記第二季】我當不成猴子

君勾鏢

2

80

ETH官方钱包

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

創作回應

作者相關創作

相關創作

更多創作

ETH官方钱包

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ

創作回應

作者相關創作

相關創作

更多創作

pandas爬html table，用了幾秒就完成了搞了兩星期的Beautiful soup QQ