想整理馬娘資料,要抓網路上的WIKI,正好可以練習近期學的爬蟲。
程式還是得動手寫,才能熟悉。
很多地方都是模糊不清,得一再去找函式的用法。
總之作為一個練習的紀錄。
資料型態
List
List.index() :抓 index值
List_A + List_B : list merge
List.copy() :當有必要保留原資料時,需用copy來複製一份。
[ 'x' for i in range(10) ] : 快速初始化list ,帶有重複資料直接用 = 來複製時,new_list 和 old_list 指向的記憶體位置相同,因此,改動new_list 的值,同時會動到old_list。
List = list(np.array(List) + 1 ) :要對list內逐項運算時,需先轉換成numpy array 的型態
Dictionary
Dict.keys() : 抓出所有的key值
Dict.values() : 抓出所有的value值
for key, value in Dict.items() : 在for loop 逐項抓出 key 和 value
for index, key in enumerate(Dict) :會抓到index 和 key
爬蟲
常用函式庫:requests 、 urllib.request、bs4.BeautifulSoup
流程:
準備標頭 headers(準備 session 、cookie)提出請求:request.Request(url = url, headers = headers)接受資料,並使用方便查找的物件類別:BeautifulSoup()打開網頁:request.urlopen()