今年暑假最後選擇去中研院實習,找了吳迪融當指導(dǎo)老師,實驗室主要在做強化學習。
前兩個禮拜讀了兩篇論文和實做一些基本的理論在2048上,那兩篇論文分別是 AlphaZero 和 MuZero,這兩篇是目前強化學習入門必看的,到現(xiàn)在很多模型依然是建立在這兩者之上,這兩篇是所有實習生都要看的,作業(yè)則是 TD-afterstate 和 multiple-ply ,只要幾行就能實做完成,對之後的實做沒啥幫助。
再來就進入到個人的主題,我一開始的主題是在 Hex 遊戲上訓練一個模型並出去比賽,但後來因為進度的問題與另外一位同學合併了主題,一起專注在 OOGomoku 上,他是一個變體規(guī)則的五子棋,多了一個第一手只能下邊緣的規(guī)則,讓黑白比較公平。
而我在這段期間開始去讀 KataGo 這篇文章,他算是近期較新的文章,改良了AlphaGo 並提出了一些可實做的理論,我就依據(jù)其中幾個點去實做,並訓練測試有沒有改善,這件事就花了快一個月,訓練這件事就是機器學習裡面最花時間的,然後有一個特別的點是我在訓練的空閒時間會去打 lol 等他跑完,而坐我後面的臺大同學會去做他實習以外的個人專案之類的,這就是差距。
最後有點太晚開始訓練最終模型,所以趕不上用最強的模型出去比賽,在8隊國際隊伍中拿下了第4名。
心得的話就這間實驗室非常的自由,一周兩次 meeting,剩下的時間可以想來就來,不想去就算了,跟企業(yè)實習比起來涼多了,然後學習到的東西也算多,也有能帶出來的成果。然後中研院的網(wǎng)路真的很穩(wěn)定,打 lol 的時候可以穩(wěn)定 1 ms 。