主題

中研院暑期實習心得

淺黑色的光 | 2023-08-31 19:21:08 | 巴幣 4 | 人氣 731

今年暑假最後選擇去中研院實習，找了吳迪融當指導老師，實驗室主要在做強化學習。

前兩個禮拜讀了兩篇論文和實做一些基本的理論在2048上，那兩篇論文分別是 AlphaZero 和 MuZero，這兩篇是目前強化學習入門必看的，到現在很多模型依然是建立在這兩者之上，這兩篇是所有實習生都要看的，作業則是 TD-afterstate 和 multiple-ply ，只要幾行就能實做完成，對之後的實做沒啥幫助。

再來就進入到個人的主題，我一開始的主題是在 Hex 遊戲上訓練一個模型並出去比賽，但後來因為進度的問題與另外一位同學合併了主題，一起專注在 OOGomoku 上，他是一個變體規則的五子棋，多了一個第一手只能下邊緣的規則，讓黑白比較公平。

而我在這段期間開始去讀 KataGo 這篇文章，他算是近期較新的文章，改良了AlphaGo 並提出了一些可實做的理論，我就依據其中幾個點去實做，並訓練測試有沒有改善，這件事就花了快一個月，訓練這件事就是機器學習裡面最花時間的，然後有一個特別的點是我在訓練的空閒時間會去打 lol 等他跑完，而坐我後面的臺大同學會去做他實習以外的個人專案之類的，這就是差距。

最後有點太晚開始訓練最終模型，所以趕不上用最強的模型出去比賽，在8隊國際隊伍中拿下了第4名。

心得的話就這間實驗室非常的自由，一周兩次 meeting，剩下的時間可以想來就來，不想去就算了，跟企業實習比起來涼多了，然後學習到的東西也算多，也有能帶出來的成果。然後中研院的網路真的很穩定，打 lol 的時候可以穩定 1 ms 。