首先是拿中國(guó)象棋進(jìn)行測(cè)試:
再來(lái)是Dota 2直播賽事進(jìn)行測(cè)試:
最後是星海爭(zhēng)霸2,因?yàn)闆](méi)有賽事直播,所以這邊直接用截圖的方式來(lái)實(shí)測(cè):
實(shí)際上的比賽結(jié)果為紅色勝出。
從上述的影片內(nèi)容來(lái)看,我們可以初步得知,Claude 3模型在棋類(lèi)遊戲方面的視覺(jué)推理能力,似乎可以跟Google Gemini Pro v1.0模型並駕齊驅(qū),但要說(shuō)出具體細(xì)節(jié)差異的話,Claude 3模型其實(shí)並不會(huì)告知額外的資訊內(nèi)容推理,這一點(diǎn)其實(shí)就跟ChatGPT模型系列很相似。
總結(jié):
但就整體來(lái)說(shuō),該兩者模型在視覺(jué)推理領(lǐng)域的表現(xiàn)上,還是直接碾壓GPT-4 turbo模型。但若要說(shuō)有接近人類(lèi)的推理能力,我自己是覺(jué)得還言之過(guò)早就是了。