前幾天,參加了 MOPCON 科技年會,其中一場是由聯(lián)發(fā)科的 YC (陳宜昌) 分享「從研究推測大型語言模型將如何引領(lǐng)人機互動新革命」,主要是介紹 AI Agent (AI 代理) 需要滿足哪些要素,以及目前的研究方向。
這邊稍作整理筆記,也分享給各位。
------
一個 Agent 需要滿足三個要素:Perception、Decision Making、Action,分別是 感知世界、決策判斷、採取行動 三種能力。
AI Agent (AI 代理) 目前有以下四種研究方向:
- Natural Language Control
- Multi-modal Awareness
- Tool Using
- Reasoning
Natural Language Control:
我們希望可以透過自然語言,也就是用人類的語言就可以與 Agent 對話、下指令,能以更自然、流暢的方式與機器交流。
Multi-modal Awareness:
多模態(tài),LLM 除了可以支援文字輸入輸出,也要包含像是圖片、影片、聲音等等不同種類的數(shù)據(jù),以實現(xiàn)更複雜的任務(wù)。
Tool Using:
有些知識、動作光靠模型本身是沒辦法的,需要可以通過使用外部工具來完成更複雜的任務(wù)。
Reasoning:
除了基本靠直覺的 "快思",還需要更仔細思考、有邏輯的 "慢想"。像是透過 Chain of Thought (CoT) 或 ReAct (Reason + Act) 框架技巧來達成慢想的部分。
(更詳細的內(nèi)容,請直接到部落格閱讀,連結(jié)至於留言處)