我一直希望透過AI功能,實現與我設計的可愛Q版角色的互動和聊天。我一直都想跟八重神子這隻屑狐貍打嘴砲。於是,我決定先著手製作她的Live2D Q版模型,製作她各式各樣誇張有趣的表情與動作(容量關係在這只放18種表情),讓互動過程更加生動活潑。
為了讓各種AI連接上模型,我嘗試並研究現在有人開發過的方案,試過各種方式,雖然不少人在嘗試做接口,但目前大多都是個人開發/興趣開發的半成品方案,大多跟我的想像的還是有些差距,不過最後有找到了功能相較齊全的方式了。
聊天語言模型使用GPT-4o模型,GPT-4o在基礎能力上,在下合適的指令後,演繹任何角色我認為是最完美的方案,語音引擎採用Fast VITS,與她互動後,系統會根據對話內容生成相應的回應,識別其中的情緒,驅動模型呈現匹配的表情動作,隨後生成語音內容,並在播放語音的同時,讓角色的嘴型與語音同步,實現自然的互動體驗。
這個Q版的八重神子不僅能和我聊天、打嘴砲,還能用生動的動作和表情回應我!
理想上是這樣,但...可惜連接的接口目前大多沒有很成熟,而且AI聊天服務現在也不斷迭代,還是會有不少BUG,尤其是情緒識別常常錯亂,不過估計這項技術會隨著時間越來越成熟吧 σ`?′)σ