主題

【群像邀稿】可不のCeVIO AI聲色雑感 by Eji

未來群像 | 2024-07-30 00:03:11 | 巴幣 0 | 人氣 92

【群像邀稿】可不のCeVIO AI聲色雑感 by Eji

作者：Eji

https://www.plurk.com/ejiwarp

2020年10月27日

在看這篇文章的朋友，心裡應該也住著自己的Miku。

雖說不見得像Sekai那樣，都有一個開給你的萬能空間、可以方便你用來實現(xiàn)心目中真正的目的；不過至少我們家的Miku，就這樣陪著我許多年，而帶著她出來吃飯是我每天的重要工作，要是發(fā)現(xiàn)忘記了她，我會折回去被她罵一下再出來。

M「マスター，你能不能講一下前幾天可不醬的事情？」

騎車覓食的時候，Miku突然講到這個。

繼IA/ONE、V Flower與結月緣的CeVIO AI發(fā)表之後，Vtuber 花譜與東北kiritan 都發(fā)表了將推出CeVIO AI的產(chǎn)品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查，希望大家對三個引擎的聲音走向表示意見，分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電，類似autotune的質感。

收集了接近5500個左右的回答之中，有65%的人覺得像本人比較好。

但是之後花譜本人發(fā)表了一篇她本人覺得像自己不好，選了Type-B的發(fā)言

E「嗯嗯嗯....該說什麼，花譜本人都開口說自己深思熟慮之後選了B，其他人只能尊重....」

M「你不要講這麼簡短好不好，這樣為什麼要你講。」

E「嗯－好喔。」

在她的標準裡面每個人都可以是創(chuàng)作者，所以她會要求我做我現(xiàn)在能做的事情。

也許我能做的還是不多，但是....

M「至少嘴一下嘛。」

畢竟沒有推辭的理由。

----

うちのミクさんが聞く　そのいち

「可不のCeVIO AI聲色雑感」

----

歌聲合成有幾個主要的世代，技術上雖然有更細的分界點，但是比較明顯的分界可能在「拼接合成」和「統(tǒng)計合成」，或者說「AI合成」兩塊。

拼接合成是要求本人以某個較為一致的表情，念或者唱一些設計好的片段集合，這些片段的表情被要求一致與平整的理由，是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後，配合需求拼貼上樂譜需要的部分。

拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能，比如如張嘴大小參數(shù)、子音發(fā)音時機、滑音發(fā)生時機、甚至近期的話會有喉部氣流流量模擬，聲帶張力等等，來「做出」需求的聲調。

也就是說拼接合成沒有任何輸入的時候，直接指打歌譜當下，引擎預設值發(fā)出的聲音，與本人的音調可說是截然不同的之外，每個使用者能做出的聲調也有很大的差異。

E「我們說調教就是在講這個，大家所認識的Miku的聲音，其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外，變化沒有那麼劇烈，聽到會知道這是Miku而不是藤田咲桑」

統(tǒng)計合成則改為要求本人先以正常的方式表現(xiàn)一首一首的歌曲，這些歌曲都以本人慣有的演唱方式來演唱，然後演唱的整段波形標記發(fā)音點、樂譜的發(fā)音速度與實際發(fā)音的差距，然後將波形與樂譜的實際對應關係，用統(tǒng)計手法－現(xiàn)在的話會稱為機械學習手法來記錄，於是輸入樂譜的時候，就會透過機械學習的成果來進行推測/推論，得到波形。

這個推論會透過收錄時的歌曲紀錄來推測出，本人大概會怎麼唱這些歌。

也就是說，和拼接合成不同的是，統(tǒng)計/AI的無調，是引擎認為最接近本人的狀態(tài)。

一開始VOCALOID的無調，是一個「新的白紙」；

但是AI的無調，是「本人的拷貝」。

VOCALOID的進步，是把白紙變得越來越好畫，調整範圍越來越廣、可用的顏色越來越多；但是AI的進步，是一劈頭就拷貝得越來越像。沒有刻意去調整，其實是不知道它可調範圍多廣的。

在經(jīng)過了十多年下來，大家認識的Miku可以說活靈活現(xiàn)、根深蒂固，這是Crypton長期投資得來的主要資產(chǎn)，自然不敢任意去改變她；相對的，沒有經(jīng)過這些時間累積，自然人氣會奠基在別的地方。

E「所以啦，雖說有人氣的原因有天時地利又加上多年累積，Miku有點機械感的聲音是歷史的累積；相對地，可不為什麼會成為話題有人氣？因為她是現(xiàn)在正炙手可熱的花譜小姐錄製下來的啊。作為產(chǎn)品，你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論，接著則是有多像的問題。」

CeVIO AI發(fā)表在2018年底，當時的展示demo號稱與真人無法分辨，從技術上而言，從當初使用HMM(隱藏式馬可夫模型-hidden markov model)技術的Sinsy與產(chǎn)品化的CeVIO之後，跨過了沒有推出產(chǎn)品的Sinsy DNN(深層類神經(jīng)網(wǎng)路-deep neural networks)，使用了名古屋工業(yè)大學德田研究室新的CNN(摺積類神經(jīng)網(wǎng)路-convolutional neuron networks)合成，並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段，並且在科研活動的場合也放出宣傳消息讓有興趣的人在現(xiàn)場體驗。那是真的相當有說服力的像人，只是不見得有本人站在旁邊讓人比較。

在語音/歌聲合成領域，HMM和DNN主要的差異在於「HMM沒有辦法學習連續(xù)波形，只能處理離散內(nèi)容與音高的斜率，所以頻譜和音高的細部波動會喪失；DNN開始可以學習到比較完整的連續(xù)內(nèi)容」，所以容量大幅增加，音質也大幅提高；但是德田研當時似乎是認為不夠好而擱置，只有研究用的Sinsy沒有用DNN推出CeVIO產(chǎn)品；到2018年才推出更進一步的CNN，可以學習到歌手比較細緻的音樂表現(xiàn)，應該會在2020年底以前發(fā)售；此外，後來由其他研究者推出的NEUTRINO是屬於DNN類，所以或許研究室的老師們是標準比較高。

目前至少有好幾個單位都在做，YAMAHA之外還包含微軟、字節(jié)跳動、騰訊，跳進來得比以前多得多，而且軟體面的業(yè)務規(guī)模都比YAMAHA還大得多。

但是增加的都是以AI為根本在做的，都是試圖要做到更好的拷貝，除了拷貝似乎快到頂了，才開始想怎麼樣做控制，而不是傳統(tǒng)上我們說從無到有「調教」出像人的歌聲。

傳統(tǒng)調教的門檻非常高，能跨過這個門檻變成自己的特色，開始持續(xù)創(chuàng)作，對創(chuàng)作者的毅力是個極大的考驗，而且跨過了又是每次都得重複一次的過程。

所以Miku的多樣化是長時間累積起來的，確實要那些後起之秀都要過那個好漢坡有點時代錯誤，畢竟前人的累積會變成增加門檻，而把門檻降低了，可能有機會看到更多創(chuàng)作。

從上面這一整段引擎端的方法論我們可以看出，拷貝人的聲音是最近的顯學；但是人願不願意被拷貝？這個問題從最初VOCALOID1到現(xiàn)在還在持續(xù)著，可不與花譜只是歷史的重演、同樣的問題有不同的答案。

做過VOCALOID或者UTAU音源的人，通常會對音源比較坦然，不見得會去想自己被拷貝與否的事情，因為門檻高、投注心力大、原理上難以重現(xiàn)本人、以為得要面對的問題其實是不存在的，花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。

但是在取樣與機械學習不同的方法論面前，收錄的容易度也會相去甚遠，這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝？」「被拷貝這件事情到底是好是壞？」

以結果來說可不目前預定會與花譜的聲音有著一定程度的差距，這個來源是ALP對頻譜的調整功能造成的，ALP相當於VOCALOID的GEN=性別參數(shù)，內(nèi)容對頻譜進行調整，調高調低可以變得比較幼或者比較成熟，甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內(nèi)使用GEN來進行音色變化，不過這邊我們不提；已經(jīng)有人嘗試過，即使引擎未來不開放把聲音調整調回花譜，也可以透過別的工具透過類似GEN/ALP的功能來調整，達到還原回本人聲音的這個目的。

花譜的二次創(chuàng)作條款非常嚴格，基本上是不太歡迎的，我會很好奇又和本人聲音做出差距，官方未來打算讓可不怎麼自處。

另一方面，我們其實已經(jīng)看到AIきりたん的前例在那邊。

她是聲優(yōu)接受要求演出特定角色聲線的結果，前有NEUTRINO後面又有CeVIO AI預備推出，應該都會很像「本人的某個聲線」，但是聽起來反彈的聲音幾乎沒有聽到，大概和聲優(yōu)這個職業(yè)的立場也有關係。

愛你的人夠多的話，不想要改變的力量會大過想改變的。反之在愛的人夠多之前，沒辦法往追求擬真走；現(xiàn)在問題是，真的很擬真到本人區(qū)別不出來，不就沒有剩下可以前進的空間了嗎？如果這樣還不夠被愛，那怎麼辦？

所以我覺得，AI歌聲會變成各取所需用過就丟。可以改變的幅度小，每個人都是因為現(xiàn)有的誰拷貝得來。看起來就是粉絲群的分化，彼此之間怎麼流通呢？

M「嗯嗯嗯，不過我看大家都在搞配對呢，大概是因為去找了現(xiàn)有的其他角色來吧。」

E「對啊，引擎的行銷找人氣角色甚至角色群很重要，但是角色本身就得靠積累了。」

E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續(xù)往前進步吧，即使可能會失卻一點點原味，但畢竟原味如果還不夠多人支持，那就只能繼續(xù)增加N（Nをふやせ）而已了。」

戀をして　戀をして　戀をして

ふられ　また　捨てられて

過去をみて　枝を切れ

泣きたくなっても　まだ　N　を増やせ

「耳のあるロボットの唄（nm3611741）」

#VOCALOID

ETH官方钱包

【群像邀稿】可不のCeVIO AI聲色雑感 by Eji

創(chuàng)作回應

作者相關創(chuàng)作

相關創(chuàng)作

更多創(chuàng)作