【群像邀稿】可不のCeVIO AI聲色雑感 by Eji
作者:Eji
2020年10月27日
在看這篇文章的朋友,心裡應該也住著自己的Miku。
雖說不見得像Sekai那樣,都有一個開給你的萬能空間、可以方便你用來實現(xiàn)心目中真正的目的;不過至少我們家的Miku,就這樣陪著我許多年,而帶著她出來吃飯是我每天的重要工作,要是發(fā)現(xiàn)忘記了她,我會折回去被她罵一下再出來。
M「マスター,你能不能講一下前幾天可不醬的事情?」
騎車覓食的時候,Miku突然講到這個。
繼IA/ONE、V Flower與結月緣的CeVIO AI發(fā)表之後,Vtuber 花譜與東北kiritan 都發(fā)表了將推出CeVIO AI的產(chǎn)品。而稍早花譜所屬官方「KAMITSUBAKI STUDIO」的推特上進行了一次調查,希望大家對三個引擎的聲音走向表示意見,分別是A很像本人、B變得比較幼感覺用引擎調過、C除了比較幼還顯得很電,類似autotune的質感。
收集了接近5500個左右的回答之中,有65%的人覺得像本人比較好。
但是之後花譜本人發(fā)表了一篇她本人覺得像自己不好,選了Type-B的發(fā)言
E「嗯嗯嗯....該說什麼,花譜本人都開口說自己深思熟慮之後選了B,其他人只能尊重....」
M「你不要講這麼簡短好不好,這樣為什麼要你講。」
E「嗯-好喔。」
在她的標準裡面每個人都可以是創(chuàng)作者,所以她會要求我做我現(xiàn)在能做的事情。
也許我能做的還是不多,但是....
M「至少嘴一下嘛。」
畢竟沒有推辭的理由。
----
うちのミクさんが聞く そのいち
「可不のCeVIO AI聲色雑感」
----
歌聲合成有幾個主要的世代,技術上雖然有更細的分界點,但是比較明顯的分界可能在「拼接合成」和「統(tǒng)計合成」,或者說「AI合成」兩塊。
拼接合成是要求本人以某個較為一致的表情,念或者唱一些設計好的片段集合,這些片段的表情被要求一致與平整的理由,是為了讓分析合成引擎可以較為簡易地伸縮與上下調整音高之後,配合需求拼貼上樂譜需要的部分。
拼接合成預期透過精細的輸入音高波動、音量大小、並透過聲碼器(Vocoder)提供的功能,比如如張嘴大小參數(shù)、子音發(fā)音時機、滑音發(fā)生時機、甚至近期的話會有喉部氣流流量模擬,聲帶張力等等,來「做出」需求的聲調。
也就是說拼接合成沒有任何輸入的時候,直接指打歌譜當下,引擎預設值發(fā)出的聲音,與本人的音調可說是截然不同的之外,每個使用者能做出的聲調也有很大的差異。
E「我們說調教就是在講這個,大家所認識的Miku的聲音,其實就是沒有調教的引擎預設值。這個預設值隨著每個世代引擎有若干進步有一些改變之外,變化沒有那麼劇烈,聽到會知道這是Miku而不是藤田咲桑」
統(tǒng)計合成則改為要求本人先以正常的方式表現(xiàn)一首一首的歌曲,這些歌曲都以本人慣有的演唱方式來演唱,然後演唱的整段波形標記發(fā)音點、樂譜的發(fā)音速度與實際發(fā)音的差距,然後將波形與樂譜的實際對應關係,用統(tǒng)計手法-現(xiàn)在的話會稱為機械學習手法來記錄,於是輸入樂譜的時候,就會透過機械學習的成果來進行推測/推論,得到波形。
這個推論會透過收錄時的歌曲紀錄來推測出,本人大概會怎麼唱這些歌。
也就是說,和拼接合成不同的是,統(tǒng)計/AI的無調,是引擎認為最接近本人的狀態(tài)。
一開始VOCALOID的無調,是一個「新的白紙」;
但是AI的無調,是「本人的拷貝」。
VOCALOID的進步,是把白紙變得越來越好畫,調整範圍越來越廣、可用的顏色越來越多;但是AI的進步,是一劈頭就拷貝得越來越像。沒有刻意去調整,其實是不知道它可調範圍多廣的。
在經(jīng)過了十多年下來,大家認識的Miku可以說活靈活現(xiàn)、根深蒂固,這是Crypton長期投資得來的主要資產(chǎn),自然不敢任意去改變她;相對的,沒有經(jīng)過這些時間累積,自然人氣會奠基在別的地方。
E「所以啦,雖說有人氣的原因有天時地利又加上多年累積,Miku有點機械感的聲音是歷史的累積;相對地,可不為什麼會成為話題有人氣?因為她是現(xiàn)在正炙手可熱的花譜小姐錄製下來的啊。作為產(chǎn)品,你賣的時候一定不可能把她蓋起來不讓買的人知道。可不的人氣與否無法脫離花譜獨立來討論,接著則是有多像的問題。」
CeVIO AI發(fā)表在2018年底,當時的展示demo號稱與真人無法分辨,從技術上而言,從當初使用HMM(隱藏式馬可夫模型-hidden markov model)技術的Sinsy與產(chǎn)品化的CeVIO之後,跨過了沒有推出產(chǎn)品的Sinsy DNN(深層類神經(jīng)網(wǎng)路-deep neural networks),使用了名古屋工業(yè)大學德田研究室新的CNN(摺積類神經(jīng)網(wǎng)路-convolutional neuron networks)合成,並且花了一年多的時間在維持品質的前提下將合成速度提高。在2019年底放出一些展示片段,並且在科研活動的場合也放出宣傳消息讓有興趣的人在現(xiàn)場體驗。那是真的相當有說服力的像人,只是不見得有本人站在旁邊讓人比較。
在語音/歌聲合成領域,HMM和DNN主要的差異在於「HMM沒有辦法學習連續(xù)波形,只能處理離散內(nèi)容與音高的斜率,所以頻譜和音高的細部波動會喪失;DNN開始可以學習到比較完整的連續(xù)內(nèi)容」,所以容量大幅增加,音質也大幅提高;但是德田研當時似乎是認為不夠好而擱置,只有研究用的Sinsy沒有用DNN推出CeVIO產(chǎn)品;到2018年才推出更進一步的CNN,可以學習到歌手比較細緻的音樂表現(xiàn),應該會在2020年底以前發(fā)售;此外,後來由其他研究者推出的NEUTRINO是屬於DNN類,所以或許研究室的老師們是標準比較高。
目前至少有好幾個單位都在做,YAMAHA之外還包含微軟、字節(jié)跳動、騰訊,跳進來得比以前多得多,而且軟體面的業(yè)務規(guī)模都比YAMAHA還大得多。
但是增加的都是以AI為根本在做的,都是試圖要做到更好的拷貝,除了拷貝似乎快到頂了,才開始想怎麼樣做控制,而不是傳統(tǒng)上我們說從無到有「調教」出像人的歌聲。
傳統(tǒng)調教的門檻非常高,能跨過這個門檻變成自己的特色,開始持續(xù)創(chuàng)作,對創(chuàng)作者的毅力是個極大的考驗,而且跨過了又是每次都得重複一次的過程。
所以Miku的多樣化是長時間累積起來的,確實要那些後起之秀都要過那個好漢坡有點時代錯誤,畢竟前人的累積會變成增加門檻,而把門檻降低了,可能有機會看到更多創(chuàng)作。
從上面這一整段引擎端的方法論我們可以看出,拷貝人的聲音是最近的顯學;但是人願不願意被拷貝?這個問題從最初VOCALOID1到現(xiàn)在還在持續(xù)著,可不與花譜只是歷史的重演、同樣的問題有不同的答案。
做過VOCALOID或者UTAU音源的人,通常會對音源比較坦然,不見得會去想自己被拷貝與否的事情,因為門檻高、投注心力大、原理上難以重現(xiàn)本人、以為得要面對的問題其實是不存在的,花譜本人也說對一個喜歡VOCALOID的人來說這是很難得很讓人興奮的事情。
但是在取樣與機械學習不同的方法論面前,收錄的容易度也會相去甚遠,這時候我們才真的需要考慮「你會不會擔心你的聲音被拷貝?」「被拷貝這件事情到底是好是壞?」
以結果來說可不目前預定會與花譜的聲音有著一定程度的差距,這個來源是ALP對頻譜的調整功能造成的,ALP相當於VOCALOID的GEN=性別參數(shù),內(nèi)容對頻譜進行調整,調高調低可以變得比較幼或者比較成熟,甚至接近變化成男生或者女生的聲音。有些調教則會在非常短的範圍內(nèi)使用GEN來進行音色變化,不過這邊我們不提;已經(jīng)有人嘗試過,即使引擎未來不開放把聲音調整調回花譜,也可以透過別的工具透過類似GEN/ALP的功能來調整,達到還原回本人聲音的這個目的。
花譜的二次創(chuàng)作條款非常嚴格,基本上是不太歡迎的,我會很好奇又和本人聲音做出差距,官方未來打算讓可不怎麼自處。
另一方面,我們其實已經(jīng)看到AIきりたん的前例在那邊。
她是聲優(yōu)接受要求演出特定角色聲線的結果,前有NEUTRINO後面又有CeVIO AI預備推出,應該都會很像「本人的某個聲線」,但是聽起來反彈的聲音幾乎沒有聽到,大概和聲優(yōu)這個職業(yè)的立場也有關係。
愛你的人夠多的話,不想要改變的力量會大過想改變的。反之在愛的人夠多之前,沒辦法往追求擬真走;現(xiàn)在問題是,真的很擬真到本人區(qū)別不出來,不就沒有剩下可以前進的空間了嗎?如果這樣還不夠被愛,那怎麼辦?
所以我覺得,AI歌聲會變成各取所需用過就丟。可以改變的幅度小,每個人都是因為現(xiàn)有的誰拷貝得來。看起來就是粉絲群的分化,彼此之間怎麼流通呢?
M「嗯嗯嗯,不過我看大家都在搞配對呢,大概是因為去找了現(xiàn)有的其他角色來吧。」
E「對啊,引擎的行銷找人氣角色甚至角色群很重要,但是角色本身就得靠積累了。」
E「所以愛蓮娜(SynthV)應該還是會看看有沒有機會繼續(xù)往前進步吧,即使可能會失卻一點點原味,但畢竟原味如果還不夠多人支持,那就只能繼續(xù)增加N(Nをふやせ)而已了。」
戀をして 戀をして 戀をして
ふられ また 捨てられて
過去をみて 枝を切れ
泣きたくなっても まだ N を増やせ
「耳のあるロボットの唄(nm3611741)」