【雜談】虛擬歌手雜談/歌曲推薦(二):從〈CITRUS〉到〈キュートなカノジョ〉,CeVIO的十年沉潛
*和上一篇一樣,長文注意。
*「背後的故事-虛擬歌手的技術」這一節,可能有一點閱讀難度
## 前言
卻說我上次那篇虛擬歌手雜談(一),其實主要還是圍繞在NPSS的貢獻。但事實上,這並不是一個十分準確的說法。那可能帶有一些敘事陷阱,讓人認為這個題目就只有Bonada等人在做,但事實並非如此。而這點在這一篇文章,也就是這系列雜談的第二篇裡面,會有具體的描述。
不過在這邊,我還是得要為自己辯駁一下──我在兩個月前,決定寫虛擬歌手背後,隱藏的歌聲合成的故事時,心裡想的是把一個「故事」講好。既然是故事,自然要有個主角,而內容則會圍繞這主角而行。我憑個人喜好,認為NPSS在歌聲合成的領域上,具有決定性的意義,而選了NPSS作為第一篇文章的主角,一切只是如此。
好了,鋪陳就到這邊。就像前一篇文章我以自己在2017年的所見所聞來鋪墊,在這邊我刻意提這主角配角之論,敘事陷阱之說,也算有其意義。今天我要聊的,就是關於CeVIO,一個曾經被淹沒的配角,一個令人驚嘆的成功。
## CeVIO
時間推回……不,跟上次不一樣,這次不必回推太久,只要回到2020年初就好,即兩年前。如果在那時做個調查,問有聽虛擬歌手的人,「你是否聽說過CeVIO這個歌聲合成軟體」或「你是否聽過CeVIO的虛擬歌手唱的歌」,得到的答案,想必十之八九是否定的吧。「那是啥?」「我只聽過V家跟U家」,不需要回到過去,光從數據面來看,便很容易猜出這樣的結果。
噢,話說回來,以防大家不知道,簡單說一下,CeVIO [
1] 是一個歌聲合成軟體,由Techno-Speech公司 [
2] 開發,在2013年推出。
至於數據面?這麼說吧,時序邁入2020年的那一刻,CeVIO所有虛擬歌手唱的歌當中,達到一百萬點閱的歌曲(傳說曲)僅有一首,即Orangestar的〈CITRUS〉[
3]。考慮到〈CITRUS〉這首歌是由Vocaloid的歌手IA與CeVIO的歌手ONE合唱,這一榮譽還得分一半給IA。從這情形看來,CeVIO在當初的知名度之低,可見一斑。
當然,按照萌娘百科的紀錄 [
4],我們知道在幾天後,ナナホシ管弦楽団的〈おねがいダーリン〉[
5] 也將達到百萬點閱,但那也僅是第二首歌而已。
## CeVIO << Vocaloid ???
好吧,如此看來,CeVIO必是一個很不堪的歌聲合成軟體吧,至少要遠差於Vocaloid,否則如何能解釋這情況!但事實真是如此嗎?這邊我推薦大家去聽一遍〈CITRUS〉,看看在這歌曲當中,究竟ONE跟IA的歌聲究竟如何。以我自己聽來(那首歌我自己也聽過幾十遍了吧),兩個人的表現真是相去不遠。也許ONE歌聲的表現力稍微差了一點,但她不只可以歌唱,又可講話,歌曲中還秀了一段獨白。整體來說,我絕不認為兩個軟體之間的差距有這麼懸殊。
但現實是殘酷的,幾年前我自己曾搜尋過其他CeVIO歌手演唱的歌曲,卻沒有一首真的稱得上有名。從CeVIO引擎推出的2013年,一路到2019年,或甚至是2020年,在虛擬歌手的漫長歷史中,人來人往,潮起潮落,「CeVIO」這個名詞卻總是被寫在最不起眼的角落,不曾被真正注意到。
## 轉機:CeVIO AI、可不
風風雨雨的2020年過去。2021年1月29日,一個CeVIO的後繼者,被稱做CeVIO AI的歌聲編輯器,踏上了虛擬歌手這個舞臺 [
6]。然而,那絕對不是一個萬眾矚目的產品。即使是那個時候,許多人仍然對CeVIO感到陌生,更遑論這被冠上了「AI」一詞的後繼者了。
好吧,一切好像就到此為止了。一個沒沒無聞的軟體,冠上了AI稱號,歌聲合成的方式也算是脫胎換骨了,卻依然擺脫不了沒沒無聞的本質……嗎?
大概是2021年7月左右,忽然間,好像從一個什麼都沒有的虛空,蹦出了一堆CeVIO AI的歌手「可不」[
7] 唱的歌 [
8], [
9]。到2021年11月,即我寫第一篇虛擬歌手雜談的時候,不管是在niconico還是Youtube,可不的聲勢,簡直已經凌駕在傳統Vocaloid歌手之上了。
只花了不到一年的時間,形勢就這樣翻轉。論名曲的點閱數,若限制在2021年投稿的範圍內,可不一人竟幾乎能與整個Vocaloid圈相抗衡。走過了沒沒無聞的八年的CeVIO,知名度也跟著水漲船高。
## 背後的故事
在講下去之前,還是要先打個預防針。前面那一段的描述,或許讓人有種鬥蟲民的感覺,但這部分我必須要說,那絕對不是我的本意。我不想爭V家還是C家比較好,也沒有要捧一個踩一個的意思。事實上,我自己現在也有聽新的V家歌曲,也不覺得那些歌就很爛。只是在這裡我想講述的,是關於CeVIO在這短暫的一年以內,究竟如何進到人們的眼球,取得成功而已。
當然,這絕非偶然,也不是一朝一夕就發生的事情。這故事有兩條線可以講,第一條是虛擬歌手的技術,第二條是可不。
### 虛擬歌手的技術
就像Yamaha在開發Vocaloid時,是與西班牙Voctro Labs合作(參見我虛擬歌手雜談的第一篇 [
10]),CeVIO的開發(當然也包括CeVIO AI),背後也有跟學術界合作。事實上,這個開發CeVIO的Techno-Speech公司,就是從名古屋工業大學的「徳田?南角?橋本研究室」[
11] spin-off出來的公司。當然,兩者之間的合作也十分密切。
至於這個「徳田?南角?橋本研究室」的主要研究內容,正是開發語音、歌聲合成的相關技術。領導實驗室的徳田恵一教授(以下稱作Tokuda) [
12],早在上個世紀末就開始研發相關的技術,同時擁有IEEE Fellow與ISCA Fellow的身分。從相關研究的資歷來看,他就和Jordi Bonada一樣,做這方面研究已做了至少二十年之久。不過早期Tokuda做的是語音的合成,而不像Bonada一樣(和Yamaha合作)做歌聲合成,這是一大差異。
Tokuda早期的研究方法,乃是以hidden Markov model(隱藏式馬可夫模型、HMM)[
13] 的方式達到語音或歌聲的合成。相關的研究結果被Techno-Speech公司商業化,成為了CeVIO軟體的核心。
由於這篇文章的寫作方向,並非面向有專業知識的讀者,所以我不會具體談HMM的細節。如果讀者對此有興趣,可參考臺大李琳山教授「數位語音處理概論」課程的投影片 [
14]。李琳山教授乃是臺灣語音處理的大師,中文語音辨識的先驅,同樣身兼IEEE Fellow與ISCA Fellow,亦是中研院院士,他的投影片或教學影片,值得有興趣的讀者一看。
總之,2013年的CeVIO軟體,主要採用的就是HMM的方法。這個方法可以大幅降低模型的大小,且還有其他額外的好處,但如果單論合成歌聲的品質、表現力,它並沒有比Vocaloid使用的concatenative-based方法(也就是把事先錄好的歌聲進行重組、調整,進而合成目標歌聲的方法)還要好。事實上,HMM合成的歌聲最被詬病的一點,正是缺乏表現力。因為模型可能沒有能力完全模仿一個歌手的聲音,而造成所謂over-smoothing的狀況 [
15]。
這個狀況可以用以下的例子解釋:假設一個人有兩種聲音,快樂與悲傷。但模型卻太過簡單,只能記錄一種聲音的特徵,那麼模型所學到的歌聲,就會介於快樂與悲傷之間,既不快樂,又不悲傷,自然就失去了表達力。
時間快轉來到2016年,深度學習的技術,逐漸被應用到各個領域上面,並取得了許多成功。那年的Interspeech 2016會議上,Tokuda實驗室發表了一個新的想法。他們訓練了一個深度神經網路(Deep Neural Networks, DNN),並用它取代了一大部份的HMM(當然也在一定程度上,緩解了over-smoothing的問題),打造了可能是史上第一個引入了NN的歌聲合成模型 [
16],論文名稱如下:
M. Nishimura, K.Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Singing voice synthesis based on deep neural networks,” in Proceedings of Interspeech 2016, pp. 2478–2482, 2016.
等等,先停一下。說到這裡,各位可能有些疑問,因為就在上一篇虛擬歌手的雜談 [
10] 當中,我就提到了NPSS的劃時代的意義,它使用NN的方式訓練歌聲合成模型,啟發了後來的人們……欸,但NPSS是Interspeech 2017啊,這篇論文豈不是正好早了一年嗎?
完全沒錯。問題是,Nishimura這篇(注意這篇的第一作者是Nishimura,而Tokuda則是掛在作者的最後一位。因此我接下來會用「Nishimura這篇」指稱),並沒有完全使用NN。當時Nishimura的這個DNN模型,雖然可以預測出不錯的結果,但或許是因為,它沒辦法很好地處理時間序列上的關聯(而事實上這點就是HMM的長處之一),所以還是得與傳統的HMM方法結合在一起,各取所長,才能在歌聲合成的效果上,取得進步。相對地,NPSS所使用的NN則有辦法處理這一問題,而不必借助於HMM的技術。
也就是說,以我們五年後的後見之明,Nishimura這篇論文所描述的方法,只是一個過渡性的手段,是從傳統HMM過渡到深度學習的一大步。
但時間已經開始轉動,一切已經埋下了伏筆。
2018年底,一篇Techno-Speech的文章 [
17] 吸引了我的注意。運用更新而更好的歌聲合成技術,Techno-Speech公布了一些demo音檔,其歌聲的真實度與表現力,均遠遠超過了他們過去的模型。這邊我推薦大家去聽聽看〈愛情轉移〉與〈Rolling In The Deep〉這兩首。
從現在的角度,去評價這首〈愛情轉移〉翻唱的自然程度,只怕大家會覺得「唉,也不過爾爾嘛」。但回到2018年底,那真的是令我十分震撼的。那年年底,SynthV剛剛公開,Vocaloid的時代依然屹立不搖,而NPSS的成功還沒被引入Vocaloid(Vocaloid AI是2019年才出來的,詳見我上一篇雜談 [
10])。如果要我評比,我會說Techno-Speech的demo,是超越其他軟體(注意,不是論文,因為論文實作成軟體需要時間)一年以上的。需要等到NEUTRINO或SynthV AI推出(都是2020年),才有辦法打平這個demo的成果。
更進一步,2019年4月16日,Youtube頻道「藤本健」投稿了號稱「世界上第一首AI合成的CD」(AI歌聲合成による世界初のCDリリース)的其中一首歌〈いつかかならず〉[
18],由さとうささら與IA演唱。聽到這首歌的時候,比起震撼,我甚至有一點感動。對啊,即使需要走過多少年,即使是多麼困難的目標,總有一天,那一天,一定會來臨的,對吧。
「いつかキミに屆く日が(deep deep learning)
來ると信じていて(keep keep going)
たとえ何年もかかっても(shape my future)
必ずその時が來るよ(day by day)
私の聲を感じて(deep deep learning)
私の歌ううた(keep keep going)
誰にも負けない 代われない キミにつたわるはずだよ」
──多田彰文〈いつかかならず〉
話雖如此,這邊還是有桶冷水,非得潑下去不可。事實上,這首歌並不是全自動讓機器合成的,而是有經過後續專家的修正、調整。但是,那並不影響一個事實──構成CeVIO AI雛形所需的技術的盡頭,已經能夠被看見了。具體從技術上來說,他們新的方法讓NN可以應付時間序列上的關聯性,且效果更好,遠遠超出了2016年他們自己論文的效果 [
19]。
後續,當然Tokuda實驗室還有繼續作研究,繼續投稿論文,繼續推出更好的歌聲合成方法。我不知道最後用在CeVIO AI上的技術,具體是來自於哪一篇論文,但那或許也不重要。重要的是,2018年底的那一刻,或在那之前,質的轉變已經發生了。
### 可不
雖然講了這麼多技術的事情,但一個軟體,或一個虛擬歌手能不能夠吸引人們的注意力,並不只是技術夠好即可,否則CeVIO與Vocaloid在2019年以前的人氣差距,就不會是如此一面倒了。
雖然我個人比較願意講技術面的革新,而不想討論這些,但我也不得不承認,CeVIO AI或可不的成功,絕對不只是因為合出來的人聲足夠真實而已。事實上,Vocaloid的爆紅,本來也就不是Vocaloid有多麼真實,而是初音未來帶起的一波旋風。這點甚至連Bonada自己也承認了(笑)[
20]。
可不,一個由花譜 [
21] 作為聲音提供者的虛擬歌手,其成功與花譜的知名度絕對脫不了關係。花譜,一個被稱作Vsinger的人物(注意這個Vsinger不能跟Vocaloid搞混。花譜是一個真人,不是虛擬歌手),神椿studio(KAMITSUBAKI STUDIO)[
22] 所屬,自從2018年10月出道至今,Youtube頻道已有63萬訂閱(回溯到2021年7月可不正式發售的時間點,大概也已破50萬訂閱了)。憑藉著自己獨特的歌聲,優秀的唱功,與神椿所屬的眾多知名創作者的協助(包含カンザキイオリ、Guiano等許多早已打響名號的P主),至今已發行多張專輯,舉辦多場演唱會,取得巨大的成功。事實上,筆者身邊就有認識不少觀測者(花譜的粉絲的稱呼),這點讓我十分驚訝。
(附帶一提,據說此人最近才剛滿18歲。若真是如此,那她所取得的成就,更是令人驚嘆。想想我18歲的時候到底做了什麼……)
總之,這樣一位在網路上著名的人物,將被作成CeVIO AI的聲庫,自是未演先轟動。2020年底左右,神椿方面對觀眾作了一個調查,他們提出三個可能的「可不」的聲線給大家票選。雖然最後他們按花譜本人的意願,選擇了沒有獲得最高票的聲線,但從當時參與投票的人數之多,可看出可不已初步打開了知名度。
其後,在聲庫正式發售前,眾多有名的P主被邀請去創作了可不的歌曲。傑出的一手!這種demo曲充分讓虛擬歌手得到了曝光度,將可不與CeVIO AI優秀的表現力展現給了大眾,當然也包括許多P主。最後,再加上花譜身為Vsinger的一大好處──她可以翻唱可不的歌曲,甚至與可不合唱──的推波助瀾之下,嘩!一年下來,在niconico上已有了三首傳說曲 [
8], [
9], [
23]。忽然間世界就翻轉了。
但你要說這是偶然嗎?或者只是炒熱度?我的想法自然是否定的。無論是前面所提到的技術進步,或是花譜個人的成就、神椿的推波助瀾,那可不是隨便一個人,一個計劃可以達到的成功。
## 小結
從2015年的〈CITRUS〉到2021年的〈キュートなカノジョ〉,或甚至回推到2009年12月25日,當名古屋工業大學的歌聲合成demo網站「Sinsy」[
24] 正式上線的時刻(即CeVIO的前身),那已是長達12年的漫長歲月。當Sinsy正式上線的時候,或CeVIO正式推出的時候,看著這一切的Tokuda,會料想要很久很久以後,CeVIO AI將會取得這樣的成功嗎?
我想他或許不會太過在意吧,甚至連對那些未來的想法,都不曾思考過。那與學術無關。更何況在學術層面上,Tokuda早已收穫了無數的榮譽。只是,就像Bonada的團隊在毫不知情的情況下,回過頭來,竟然發現自己所創造出的,並不只是一個普通的歌聲合成器,還包括那綿延了一整個世代,或甚至二個世代的Vocaloid文化──很久很久以後,當這些CeVIO AI的推手回頭一看,或許也會發現,其實自己所孕育出的,真的不只是一個優秀的歌聲合成軟體而已。
CeVIO AI的歷史還短。如果讓我以自己的期待作為結論,我會說,我不希望CeVIO AI取代Vocaloid,但我確實希望親眼看著,CeVIO AI的出現,究竟會為世界,尤其是這些虛擬歌手的音樂,帶來怎樣的改變。與Vocaloid橫空出世的2007年相比,2021年的世界,充滿了以前不能想像的事物。誰會知道,未來究竟會變得如何呢?
當然,我也期待「音楽的同位體」可不,究竟會為這虛擬與現實逐漸交融的世界,帶來怎樣的影響。
## 歌曲推薦
(考慮到本文描寫的內容,本篇主要會以CeVIO AI的歌為主)
格式:影片上傳者feat. 虛擬歌手 (歌聲合成引擎)〈歌曲名稱〉,引擎發布年份/虛擬歌手發布年份/歌曲發布年份
一二三 feat. 可不(CeVIO AI)〈ただいま、貴方〉, 2021/2021/2021
個人評論:我喜歡這首歌音高的調整方法。
Guiano feat. 可不(CeVIO AI)〈いつもシミュレーション〉, 2021/2021/2021
個人評論:我喜歡這種合唱的感覺。真人跟虛擬歌手之間的合聲,我只能說非常舒服,令我一聽再聽。
傘村トータ feat. 可不(CeVIO AI)〈ちゃんとあるよ〉, 2021/2021/2021
個人評論:表現力很強。比起自然度,這首選擇了表現力。就結果而言,我相信是優秀的。
芳田 feat. 初音ミク(Vocaloid)〈スパイラル?デイズ」〉, NA/NA/2020
個人評論:hmm,很難相信這是初音能唱出的歌聲。我不知道這是V4還是V5引擎,所以無法給引擎發布年份,但說真的,不管是怎樣,這都很值得一聽。歌曲本身讓我有種夢迴2010年代前半的感覺。
Chinozo feat. 可不(CeVIO AI)〈エリート〉, 2021/2021/2021
個人評論:我可以說這首純粹是我的個人喜好嗎?這首真的太洗腦了啦!而且我超喜歡「常識は守って暮らせよ ハッハ」這句,哈哈。
##參考資料
[1] https://cevio.jp/
[2] https://www.techno-speech.com/
[3] https://www.nicovideo.jp/watch/sm25950409
[4] https://zh.moegirl.org.cn/CeVIO%E4%BC%A0%E8%AF%B4%E6%9B%B2
[5] https://www.nicovideo.jp/watch/sm26099756
[6] https://cevio.jp/products_cevio_ai/
[7] https://kaf-u.kamitsubaki.jp/
[8] https://www.nicovideo.jp/watch/sm38300091
[9] https://www.nicovideo.jp/watch/sm38833751
[10] http://www.jamesdambrosio.com/creationDetail.php?sn=5315806
[11] https://www.sp.nitech.ac.jp/
[12] https://ja.wikipedia.org/wiki/徳田恵一
[13] L. Rabiner and B. Juang, “An introduction to hidden Markov models,” IEEE ASSP Magazine, vol. 3, no. 1, 1986.
[14] https://speech.ee.ntu.edu.tw/DSP2021Autumn/
[15] M. Blaauw and J. Bonada, “A neural parametric singing synthesizer modeling timbre and expressionfrom natural songs,” Applied Sciences, vol. 7, no. 12, 2017.
[16] M. Nishimura, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Singing voice synthesis basedon deep neural networks,” in Proceedings of Interspeech 2016, pp. 2478–2482, 2016.
[17] https://www.techno-speech.com/news-20181214a-en
[18] https://www.youtube.com/watch?v=xRknlXIHkmI
[19] K. Nakamura, K. Hashimoto, K. Oura, Y. Nankaku, K. Tokuda, “Singing voice synthesis based onconvolutional neural networks,” arXiv:1904.06868 [eess.AS], 2019.
[20] https://www.youtube.com/watch?v=ie5CJW8DeaY
[21] https://kamitsubaki.jp/artist/kaf/
[22] http://kamitsubaki.jp/
[23] https://www.nicovideo.jp/watch/sm39217773
[24] https://www.sinsy.jp/
## 一點點後記
剛剛把第一個版本傳上巴哈,總覺得還想說些什麼。嘛,文章真的很長,長得遠遠超乎我本來的想像。我本來只想寫三千字(這是我覺得比較舒服的文章長度),最後卻寫到五千多字。本來只想講CeVIO AI-可不這條線,結果把許多事情扯了進來。
不過,這裡面的一些事情,真是勾起了我不少回憶就是了。2018年底那個Techno-speech的文章,我真的是在2018年結束之前就看到了。當下我真的很震撼,也很期待那個demo背後的歌聲合成模型,正式被搭載到軟體上。某種意義上,那篇文章,和隨後的〈いつかかならず〉真的讓我有很深的感受。現在回想,那或許也改變了之後我的人生。
很高興CeVIO AI最後發售了,而且可不的成功讓人們看見了它。故事還沒結束,一切都在繼續,但我已經十分滿意。不過,這些人們的目標,所描繪的未來,肯定不像我一樣那麼簡單就被滿足吧。
btw,我真的很喜歡這篇列的五首歌曲。去年11、12月的時候,這些歌真的伴我走過了一段很艱苦的時光(也因此我直到兩個月後才發布了雜談的第二篇)。其中可不的那幾首,那真的是只有可不才能唱出來的。
york 2022.01.25