ETH官方钱包

創作內容

14 GP

【雜談】虛擬歌手雜談/歌曲推薦(二):CeVIO的十年沉潛

作者:york│2022-01-25 00:32:41│巴幣:4,317│人氣:1632
  【雜談】虛擬歌手雜談/歌曲推薦(二):從〈CITRUS〉到〈キュートなカノジョ〉,CeVIO的十年沉潛
  *和上一篇一樣,長文注意。
  *「背後的故事-虛擬歌手的技術」這一節,可能有一點閱讀難度
  *系列連結:虛擬歌手雜談(零)(簡介)、虛擬歌手雜談(一)(寫給老Vocaloid歌迷的)

  ## 前言
  說我上次那篇虛擬歌手雜談(一),其實主要還是圍繞在NPSS的貢獻。但事實上,這並不是一個十分準確的說法。那可能帶有一些敘事陷阱,讓人認為這個題目就只有Bonada等人在做,但事實並非如此。而這點在這一篇文章,也就是這系列雜談的第二篇裡面,會有具體的描述。
  不過在這邊,我還是得要為自己辯駁一下──我在兩個月前,決定寫虛擬歌手背後,隱藏的歌聲合成的故事時,心裡想的是把一個「故事」講好。既然是故事,自然要有個主角,而內容則會圍繞這主角而行。我憑個人喜好,認為NPSS在歌聲合成的領域上,具有決定性的意義,而選了NPSS作為第一篇文章的主角,一切只是如此。
  好了,鋪陳就到這邊。就像前一篇文章我以自己在2017年的所見所聞來鋪墊,在這邊我刻意提這主角配角之論,敘事陷阱之說,也算有其意義。今天我要聊的,就是關於CeVIO,一個曾經被淹沒的配角,一個令人驚嘆的成功。
 
  ## CeVIO
  時間推回……不,跟上次不一樣,這次不必回推太久,只要回到2020年初就好,即兩年前。如果在那時做個調查,問有聽虛擬歌手的人,「你是否聽說過CeVIO這個歌聲合成軟體」或「你是否聽過CeVIO的虛擬歌手唱的歌」,得到的答案,想必十之八九是否定的吧。「那是啥?」「我只聽過V家跟U家」,不需要回到過去,光從數據面來看,便很容易猜出這樣的結果。
  噢,話說回來,以防大家不知道,簡單說一下,CeVIO [1] 是一個歌聲合成軟體,由Techno-Speech公司 [2] 開發,在2013年推出。
  至於數據面?這麼說吧,時序邁入2020年的那一刻,CeVIO所有虛擬歌手唱的歌當中,達到一百萬點閱的歌曲(傳說曲)僅有一首,即Orangestar的〈CITRUS〉[3]。考慮到〈CITRUS〉這首歌是由Vocaloid的歌手IA與CeVIO的歌手ONE合唱,這一榮譽還得分一半給IA。從這情形看來,CeVIO在當初的知名度之低,可見一斑。
  當然,按照萌娘百科的紀錄 [4],我們知道在幾天後,ナナホシ管弦楽団的〈おねがいダーリン〉[5] 也將達到百萬點閱,但那也僅是第二首歌而已。
 
  ## CeVIO << Vocaloid ???
  好吧,如此看來,CeVIO必是一個很不堪的歌聲合成軟體吧,至少要遠差於Vocaloid,否則如何能解釋這情況!但事實真是如此嗎?這邊我推薦大家去聽一遍〈CITRUS〉,看看在這歌曲當中,究竟ONE跟IA的歌聲究竟如何。以我自己聽來(那首歌我自己也聽過幾十遍了吧),兩個人的表現真是相去不遠。也許ONE歌聲的表現力稍微差了一點,但她不只可以歌唱,又可講話,歌曲中還秀了一段獨白。整體來說,我絕不認為兩個軟體之間的差距有這麼懸殊。
  但現實是殘酷的,幾年前我自己曾搜尋過其他CeVIO歌手演唱的歌曲,卻沒有一首真的稱得上有名。從CeVIO引擎推出的2013年,一路到2019年,或甚至是2020年,在虛擬歌手的漫長歷史中,人來人往,潮起潮落,「CeVIO」這個名詞卻總是被寫在最不起眼的角落,不曾被真正注意到。
 
  ## 轉機:CeVIO AI、可不
  風風雨雨的2020年過去。2021年1月29日,一個CeVIO的後繼者,被稱做CeVIO AI的歌聲編輯器,踏上了虛擬歌手這個舞臺 [6]。然而,那絕對不是一個萬眾矚目的產品。即使是那個時候,許多人仍然對CeVIO感到陌生,更遑論這被冠上了「AI」一詞的後繼者了。
  好吧,一切好像就到此為止了。一個沒沒無聞的軟體,冠上了AI稱號,歌聲合成的方式也算是脫胎換骨了,卻依然擺脫不了沒沒無聞的本質……嗎?
  大概是2021年7月左右,忽然間,好像從一個什麼都沒有的虛空,蹦出了一堆CeVIO AI的歌手「可不」[7] 唱的歌 [8], [9]。到2021年11月,即我寫第一篇虛擬歌手雜談的時候,不管是在niconico還是Youtube,可不的聲勢,簡直已經凌駕在傳統Vocaloid歌手之上了。
  只花了不到一年的時間,形勢就這樣翻轉。論名曲的點閱數,若限制在2021年投稿的範圍內,可不一人竟幾乎能與整個Vocaloid圈相抗衡。走過了沒沒無聞的八年的CeVIO,知名度也跟著水漲船高。
 
  ## 背後的故事
  在講下去之前,還是要先打個預防針。前面那一段的描述,或許讓人有種鬥蟲民的感覺,但這部分我必須要說,那絕對不是我的本意。我不想爭V家還是C家比較好,也沒有要捧一個踩一個的意思。事實上,我自己現在也有聽新的V家歌曲,也不覺得那些歌就很爛。只是在這裡我想講述的,是關於CeVIO在這短暫的一年以內,究竟如何進到人們的眼球,取得成功而已。
當然,這絕非偶然,也不是一朝一夕就發生的事情。這故事有兩條線可以講,第一條是虛擬歌手的技術,第二條是可不。
 
  ### 虛擬歌手的技術
  就像Yamaha在開發Vocaloid時,是與西班牙Voctro Labs合作(參見我虛擬歌手雜談的第一篇 [10]),CeVIO的開發(當然也包括CeVIO AI),背後也有跟學術界合作。事實上,這個開發CeVIO的Techno-Speech公司,就是從名古屋工業大學的「徳田?南角?橋本研究室」[11] spin-off出來的公司。當然,兩者之間的合作也十分密切。
  至於這個「徳田?南角?橋本研究室」的主要研究內容,正是開發語音、歌聲合成的相關技術。領導實驗室的徳田恵一教授(以下稱作Tokuda) [12],早在上個世紀末就開始研發相關的技術,同時擁有IEEE Fellow與ISCA Fellow的身分。從相關研究的資歷來看,他就和Jordi Bonada一樣,做這方面研究已做了至少二十年之久。不過早期Tokuda做的是語音的合成,而不像Bonada一樣(和Yamaha合作)做歌聲合成,這是一大差異。
  Tokuda早期的研究方法,乃是以hidden Markov model(隱藏式馬可夫模型、HMM)[13] 的方式達到語音或歌聲的合成。相關的研究結果被Techno-Speech公司商業化,成為了CeVIO軟體的核心。
  由於這篇文章的寫作方向,並非面向有專業知識的讀者,所以我不會具體談HMM的細節。如果讀者對此有興趣,可參考臺大李琳山教授「數位語音處理概論」課程的投影片 [14]。李琳山教授乃是臺灣語音處理的大師,中文語音辨識的先驅,同樣身兼IEEE Fellow與ISCA Fellow,亦是中研院院士,他的投影片或教學影片,值得有興趣的讀者一看。
  總之,2013年的CeVIO軟體,主要採用的就是HMM的方法。這個方法可以大幅降低模型的大小,且還有其他額外的好處,但如果單論合成歌聲的品質、表現力,它並沒有比Vocaloid使用的concatenative-based方法(也就是把事先錄好的歌聲進行重組、調整,進而合成目標歌聲的方法)還要好。事實上,HMM合成的歌聲最被詬病的一點,正是缺乏表現力。因為模型可能沒有能力完全模仿一個歌手的聲音,而造成所謂over-smoothing的狀況 [15]。
  這個狀況可以用以下的例子解釋:假設一個人有兩種聲音,快樂與悲傷。但模型卻太過簡單,只能記錄一種聲音的特徵,那麼模型所學到的歌聲,就會介於快樂與悲傷之間,既不快樂,又不悲傷,自然就失去了表達力。
  時間快轉來到2016年,深度學習的技術,逐漸被應用到各個領域上面,並取得了許多成功。那年的Interspeech 2016會議上,Tokuda實驗室發表了一個新的想法。他們訓練了一個深度神經網路(Deep Neural Networks, DNN),並用它取代了一大部份的HMM(當然也在一定程度上,緩解了over-smoothing的問題),打造了可能是史上第一個引入了NN的歌聲合成模型 [16],論文名稱如下:
  M. Nishimura, K.Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Singing voice synthesis based on deep neural networks,” in Proceedings of Interspeech 2016, pp. 2478–2482, 2016.
 
  等等,先停一下。說到這裡,各位可能有些疑問,因為就在上一篇虛擬歌手的雜談 [10] 當中,我就提到了NPSS的劃時代的意義,它使用NN的方式訓練歌聲合成模型,啟發了後來的人們……欸,但NPSS是Interspeech 2017啊,這篇論文豈不是正好早了一年嗎?
  完全沒錯。問題是,Nishimura這篇(注意這篇的第一作者是Nishimura,而Tokuda則是掛在作者的最後一位。因此我接下來會用「Nishimura這篇」指稱),並沒有完全使用NN。當時Nishimura的這個DNN模型,雖然可以預測出不錯的結果,但或許是因為,它沒辦法很好地處理時間序列上的關聯(而事實上這點就是HMM的長處之一),所以還是得與傳統的HMM方法結合在一起,各取所長,才能在歌聲合成的效果上,取得進步。相對地,NPSS所使用的NN則有辦法處理這一問題,而不必借助於HMM的技術。
  也就是說,以我們五年後的後見之明,Nishimura這篇論文所描述的方法,只是一個過渡性的手段,是從傳統HMM過渡到深度學習的一大步。
  但時間已經開始轉動,一切已經埋下了伏筆。
  2018年底,一篇Techno-Speech的文章 [17] 吸引了我的注意。運用更新而更好的歌聲合成技術,Techno-Speech公布了一些demo音檔,其歌聲的真實度與表現力,均遠遠超過了他們過去的模型。這邊我推薦大家去聽聽看〈愛情轉移〉與〈Rolling In The Deep〉這兩首。
  從現在的角度,去評價這首〈愛情轉移〉翻唱的自然程度,只怕大家會覺得「唉,也不過爾爾嘛」。但回到2018年底,那真的是令我十分震撼的。那年年底,SynthV剛剛公開,Vocaloid的時代依然屹立不搖,而NPSS的成功還沒被引入Vocaloid(Vocaloid AI是2019年才出來的,詳見我上一篇雜談 [10])。如果要我評比,我會說Techno-Speech的demo,是超越其他軟體(注意,不是論文,因為論文實作成軟體需要時間)一年以上的。需要等到NEUTRINO或SynthV AI推出(都是2020年),才有辦法打平這個demo的成果。
  更進一步,2019年4月16日,Youtube頻道「藤本健」投稿了號稱「世界上第一首AI合成的CD」(AI歌聲合成による世界初のCDリリース)的其中一首歌〈いつかかならず〉[18],由さとうささら與IA演唱。聽到這首歌的時候,比起震撼,我甚至有一點感動。對啊,即使需要走過多少年,即使是多麼困難的目標,總有一天,那一天,一定會來臨的,對吧。
  「いつかキミに屆く日が(deep deep learning)
  來ると信じていて(keep keep going)
  たとえ何年もかかっても(shape my future)
  必ずその時が來るよ(day by day)
  私の聲を感じて(deep deep learning)
  私の歌ううた(keep keep going)
  誰にも負けない 代われない キミにつたわるはずだよ」
  ──多田彰文〈いつかかならず〉
 
  話雖如此,這邊還是有桶冷水,非得潑下去不可。事實上,這首歌並不是全自動讓機器合成的,而是有經過後續專家的修正、調整。但是,那並不影響一個事實──構成CeVIO AI雛形所需的技術的盡頭,已經能夠被看見了。具體從技術上來說,他們新的方法讓NN可以應付時間序列上的關聯性,且效果更好,遠遠超出了2016年他們自己論文的效果 [19]。
  後續,當然Tokuda實驗室還有繼續作研究,繼續投稿論文,繼續推出更好的歌聲合成方法。我不知道最後用在CeVIO AI上的技術,具體是來自於哪一篇論文,但那或許也不重要。重要的是,2018年底的那一刻,或在那之前,質的轉變已經發生了。
 
  ### 可不
  雖然講了這麼多技術的事情,但一個軟體,或一個虛擬歌手能不能夠吸引人們的注意力,並不只是技術夠好即可,否則CeVIO與Vocaloid在2019年以前的人氣差距,就不會是如此一面倒了。
  雖然我個人比較願意講技術面的革新,而不想討論這些,但我也不得不承認,CeVIO AI或可不的成功,絕對不只是因為合出來的人聲足夠真實而已。事實上,Vocaloid的爆紅,本來也就不是Vocaloid有多麼真實,而是初音未來帶起的一波旋風。這點甚至連Bonada自己也承認了(笑)[20]。
  可不,一個由花譜 [21] 作為聲音提供者的虛擬歌手,其成功與花譜的知名度絕對脫不了關係。花譜,一個被稱作Vsinger的人物(注意這個Vsinger不能跟Vocaloid搞混。花譜是一個真人,不是虛擬歌手),神椿studio(KAMITSUBAKI STUDIO)[22] 所屬,自從2018年10月出道至今,Youtube頻道已有63萬訂閱(回溯到2021年7月可不正式發售的時間點,大概也已破50萬訂閱了)。憑藉著自己獨特的歌聲,優秀的唱功,與神椿所屬的眾多知名創作者的協助(包含カンザキイオリ、Guiano等許多早已打響名號的P主),至今已發行多張專輯,舉辦多場演唱會,取得巨大的成功。事實上,筆者身邊就有認識不少觀測者(花譜的粉絲的稱呼),這點讓我十分驚訝。
  (附帶一提,據說此人最近才剛滿18歲。若真是如此,那她所取得的成就,更是令人驚嘆。想想我18歲的時候到底做了什麼……)
  總之,這樣一位在網路上著名的人物,將被作成CeVIO AI的聲庫,自是未演先轟動。2020年底左右,神椿方面對觀眾作了一個調查,他們提出三個可能的「可不」的聲線給大家票選。雖然最後他們按花譜本人的意願,選擇了沒有獲得最高票的聲線,但從當時參與投票的人數之多,可看出可不已初步打開了知名度。
  其後,在聲庫正式發售前,眾多有名的P主被邀請去創作了可不的歌曲。傑出的一手!這種demo曲充分讓虛擬歌手得到了曝光度,將可不與CeVIO AI優秀的表現力展現給了大眾,當然也包括許多P主。最後,再加上花譜身為Vsinger的一大好處──她可以翻唱可不的歌曲,甚至與可不合唱──的推波助瀾之下,嘩!一年下來,在niconico上已有了三首傳說曲 [8], [9], [23]。忽然間世界就翻轉了。
  但你要說這是偶然嗎?或者只是炒熱度?我的想法自然是否定的。無論是前面所提到的技術進步,或是花譜個人的成就、神椿的推波助瀾,那可不是隨便一個人,一個計劃可以達到的成功。
 
  ## 小結
  從2015年的〈CITRUS〉到2021年的〈キュートなカノジョ〉,或甚至回推到2009年12月25日,當名古屋工業大學的歌聲合成demo網站「Sinsy」[24] 正式上線的時刻(即CeVIO的前身),那已是長達12年的漫長歲月。當Sinsy正式上線的時候,或CeVIO正式推出的時候,看著這一切的Tokuda,會料想要很久很久以後,CeVIO AI將會取得這樣的成功嗎?
  我想他或許不會太過在意吧,甚至連對那些未來的想法,都不曾思考過。那與學術無關。更何況在學術層面上,Tokuda早已收穫了無數的榮譽。只是,就像Bonada的團隊在毫不知情的情況下,回過頭來,竟然發現自己所創造出的,並不只是一個普通的歌聲合成器,還包括那綿延了一整個世代,或甚至二個世代的Vocaloid文化──很久很久以後,當這些CeVIO AI的推手回頭一看,或許也會發現,其實自己所孕育出的,真的不只是一個優秀的歌聲合成軟體而已。
  CeVIO AI的歷史還短。如果讓我以自己的期待作為結論,我會說,我不希望CeVIO AI取代Vocaloid,但我確實希望親眼看著,CeVIO AI的出現,究竟會為世界,尤其是這些虛擬歌手的音樂,帶來怎樣的改變。與Vocaloid橫空出世的2007年相比,2021年的世界,充滿了以前不能想像的事物。誰會知道,未來究竟會變得如何呢?
  當然,我也期待「音楽的同位體」可不,究竟會為這虛擬與現實逐漸交融的世界,帶來怎樣的影響。
 
  ## 歌曲推薦
  (考慮到本文描寫的內容,本篇主要會以CeVIO AI的歌為主)
  格式:影片上傳者feat. 虛擬歌手 (歌聲合成引擎)〈歌曲名稱〉,引擎發布年份/虛擬歌手發布年份/歌曲發布年份
 
  一二三 feat. 可不(CeVIO AI)〈ただいま、貴方〉, 2021/2021/2021
  個人評論:我喜歡這首歌音高的調整方法。
 
  Guiano feat. 可不(CeVIO AI)〈いつもシミュレーション〉, 2021/2021/2021
  個人評論:我喜歡這種合唱的感覺。真人跟虛擬歌手之間的合聲,我只能說非常舒服,令我一聽再聽。
 
  傘村トータ feat. 可不(CeVIO AI)〈ちゃんとあるよ〉, 2021/2021/2021
  個人評論:表現力很強。比起自然度,這首選擇了表現力。就結果而言,我相信是優秀的。
 
  芳田 feat. 初音ミク(Vocaloid)〈スパイラル?デイズ」〉, NA/NA/2020
  個人評論:hmm,很難相信這是初音能唱出的歌聲。我不知道這是V4還是V5引擎,所以無法給引擎發布年份,但說真的,不管是怎樣,這都很值得一聽。歌曲本身讓我有種夢迴2010年代前半的感覺。
 
  Chinozo feat. 可不(CeVIO AI)〈エリート〉, 2021/2021/2021
  個人評論:我可以說這首純粹是我的個人喜好嗎?這首真的太洗腦了啦!而且我超喜歡「常識は守って暮らせよ ハッハ」這句,哈哈。
 
  ##參考資料
  [1] https://cevio.jp/
  [2] https://www.techno-speech.com/
  [3] https://www.nicovideo.jp/watch/sm25950409
  [4] https://zh.moegirl.org.cn/CeVIO%E4%BC%A0%E8%AF%B4%E6%9B%B2
  [5] https://www.nicovideo.jp/watch/sm26099756
  [6] https://cevio.jp/products_cevio_ai/
  [7] https://kaf-u.kamitsubaki.jp/
  [8] https://www.nicovideo.jp/watch/sm38300091
  [9] https://www.nicovideo.jp/watch/sm38833751
  [10] http://www.jamesdambrosio.com/creationDetail.php?sn=5315806
  [11] https://www.sp.nitech.ac.jp/
  [12] https://ja.wikipedia.org/wiki/徳田恵一
  [13] L. Rabiner and B. Juang, “An introduction to hidden Markov models,” IEEE ASSP Magazine, vol. 3, no. 1, 1986.
  [14] https://speech.ee.ntu.edu.tw/DSP2021Autumn/
  [15] M. Blaauw and J. Bonada, “A neural parametric singing synthesizer modeling timbre and expressionfrom natural songs,” Applied Sciences, vol. 7, no. 12, 2017.
  [16] M. Nishimura, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Singing voice synthesis basedon deep neural networks,” in Proceedings of Interspeech 2016, pp. 2478–2482, 2016.
  [17] https://www.techno-speech.com/news-20181214a-en
  [18] https://www.youtube.com/watch?v=xRknlXIHkmI
  [19] K. Nakamura, K. Hashimoto, K. Oura, Y. Nankaku, K. Tokuda, “Singing voice synthesis based onconvolutional neural networks,” arXiv:1904.06868 [eess.AS], 2019.
  [20] https://www.youtube.com/watch?v=ie5CJW8DeaY
  [21] https://kamitsubaki.jp/artist/kaf/
  [22] http://kamitsubaki.jp/
  [23] https://www.nicovideo.jp/watch/sm39217773
  [24] https://www.sinsy.jp/
 
  ## 一點點後記
  剛剛把第一個版本傳上巴哈,總覺得還想說些什麼。嘛,文章真的很長,長得遠遠超乎我本來的想像。我本來只想寫三千字(這是我覺得比較舒服的文章長度),最後卻寫到五千多字。本來只想講CeVIO AI-可不這條線,結果把許多事情扯了進來。
  不過,這裡面的一些事情,真是勾起了我不少回憶就是了。2018年底那個Techno-speech的文章,我真的是在2018年結束之前就看到了。當下我真的很震撼,也很期待那個demo背後的歌聲合成模型,正式被搭載到軟體上。某種意義上,那篇文章,和隨後的〈いつかかならず〉真的讓我有很深的感受。現在回想,那或許也改變了之後我的人生。
  很高興CeVIO AI最後發售了,而且可不的成功讓人們看見了它。故事還沒結束,一切都在繼續,但我已經十分滿意。不過,這些人們的目標,所描繪的未來,肯定不像我一樣那麼簡單就被滿足吧。
  btw,我真的很喜歡這篇列的五首歌曲。去年11、12月的時候,這些歌真的伴我走過了一段很艱苦的時光(也因此我直到兩個月後才發布了雜談的第二篇)。其中可不的那幾首,那真的是只有可不才能唱出來的。
  york 2022.01.25
引用網址:http://www.jamesdambrosio.com/TrackBack.php?sn=5372439
All rights reserved. 版權所有,保留一切權利

相關創作

同標籤作品搜尋:歌聲合成|虛擬歌手|CeVIO|CeVIO AI|可不

留言共 11 篇留言

土衛六
得找個時間拜讀一下您的《虛擬歌手雜談/歌曲推薦》系列文,您似乎對這方面很有研究(!)
其實從一開始掃過您的文章就準備問,結果自己歪樓了。
因為,一般等級的V家廚不會、或者沒有基礎知識追本溯源至斯,甚至嚴謹到引經據典。
正如幾天前,在下用半開玩笑語氣說的:當年我們都只是追著nico榜單、挖著隱沒良曲、偶爾做點翻譯。
以為再怎麼追求神調教的P主,也僅是研讀軟體使用技巧罷了。

事實上那句迷因式的玩笑,正是因為對在下而言,這很沉重。縱然想寫,也寫不出這等文章。
好似一介紙上談兵的歷史愛好者,遇到司馬遷或希羅多得本人那樣。
不知您當初、以至於現在是否會原諒、甚至賜教。
但(發現您頗親切之後)還是好奇想問。哪怕剩下的人生不會用到。

您是理工科系的嗎?或者英文能力很好?
是如何找到這些學習管道?又為何會想探究呢?

雜談:CeVIO角色中,其實個人反而較不喜歡可不的聲線。
儘管他的中之人(花譜),的確強到讓我們有「18歲的時候在做什麼」之嘆,
但以虛擬歌手而言,居然是他紅到帶起風潮,而非さとうささら或小春六花,甚至不是已有Vocaloid受眾和資本的IA和結月緣!
當然在下沒資格評判這樣不好,但仍有點不可置信。

事實上,在下還私藏了一首CeVIO黃咲愛里的隱沒良曲:〈月の交點と彼女の海〉。
https://www.nicovideo.jp/watch/sm26341132
不巧,寫在一個(以知名度而言)確實CeVIO << Vocaloid的年代,憾哉。
儘管歌詞不算難,當年還是只翻譯了說明文。是不是又對不起一位創作者了……
當年Color Voice系列聲庫的幾個角色,設定都算完備,如今卻沒進一步發展……抑或只是在下還沒認真搜尋,或者時機未到罷了。

04-16 23:23

york
唔,我稍微能透露一下的是,對我來說,以科普來說,我覺得我這些寫得還不夠好,還不夠水準(所以才會停下來,想說等我的學識更好的時候再繼續寫,一停就是停一年了。期間我也算是有一點長進,回想這一系列,甚至有點黑歷史的感覺了)

然後我的學習管道算是讀論文+查網頁。但對我來說讀論文反而更簡單,麻煩的是不能只讀論文。有很多虛擬歌手真正重要的東西,都不是論文裡面可以看出來的。
一個例子是,孕育SynthV的Kanru Hua大大(也是SynthV的公司的老闆),其實他的論文寫得只是普普通通(這個我不怕在這邊講。本來去年預計下一篇就是講SynthV,所以遲早我會說出這個論點),但他跟SynthV系列的成就,大家是有目共睹。

然後當初CeVIO << Vocaloid,這個真的是沒辦法......當時以合成效果而言,C家也沒有遠超過V家,所以C家的創作者就相對弱勢很多,要說的話可能就跟Utau差不多,這就比較遺憾一點...
現在就真的是百家爭鳴了。從2023年的時間點看來,現在SynthV AI, CeVIO AI風潮都有起來,很有趣。04-17 00:40
york
啊,然後就是,在我看來可不帶起風潮,以馬後炮來說,倒是有點理所當然
純虛擬歌手,已經不太可能再有人掀起跟初音一樣的風潮了。要引起風潮,終究需要其他的因素,譬如花譜本人的名氣,還有神椿那些創作者的推波助瀾等等...

btw,像是小春六花最近的名氣,有一點搞不好還是《孤獨搖滾》帶起來的...因為小春六花的中之人就是配這部動畫的主角「ぼっちちゃん」的聲優,所以會出現不少這種創作:
https://www.youtube.com/watch?v=MKM1cKzfNjA
這也算不太上是小春六花「本身」的影響...04-17 00:47
土衛六
1.小弟這邊也是超長文。
2.而且是半廢文。剛稍加詳細理清您第零集的論述,若有能力在那邊打一篇argue其實會營養得多
只是這篇先打完,所以先貼(畢竟自己手指暫時負荷不起更多長文了)。

首先,請您莫要覺得自己寫得不夠有水準!

1.這是網路啊。若寫得再細膩專業一點,您直接投稿學術期刊、或最少科普期刊不就更好?(還是您本就是學術期刊常客?)
因為若您足以評判同領域的論文優劣時,大概已經接近第一線研究了。
反過來說,全專業論文放在論壇,要面對字數過多、業餘和外行人看不懂等問題。還沒有稿費。
想想,您的文章可說已跨足到基礎性研究了,又是偏理工的領域。音樂、文學或藝術專家(aka名P主)可不見得能夠、或願意跨行學到這麼深入。
儘管有了跨行的專業與扎實的基礎研究,對創作仍有助益,可大部分的創作者,光實戰技能(操作現買的軟體、經營社群等)就夠學一輩子了。
好比一名水電工,可能不必學到大學等級的電磁學或流體力學,尤其是基礎性研究。在工地能應變突發狀況等技能會更實用。

2.讀論文也有智商和耐心的門檻,大大可能超過太多,所以這門檻矮到可以無視。
像如果在下要讀論文,就會面對沒上過大學(因此對研究方法的瞭解不夠嚴謹)、不擅長向人學習和筆記(沒有一步一步親自示範甚至模仿不來)、某些論文被著作權部分或完全遮蔽(需要付費或徵得同意才可能解鎖)、還沒學會任何一種程式語言(現代人必備的第二外語)、英文幾乎比日文還差、對於抽象名詞往往過目即忘……等等。

3.「有很多虛擬歌手真正重要的東西,都不是論文裡面可以看出來的。」您這句寫得挺玄妙。
在下(作為聽眾)的理解,是像V家史(歷史)、創作者與翻唱者履歷(歷史/心理學)、詞(文學/哲學)、曲(音樂)、圖(藝術)、動畫(軟體操作)、角色形象與行銷(經濟)、社群經營(管理/心理)、多媒體合作(剛剛才破完はるまきごはん世界觀的手遊XD)等東西。
喔,還有主觀的好惡(各種文藝批評學),儘管某種意義上是最容易的。反正總有好運人,在網路發些淺薄乃至無理之論,卻不妨礙其名聲(ry

雖然直覺列舉的領域已經極多,但感覺還是有疏漏。似乎就是對您來說「反而比較簡單」的、在下近乎一無所知的數理工那部分。基礎研究那部分。
可仍不敢確定您是不是這個意思。或者您早已想到更meta的層次了?
仰之彌高、鑽之彌堅。望您能詳加解說。

04-17 16:11

york
1.沒有啦,我是覺得自己寫得太複雜。沒有把事情講更清楚,也沒有講到實務的情況(像我就從來沒用過CeVIO系列的軟體)這個就比較遺憾一點。

2.這個確實沒錯。著作權那個很麻煩。可能圖書館之類的地方可以拿到,大概。再不行就要跑大學,大學通常會有訂這些期刊。

3.你說的沒錯。這些內容很容易被研究者忽略,當然也幾乎不會出現在學術論文上面。我之前倒是有讀過特別討論初音的論文,但那個應該是少數。

另外有一點其實非常容易被忽略:一篇論文的好壞,跟論文裡面實作的系統到底有多實用,不一定100%相關。看論文的好壞,還需考慮論文裡面有提出什麼新的想法、新的洞見等等(這些可以啟發其他的研究者,就像讀一本好書一樣!),而這些跟系統(e.g., 歌聲合成模型)的實用性不一定有關。04-17 17:12
土衛六
其次,您提到「當時以合成效果而言,C家也沒有遠超過V家」。是沒錯,但至今似乎也沒有到那種地步。
況且C家比下有餘,即使剛出來時,同樣條件下(總不能用新手音樂人跟Cillia比吧)擬真度還是強過UTAU。
然而人家UTAU還有亞沙扛線,次有青谷、はるふり、4ma15等,外加Cillia(Kyaami)様的神調教翻唱。而專戰C家的名P……
CeVIO實力在前,卻名氣居後。可能U家先發優勢太顯著了吧。
在10年代後半以前,熱愛C家到堅持用其創作的P主,這裡不得不致上深深哀悼。

其三是您提到「純虛擬歌手,已經不太可能再有人掀起跟初音一樣的風潮了。」
想想Vocaloid正宗(?)也逃不掉這命數,初音風潮後五六年終須一變。10年代前半,靠V3大型系列曲+外傳小說、動畫;10年代後半後靠唱見轉職詞曲、詞曲者更常現場演唱、多語化;20年代前半又開了大規模音遊《世界計畫》,以及Vtuber翻唱老歌。
以上三者也一度引發風潮,好比說第一次有陽炎廚、第二次有更多日本(至少東亞)以外的音樂人進場、第三次有手遊和Vtuber度過童年的孩子,接著他們才會問道「初音是誰」、「虛擬歌手是什麼」。
有些害怕的是,這些創意終有極限,就像人類注定無法親眼感受紫外線、或未經轉換就聽超音波頻段的樂器。
這圈子(其實在上個十年)已經把人類所能窮盡的文化藝術,幾乎都排列組合過了(如上文列舉的那些點,也許正是很多人喜歡V家的一個原因)。
「多媒體」不過如此。剩下的好像就是創造需求、廣告行銷爾。
畢竟到AI能自行塑造形象並包辦寫歌到銷售的那天,他們能欣賞紫外線PV,聽超音波音樂,血肉之軀能嗎?
也許到時會有人純粹為了解讀那種境界的藝術,輕易接受cyborg改也難說(苦笑)。

04-17 16:26

york
另外C家要錢U家不用這個也是個很大的因素。UTAU的免費讓很多人選擇它。我就認識一個人是因為免費才用UTAU的。

至於未來的事情,這個我倒是不知道,不過我很期待未來AI會帶來什麼新的改變www
04-17 17:15
土衛六
題外話,這是曾和別人的真實對話:
『你都聽哪種類型的歌啊?』
「現在很少了,但幾年前主要是Vocaloid吧。」
『那個是什麼?』
「呃、簡而言之,你有聽過初音未來嗎?」
『喔,所以是動漫類的歌囉?』
「勉強算是(內心炸裂)」

不知大大是否有類似的經驗(笑)?在這個層面上,《世界計畫》可以說是佛心遊戲了;期盼下一代人,會因此無須面對這種尷尬。

大大若耐心讀到此,小弟再獻上C家祭品吧:さとうささら〈泣かないと約束するから〉
https://www.nicovideo.jp/watch/sm23722973
因為作者regulus様音樂造詣太一流,所以當時在下說明文+歌詞翻譯包辦,可惜推不上去就是推不上去。
事實上正因這首歌,在下喜歡上さとうささら的聲線,並瞭解到C家調教完全可以不輸V家,即使在那麼早的年代(前文之可哀,在此盡顯)。
在此也感謝另一名翻譯君:swallow327,讓在下認識這位隱沒P主。

04-17 16:26

york
www你那個對話我深有所感。早期真的是這樣,現在也可能是這樣。所以我真的要講的話,多半會說「我聽虛擬歌手的歌」。至少望文生義,可以知道那是什麼東西(雖然我平常也不會到處宣揚就是了。我通常都只講說:我聽日文歌www)

聽完這首,我不禁感慨:14年那個時候用C家,真的是勇氣可嘉
光是標題掛【さとうささら】跟掛【初音ミク】,讓當時的人想點進去的機率,搞不好就差很多倍了......我自己到20年為止,真正記得的C家的歌,也就只有〈Citrus〉那首...而且還是因為創作者的緣故...04-17 17:22
土衛六
1.「看論文的好壞,還需考慮論文裡面有提出什麼新的想法、新的洞見等等」理解了,回想起以前國中教過。
意思是Kanru Hua大大寫的程式模型論文比較難開創衍生性、進一步的研究,但反正軟體好用就好了,對嗎(笑)

2.「寫得太複雜」……原本以為您說「還不夠水準」是指「還不夠精深」呢XD
雖然在下極少讀論文,至少還算常看〈科學人〉、〈國家地理〉、〈科學月刊〉那類雜誌,延緩和社會脫節的速度。
您的文章和科普雜誌上的比較,預估如下:
2-1.中段大學以上(不分科系)、或中學數理資優生程度,只要不是毫無興趣,還是可以一看就懂。
2-2.後段大學生、中學一般生、以及對虛擬歌手有相當程度的認識、但以前都專注在藝文層面的人(像小弟這種),微微偏難;
需要多讀幾遍、劃重點,才會讀懂。如果要拿來考試,就得做筆記。但還不到天書的程度。
2-3.知識和理解力在中段中學生以下者、全無理工背景者、幾乎或完全不認識何謂虛擬歌手者,那真的就頗生硬了。
不過和那種一頁就好幾條數學定理的文章相比,還是勉強好些。
(據說史蒂芬?霍金寫〈時間簡史〉時,出版社告訴他「書裡每多加一條公式,讀者就會少一半」。結果整本書裡只有一條E = mc2。
以在下之見,科普文章每新增一個英文簡寫,讀者可能就會少一成。)
2-4.好啦說實在,若非是稍有了解(很擦邊的級別)的主題,您又不厭其煩願意談,大概一開始就會嚴厲地抱怨複雜了。
可這純粹是因為在下並非好學之人,錯不在您。

所以說,對於認真想學的人其實還好。這個等級的文章,儘管絕非親民,但也絕不算無法跨越的屏障。
惟有些尚未解釋清楚的名詞,可能要在以後的續集解釋清楚。
例如,單寫一篇表列式文章,逐條白話註釋HMM、Tacotron、FastSpeech這些模型架構,並用日常中的例子來類比等等。
雖說並非自己想學,卻去建議他人辛苦寫文章不甚負責;
但是個人認為,這樣做也許是最容易讓外行人(文組、藝術出身)進入狀況的方法之一。

04-17 23:00

土衛六
3.「我就認識一個人是因為免費才用UTAU的。」很好,您現在認識兩個了(逃)

4.在下推的歌您能喜歡真是太感謝了。
因為在多數情況,在下的人際關係都是都是「想要的 我卻不能夠 給你我全部/我能給的 卻又不是你 想要擁有的」XD
何況在下知道的早期C家良曲應該就這兩首而已。如果用心找一下ONE和C家IA,頂多再翻出一兩曲吧。

相對而言,目前正在試聽您推的〈スパイラル?デイズ」〉。
因為作者-芳田大大很眼熟,果然是以前聽過的〈篝火のように〉作者無誤!多巧啊。
之前掃過一遍芳田樣的其他幾首歌,旋律都有中上以上的格調。惟在下喜愛悲歌勝過歡歌,所以當時沒太珍惜。
既然您推了其中一首,或許有其深意。拜受。

5.就新一代C家角色而言,在下只服小春六花。
私以為可不和星界聲線都有點太軟。就算拿紅牙拍板,唱「楊柳岸曉風殘月」都不太夠力。也可能沒什麼P主想要調成強氣聲線。
不過那首卸影椎大大cover的〈地球最後の告白を〉倒感覺平凡了。
可能因為這首神曲,在小弟心目中是永遠的V家第二,對曲子本身的期望高過頭了吧。
(好事去搜尋了可不cover的〈地球最後〉,果然沒有讓人期望。沒打錯字喔。)
若您有其他很推薦的小春原創曲,自由分享無妨。

6.相對的,您似乎還沒提到Gynoid。最近才認識的、這家公司推出的角色鳴花 ヒメ?ミコト可受推薦,雖然有點冷門。
這裡獻祭兩首:〈梅〉和〈柳〉
https://www.youtube.com/watch?v=2B78FKpAZoE
https://www.youtube.com/watch?v=WOfKUxuKz8A
同一位韓國P主所寫,卻是日文;前者曲好、後者詞深。

真不好意思,您每次都願意詳加回覆呢。為了手指和心智的健康,幾天之內應不會打擾。頓首。

04-17 23:09

york
沒,我那時候推的只是純粹看調教(畢竟這就是我這篇文的主題),不看歌曲好不好,不一定有什麼深意XD04-18 16:19
york
cover的歌,如果聽過原曲通常會覺得很平凡
不過單論那個歌聲的真實程度,就還是值得一提就是了04-18 16:20
土衛六
異議あり!
在下以為,縱然只看調教(限虛擬歌手、不得re-arrange、不得remix,再修正技術會隨年代進步、以及創作者手上的工具等級),仍至少有四種比較無可爭議、但cover超越原唱的情況:

(很多人認為講「超越原唱」什麼的很不禮貌。在此預警,路人若有不喜者,懇請迴避而非檢舉。)

04-19 00:15

土衛六
2.原曲調教普通至中上,但運用的聲庫(角色)的聲線與人設,和其所演唱的詞曲不搭。
論說(諷刺)曲通常比較不在乎聲線,但敘事曲有時就得考量角色形象。抒情歌會有些更微妙難言的差異。

翻遍了珍藏的音樂,但還真沒什麼人犯過這樣的錯。(←見識鄙陋又不嚴格)
真要說的話,就是拿可不或星界的柔軟聲線,去唱エグい風格的狂氣快歌的那群人。
因為兩者都很不對胃口+已經是在下淡出虛擬歌手圈的時代,所以連曲名都沒記。

或許還是太抽象了,這樣吧。

04-19 00:19

土衛六
反例:指選調的角色非常切合該詞曲。
赤髮P的〈Leave〉、〈黒貓〉都用Gumi調。
因為Gumi的非官方設定就是不斷失戀的歹命人,所以讓她唱這種離別、單戀的歌曲完全契合。
はるまきごはん大寫的〈地球をあげる〉使用了LUMi。
其聲線很軟,但因為P主的專長就是用童稚、簡單的字詞,去暗指宏大深沉的事物。所以同樣合適。
(但得強調,其風格還是有一定的柔中帶剛。私以為很多cover之所以不如原唱,主因就是真把聲線、斷句調到有氣無力的程度。)

假設例:請想像以下歌曲的作者突然腦洞大開,選了個奇怪的角色來調教。
※假若〈余命3日少女〉、じん大的〈アヤノの幸福理論〉是用Kaito調?
這兩者歌都是女性第一人稱視角,翻唱其實還好說,但若原曲就用男性聲線,請想像多不協調。
※假若はるまきごはん大的〈地球をあげる〉、〈みかげ日記〉是用Kaito或巡音調?
這兩首曲子都是偏柔和的。〈みかげ日記〉的歌詞甚至不斷強調主角多麼弱小無用。
若讓強氣角色來唱這些歌,內心獨白的氣氛就直接打折。
※試想まふまふ的〈戯曲とデフォルメ都市〉和ヒツジ〈冥海の電車〉用結月緣調?
這兩首高音都超高,前者節奏還極快。這都不是結月的強項(結月唱高音而能聽的歌,小弟只知一首隱沒良曲而已)。
※試想卯花ロク大的〈暇潰し、だれかの命〉和〈ピエロ様、ご覧よ無様〉用IA調?
這兩首都是身為校園霸凌者、第一人稱視角的歌曲。
可在小弟心目中(非但是非官方設定,還是個人主觀設定。雖然有憑據就是了),IA總是個尋求理想和正義的中二少女。(母公司:)
若您能認同這樣的IA形象,那麼唱受害者視角的〈雁首、揃えてご機嫌よう〉或許勉強可以,但要一個善良角色去詮釋惡人,難免不搭。
※Deco大的〈愛言葉〉系列都寫到IV了,他能用新一代的角色形象(可不、星界、Saki、Fukase等)來闡述自己對虛擬歌手的愛嗎?
顯然只能選擇元老級、代表性的角色。那答案就呼之欲出了。
※傘村大的〈贖罪〉等歌,其多人合唱和對位法為整首歌增色不少。
儘管詞曲完全沒有禁止單人唱的意思,問題是伴奏已經夠樸素了。一旦連聲線都單薄,整首歌勢必失色許多。

這段礙於見識、且日久而生疏,寫得頗為複雜和沒信心,還望大大理解和諒解。

04-19 00:19

土衛六
3.原曲沒有犯以上兩種錯誤,但cover版提出了一個新的歌曲詮釋方式。

雖說在禁止改動其他部分的情況下,這是極困難的;但剛巧最近有個好例子:
用U家(カゼヒキ)調的〈それがあなたの幸せとしても〉。
推cover作者Pei大,以一介臺灣創作者算很狂了。

因為從原曲發佈開始,在下就直覺認定這就是一首感情極其強烈的歌,需要很堅實、強悍、甚至帶著嘶吼的聲線才是最佳解。
韓國真人歌手Raon的翻唱版,可以說把這一點拉到極致了。
https://www.youtube.com/watch?v=kxMksegLczs
其實巡音原有那個潛能,但在1.那邊說過了。原作(ry

然而Pei大竟然用虛擬歌手界最沙啞最朦朧的聲線之一,角色官方設定甚至就是病弱!
所以聽到前幾個字,原本心涼了一半;但越聽越覺得,這不就是另一種詮釋嗎?
這難道不也凸顯歌者是發自內心的祈使嗎?其實和激動派是殊途同歸。而這種詮釋角度,沒聽過其他已知的cover這樣做。

一言以蔽之:「打破框架、打破常識、創意可嘉」。

4.cover者真的就是怪物,period。
在下只想到kyaami大神,但此例再妥當不過了。
考慮到他以西方人的標準,算很早入坑;而且很多時候,他用的是U家。接著把U家調到超越大多數同時代V家、C家,甚至一票真人的水準。
好似一名現代都市人,去山裡親手打獵、採野菜、鑽木取火、砍竹木為支架,吊上自己拉胚燒製的瓦釜烹煮,結果卻比連鎖火鍋店更好吃一樣。狂。

喔對,芳田大的調教實力大概也都有中上啊XD所以才覺得您選擇有深意。

04-19 00:23

york
沒,老實說,我真的沒什麼深意。當時(21年11月)我的狀況是這樣的:我當時還算是有半個腦袋停在以前Vocaloid的時代,忽然感覺到這個世界上出了一大堆神調教,基本上就是劉姥姥進大觀園那種感覺。
那之前我已經有一小段時間沒聽虛擬歌手的新歌,大概一年左右吧。所以一聽到這些歌,每一首都驚為天人,每一首都好想推薦,好想讓大家知道,現在虛擬歌手這邊竟然有這麼多新的東西,就是這個狀態XD 也因此才會有這一系列的文章。
因此這些推薦的歌曲,純粹也只是我自己以粉絲的角度去選的,並沒有什麼很嚴謹的評比,也沒有想很多。如果你也覺得好聽那當然很好,不好聽的話就當作踩到雷了吧XD

所以我也很歡迎你在這邊推薦歌曲XD04-27 15:42
土衛六
喔喔,感謝您花了這麼長時間仍耐心回覆我。看來又不得不打篇長文(住手

其實您一年沒聽新歌算短的啦。在下其實2016-2018就慢慢淡出了。大概到2020年後幾乎就沒聽了(沒聽「幾乎所有類型的音樂」!偶爾複習老歌罷了),直到幾個月前。
儘管仍有不錯的曲子,但大多是10年代就認識的P主寫的。
私以為,這幾年重新席捲風潮,手遊帶動的下一代真的功不可沒啊。(當然,您提到的C家、Synth V彎道超車(?)興許也是原因;您讓我長知識了。)
感覺上,20年後的曲子如果純論數量,可能已經與之前十幾年的總和不相上下了。沒辦法細細品評優劣,因此在我的yt頻道乾脆全丟一個播放清單(苦笑)。

雖有少許例外,但新歌、特別是調教,反倒沒有讓我覺得特別驚為天人。可能新一代C家的聲線都太柔了,或者我日文退步太多,或者跟不上時代了(哭)

您知道的,光學過日文,就可以大略分出調教好不好。至少到10年代中的曲子有效。
剛開始入坑時還不會日文,調教再不自然也分不太出來;可聽慣真人講日文(含動畫配音)、多聽翻唱(無論真人或軟體)還有自己試唱,基本的高下就清楚了。

話說回來,虛擬歌手最早的那幾年,那時的神調、良調,多是溢美之詞爾。大概沒幾個日文母語者,會真心期待車欠骨豐唱得比真人動聽吧。
那年代眾人注重的,主要還是填補真人物理上的缺陷(太快、太高、太長的歌曲),還有不入J-pop大雅之堂的作品(長篇敘事、搞笑歌)。
到了2010年代中,真?神調教才算普遍了些,當然還是以車欠骨豐的標準而言。對於非日文母語者來說已經幾無異於真人了,但母語者仍可能聽出些許差距。
到20年代,ベタ打ち大概已經相當於十幾年前的良調、甚至神調了,而大神(應該)已能達到無法分辨真假的境界。V2的天花板,竟成V4、V5的地板了。

結果反而是在虛擬歌手圈打滾太久的人分得清楚:我們聽了十幾年,還認不出初音的聲線嗎XD

04-28 21:44

我要留言提醒:您尚未登入,請先登入再留言

14喜歡★york135 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:【雜談】虛擬歌手雜談/歌... 後一篇:【中文填詞】盡頭(メーベ...


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情? 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】