ETH官方钱包

前往
大廳
主題

【雜談】虛擬歌手雜談(三):「AI孫燕姿」會唱歌嗎?近期的「AI歌手」到底是什麼?

york | 2023-07-20 23:10:42 | 巴幣 4300 | 人氣 612

【雜談】虛擬歌手雜談(三):「AI孫燕姿」會唱歌嗎?近期的「AI歌手」到底是什麼?

## 摘要
這篇我會簡述
  • 近期使用so-vits-svc或其他「SVC」技術(shù)製作的「AI歌手」的本質(zhì)
  • 這一類所謂「AI歌手」與V家/C家/SV家等等的「虛擬歌手」的差異
  • 這一類所謂「AI歌手」有可能取代人類嗎?

TL;DR:簡單來說,SVC的AI歌手就是一種很強大的「變聲器」。所以,變聲器有可能取代人類嗎?

## 前言
筆者已經(jīng)有一年四個月的時間沒有寫「虛擬歌手雜談」。主要有兩個原因,首先是我意識到要寫這樣的內(nèi)容並不簡單。寫的時候,往往有心有餘而力不足之感,不願獻(xiàn)醜。第二個原因,老實說也是衍伸自第一點──因為心有餘而力不足,寫起來不覺得暢快,於是便不太願意去做了。
好吧,那所以事到如今,我?guī)致镉謱懸黄亢鋈幌氩錈岫龋?/div>
也許吧。不過主要是因為關(guān)於所謂「AI孫燕姿 [1]」的事情,和一些誤解,我這幾個月來已對人解釋過好幾次──以我現(xiàn)在記得的,便至少有五次。今天又看到網(wǎng)路上對這類「AI歌手」的討論,竟看到有人在爭論這類「AI歌手」是否會取代人類!好吧,我承認(rèn)當(dāng)時我完全傻眼了。
對,我知道最近所謂「AI」的進(jìn)展很快,很嚇人,會引起這樣的討論,其實很合理。Midjourney [2] 會不會讓人類繪師失業(yè)?也許會;GPT-4 [3] 會不會終究取代人類?我不認(rèn)為,但討論這個問題至少算未雨綢繆。可是AI孫燕姿?這並不是可不可能的問題。本質(zhì)上就不該有這種討論。
想想,乾脆就發(fā)一篇文解釋原因吧。

## 問題定義
談這個話題最累的事情是,「AI歌手」是個模糊的說法。這種名詞要當(dāng)作新聞的標(biāo)題倒無不可。但要是拿來討論,未免過分模糊。試想,如果把「AI」一詞換成人類,討論「人類歌手」「人類音樂家」的某些層面,豈不是空泛至極?人類百百種,「AI」也百百種,一概而論,怎麼也談不出很精確的事物。
事實上,筆者相信這就是問題。
近幾個月爆紅的所謂「AI某某某」──其中某某某可以換成任何一個名人──十之八九,本質(zhì)上就是一個變聲器。但因為名詞使用的問題,便很容易造成誤解。用孫燕姿為例子吧。一旦我們把「AI孫燕姿」根據(jù)它的實際運作方式,稱作「AI孫燕姿變聲器」,也就不須什麼討論了,爭論幾乎可以瞬間消失。
說到這裡,大家或許會疑惑,為什麼「AI歌手」會被我說成「變聲器」?
為了避免張飛打岳飛,這邊我先定義一下我想談?wù)摰氖挛铮?/div>

1) 這邊提到的「AI歌手」,指的是所有以so-vits-svc [4] 或其他「歌聲轉(zhuǎn)換」(singing voice conversion)模型為基礎(chǔ)所構(gòu)建的系統(tǒng)或軟體。
2) 為了避免疑惑,以下我將這些「AI歌手」稱作「SVC系列AI歌手」

我是不是在紮稻草人?不盡然。十有八九大家所說的「AI歌手」,都滿足我這邊的定義。詳細(xì)研究他們所使用的模型,十之八九名字都有個「SVC」的字樣──舉例而言,像是so-vits-svc [4] 或是DiffSVC [5]。那正是歌聲轉(zhuǎn)換(singing voice conversion)的簡稱。
如果大家同意這個定義,那麼讓我們接下去討論。什麼是歌聲轉(zhuǎn)換?

給定一段歌聲,以及一個目標(biāo)的歌手A,目標(biāo)是把這段歌聲當(dāng)中的音色,轉(zhuǎn)換為歌手A的音色,其餘部分不變。

這就是SVC常見的定義,也是為什麼這個題目叫作歌聲轉(zhuǎn)換。它就和變聲器差不多──給定一段歌聲,換掉音色,保留所有其他的東西。這些SVC系列的AI歌手,正是應(yīng)用一個類似變聲器的模型(而且還是很強大的變聲器,這個必須承認(rèn)),以達(dá)到我們看到的結(jié)果。
也因此,如果有去玩過SVC系列AI歌手,應(yīng)該會知道,要合成音檔,必須給定一個所謂的「source audio」,也就是那段要被轉(zhuǎn)換的歌聲。譬如,要讓孫燕姿唱〈髮如雪〉[6],就需要先給模型一個〈髮如雪〉的音檔,讓它把這段音檔當(dāng)中,歌手的音色轉(zhuǎn)成孫燕姿的音色。其他的SVC系列AI歌手也一樣。
談到這裡,我想「SVC系列AI歌手取代人類」的答案,已經(jīng)很明顯了。

## SVC系列AI歌手,與 V家/C家/SV家有什麼差異?
不過,更進(jìn)一步來說,如果大家本來就聽過V家 [7]/C家 [8]/SV家 [9]/U家 [10] 等等的虛擬歌手(方便起見,以下一律簡稱作「SVS系列虛擬歌手」)的話,或許會好奇,那所以SVC系列的AI歌手,跟SVS系列虛擬歌手有什麼不同?
先回到我在第零篇虛擬歌手雜談 [11] 寫的定義吧:

虛擬歌手是一種透過電腦科學(xué)技術(shù),以合成人類歌聲為目標(biāo)的軟體或硬體裝置。

從這個定義來看,毫無疑問,SVC系列的AI歌手,就是虛擬歌手的一類。它用電腦科學(xué)技術(shù),合成人類歌聲──雖然是以某一個音檔為基礎(chǔ),轉(zhuǎn)換音色,但它確實合成歌聲,所以自然是虛擬歌手。
但它跟「SVS系列虛擬歌手」,實際上有很明確的差異。同樣在第零篇的雜談當(dāng)中 [11],我提到了在2000年代,Jordi Bonada等人設(shè)計的Vocaloid的運作方式 [12],實際上是:

根據(jù)輸入的樂譜,Vocaloid從某個歌手事先錄好的聲音庫(Voicebank)當(dāng)中,抽取出最適當(dāng)?shù)母杪暺危鶕?jù)給定的資訊,進(jìn)行若干修飾、調(diào)整,最後拼接在一起,合成歌聲

注意到了嗎?Vocaloid的運作方式,並沒有將一段音檔的音色,替換成另一個人的音色。它不是變聲器。它的輸入是樂譜,以及──廣義上來說──某個歌手預(yù)先錄好的聲音庫。聲音庫裡面有很多音檔,但這些音檔扮演的角色,跟SVC系列AI歌手當(dāng)中,輸入的source audio的角色是截然不同的。
更準(zhǔn)確來說,Vocaloid利用聲音庫的音檔,將樂譜轉(zhuǎn)換成歌聲;SVC系列的AI歌手,則是將一段由其他歌手演唱的歌聲,其中的音色抽換成另一個人的音色。如此一來,差異便顯而易見了。
那麼C家或是SV家呢?他們並不需要一堆音檔組成的聲音庫 [8, 9]──但是他們的問題定義,跟Vocaloid還是是接近的。給定一張樂譜,他們並不利用聲音庫,而是利用一個預(yù)先訓(xùn)練好的模型,以合成歌聲。這段歌聲會類似於某個歌手演唱那張樂譜的聲音──可能是花譜 [13](可不 [14] 的聲音提供者),可能是青山吉能 [15](小春六花 [16] 的聲音提供者),或是其他某個提供歌聲的人。如大家所知,提供歌聲的人,決定了合成的歌聲的風(fēng)格。但是在根本上,模型是將樂譜轉(zhuǎn)成歌聲,而不是將歌聲轉(zhuǎn)成歌聲。兩者是有差異的。
啊對了,附帶一提,SVS指的是singing voice synthesis,歌聲合成的意思。這個名詞指的,通常就是從樂譜(或者可能外加一些比樂譜更詳細(xì)的資訊,但一般來說不需要任何音檔)直接合成歌聲的題目。

## 虛擬歌手,會取代人類嗎?
就如前面所說,「SVC系列的AI歌手」會不會取代人類,這個問題已經(jīng)不太是問題。變聲器不可能取代人類,因為首先需要有個聲音給變聲器去轉(zhuǎn)換。
但是,讓我們多想一步吧。在唱歌上面,機器要怎樣才能取代人類?
本質(zhì)上,我們又需要從人類在唱歌時的行為談起了。
那麼剛剛好,我在第零篇虛擬歌手雜談中 [11],又定義了什麼叫歌唱:

歌唱可以被視為一個函數(shù)。輸入的資訊是樂譜,輸出的資訊是歌聲。這個函數(shù)應(yīng)當(dāng)能夠根據(jù)樂譜的資訊,產(chǎn)生包含某個特定音色的歌聲。

發(fā)現(xiàn)了定義的好處了嗎?當(dāng)我們比對「歌唱」與「Vocaloid」與「SVC系列AI歌手」的行為,一下子就能看出差異了。本質(zhì)上來說,人類,或者退一步說,職業(yè)歌手,懂得只看樂譜,就知道要怎麼演唱(i.e., 產(chǎn)生歌聲)。Vocaloid希望模仿這件事情──也許不像,但是它踏出了最初的一步。可是,SVC系列的AI歌手,並不能做到,本質(zhì)上也沒有打算做到這一點。它看不懂樂譜,而是單純地把一段聲音當(dāng)中的音色抽換掉。
所以SVC系列的AI歌手取代不了人類。反過來說,SVS系列的虛擬歌手,才有值得討論「是否會取代人類」的可能性。它試著把人類從看樂譜到唱歌的這一整個過程,全部學(xué)習(xí)起來──至於好壞那另當(dāng)別論。事實上,在這個過程中,存在著歌手風(fēng)格上的差異。有些歌手,譬如鄧麗君 [17],唱歌傾向帶有很強烈的顫音(vibrato),另一些歌手則不。看到同一張樂譜,不同的人,可能會唱出截然不同的風(fēng)格,帶來截然不同的感受。
這與音色無關(guān),而是一種對樂曲的解讀、理解,以至於詮釋。有些人會把這視為人類獨有的感情。因為即使是同一個人,當(dāng)他感到難受的時候,與感到喜悅的時候,唱一首歌時,唱出來的感覺也是不一樣的。難受時或許歌聲會充滿曲折,一個音一個音都撕心掏肺;喜悅時,一個音一個音都唱得輕快、大開大闔。這確實反映了人類的內(nèi)心。
機器只有在學(xué)會這一切之後,才能夠站上「取代人類」的起跑線。噢,當(dāng)然,這一切的過程,並不能經(jīng)過任何人類的調(diào)教(調(diào)聲),需要全自動完成──否則當(dāng)然就說不上是「取代」人類了。

那麼,再多想一步吧。假如機器真的學(xué)會了這一切。它也許懂了喜怒哀樂,也許不懂──但我們假定,它確實能模仿出各種人類的風(fēng)格,與詮釋樂譜的方法。更進(jìn)一步說,甚至機器還學(xué)會了,要怎麼在作曲家的指引下,改變自己的演唱方式,而且做得比最優(yōu)秀的人類歌手還好。那麼,這時機器會不會取代人類?
前面兩個小節(jié)所說的,大致都是客觀的事實。但這一個問題,作為一個假設(shè)性問題,筆者認(rèn)為並沒有客觀答案,同時也是值得主觀討論的。某種意義上,這或許也是關(guān)於身為人類的價值所在的爭辯。當(dāng)我們所擁有的一切才能,到最後發(fā)現(xiàn)都是能被機器取代的,那麼我們存在的意義,也會被取代嗎?

以下只是筆者個人的主觀看法。所謂「取代」的意義,是建立在一個目的之上的。舉例來說,我想要從臺北移動到臺中。一個可能的方法,是用走路的方式一步一步南下,走個五天才到。另一個方式是坐高鐵──只需四十九分鐘。假定我手頭正好有七百塊,於是我選擇坐高鐵。在這個過程中,坐高鐵取代了徒步,達(dá)成了「把我從臺北送到臺中」的目的。
以這一個特例來說,高鐵取代了我的腳。
可是,假如在另一個情況下,我不僅想要從臺北到臺中,還想要用這雙自己的腳,一步一步踏過沿途的土地。在這個情況下,高鐵永遠(yuǎn)不可能取代我的腳,因為我的意圖不只是抵達(dá)臺中,還是用這雙腳,踩著土地一步一步走到臺中。既然如此,便沒有任何事物可以取代我自己的腳。
類似地,即使到了一千年後,電腦可以輕易合成歌聲,而且唱得比人類還要好,而且(至少在人類的耳朵裡)充滿感情──並且這一切都只需要不到一秒的時間都能算完──我也不認(rèn)為,虛擬歌手會完全取代人類。
因為,只要在這個世界上,還有任何一個人,想著「我想聽到人類的歌聲」,那麼電腦就永遠(yuǎn)不可能取代人類,來滿足這一個意圖。即使這只是千萬人類當(dāng)中的一位,千萬意圖當(dāng)中的其中一個,而且還是一個可能在那個時代,相當(dāng)愚蠢而荒謬(就像在現(xiàn)代要徒步從臺北走到臺中一樣)的意圖,但只要這個人還想著這一件事,機器就永遠(yuǎn)取代不了人類。
很荒謬嗎?也許吧。至少,筆者希望這麼相信。

## 結(jié)論
在剛開始寫這篇雜談的時候,筆者是被一股衝動所驅(qū)使的。我覺得爭論SVC這類的AI歌手會不會取代人類,是一件很荒謬的事。但寫著寫著,卻有了不同想法。如果是有工作的人,肯定會擔(dān)心自己的工作,有朝一日會不會被取代。這是理所當(dāng)然的事。荒謬也好,不荒謬也罷,這都反映了心裡的憂慮。
對於這樣的憂慮,我沒辦法說些什麼。我充分理解到前面自己的論述(關(guān)於是否機器會完全取代人類的論述),終究是一個不實際的說法。實務(wù)上在未來的幾年或幾十年內(nèi),多半就是會有人被機器取代,因而失去工作。至於在這種情況下該怎麼做才符合公平,符合大家的利益,或許那是有些人想知道的。然而這不在我的專業(yè)範(fàn)圍,或許也給不出什麼好論點,便不班門弄斧了。
不過在此之外,如果說有什麼是我對於這個議題想要表達(dá)的,便是我們該思考所謂的目的性。電腦在西洋棋上面擊敗人類已經(jīng)過了約二十五年,AlphaGo也已是六七年前的名詞。可是,人們還是在下著西洋棋和圍棋。這之中有著怎樣的目的性?我相信,在這之中存在著人類之所以是人類,並以這個樣子存在世上的理由。某種意義上,也正是這一點讓世界顯得不那麼無聊。
至少我是這麼相信的。
啊對了,附帶一提,機器(蒸汽引擎)在賽跑上面擊敗人類,已經(jīng)過了一百多年以上,對吧?

## 正確的名詞用法
這篇為了解釋方便,我有點自己發(fā)明了一些名詞,或許會讓相關(guān)研究者不太高興,罵我怎麼自己在那邊發(fā)明名詞,是不是在耍人?所以以下做個簡單的對照表。左邊是我用的名詞,右邊是比較正常的學(xué)界會用的名詞。大家看完之後如果要跟別人討論,建議還是用右邊的名詞比較好。

- SVC系列的AI歌手:歌聲轉(zhuǎn)換模型/歌聲轉(zhuǎn)換系統(tǒng)(singing voice conversion system)
- SVS系列虛擬歌手:歌聲合成模型/歌聲合成系統(tǒng)(singing voice synthesis system)
- 虛擬歌手(廣義的那個):歌聲生成模型/歌聲生成系統(tǒng)(singing voice generation system)
(這邊說的「生成」是廣義的「產(chǎn)生」的意思,只要產(chǎn)生的是歌聲就行,所以可以通稱SVC跟SVS)

總之其實用SVC跟SVS稱呼就行了。SVS可能會跟歌聲分離(singing voice separation)搞混,但有了前後文就不會有大問題。

## 參考資料
[6] https://www.youtube.com/watch?v=aaM7qG2ycjk
[12] J. Bonada and X. Serra, “Synthesis of the Singing Voice by Performance Sampling and Spectral Models,” IEEE Signal Processing Magazine, vol. 24, no. 2, pp. 67-79, March 2007.

創(chuàng)作回應(yīng)

森之人
個人認(rèn)為繪畫、歌唱或文學(xué)創(chuàng)作在短時間內(nèi)是不會「全部」被電腦程式取代的,即使程式能產(chǎn)出PR99的內(nèi)容也是。
這些技術(shù)的目的在於表達(dá),而且其對於人們的價值就在於它們「有難度」,不是每個人都能運用自如;相機出現(xiàn)之時,印象中也有肖像這項技術(shù)會不會消失的討論,發(fā)展到如今攝影成為一個全新的技術(shù)領(lǐng)域,被取代的部份?商業(yè)上肖像畫家仍然存在,但數(shù)量變少許多。取代是會隨技術(shù)發(fā)展發(fā)生的,AI就只是另一個可以被運用的技術(shù)而已。
題外話,「高鐵取代了我的腳」,我腦中浮現(xiàn)一個人像穿著輪鞋一樣穿著兩列列車在鐵軌滑行的畫面。
2023-09-20 16:58:24
york
我完全同意!以結(jié)果論的角度來看,有難度與否的這件事,其實不會影響最後的結(jié)果。但對於人類主觀而言,一個技術(shù)有難度,確實會為成品帶來一種主觀上的價值。
或許那就是稀少性的價值吧。
至於題外話:我自己沒想過你這樣的畫面,原本只是想舉一個很誇張的例子。但這超有趣的啊www
2023-09-20 19:35:22

相關(guān)創(chuàng)作

更多創(chuàng)作