ETH官方钱包

創作內容

2 GP

消費級AI或許性能提升要瓶頸了?(增加點小預測)

作者:垂暮龍-青月(動物朋友│2025-01-25 15:49:45│巴幣:4│人氣:178
隨著越來越多精度感知與規模化定律的研究越來越成熟,對以往不確定不了解的部分都會被逐步摸清楚。

以Scaling Laws for Floating–Point Quantization Training這類論文會越來越多,並明白隨著參數規模和訓練集越大,則精度需求越高。

計算規模則以參數量*訓練集*n,如果是算成本時則納入輪數(epoch)。

以論文適用規模定律下的解時,其數據集分佈在4bit(q4/nf4/fp4)約在10^10.5到8bit(..)10^14+,約在百億(10B)~百兆(100T)中適用。

規模定律中效率最高的參數量與數據集於有限計算預算下的優解,則得到區間10^21~10^31+的龐大規模。

而多篇論文無論如何適用精度的解都在4~8bit間,包含參數規模下單位容量/頻寬的最優解,盡管測試的覆蓋可能不同,但都分佈於此可能有些偏差,範圍更準確通常在5~7bit間是目前LLM規模適合的精度,往上或往下在單位容量/頻寬效率不是最佳的。

這代表無論如何增加參數規模都無法彌補量化損失,也就是說到此為止4bit往下已經毫無意義了,不如降低參數並提高精度收益來得高且穩定。

而且實務使用上Q8/INT8如果跟BF16/FP16還算差異極小甚至沒有,Q4很明顯一些時候能感受到弱智化的問題,只能靠堆參數規模記住更多知識(或稱事實)來彌補損失甚至反超。

未來實務上隨著人們測試越多並越熟悉,Q1~Q3可能根本就是玩具沒實際價值,而量化技術也已經逼近極限了,畢竟再怎厲害也要知道編碼數據的密度不可能比熵編碼之類還高,否則連基礎的定律都違背了。

就像生物學再怎難以理解,也依然會遵守物理學中熱力學的定律,不會違背。

真的很好奇blackwell架構之類未來還能怎麼辦,至少消費級可能玩不出任何實際有效的花樣了,而這些定律不僅用於LLM也同樣適用其他領域,但可能沒徹底挖掘完成。

首先不考慮架構與延遲是否能充分利用低參數規模的LLM,當充份利用滿吞吐時,參數量*主要的量化精度*n就是消耗的頻寬/容量。

假設說一個8B參數的模型,理想全fp4是4GB大小,實務上各種因素要4.8~5.5GB容量,當LLM技術到極致,不考慮稀疏局部的情況,則每Token開銷與其相等。

例如一張顯卡是256bit,32Gbps的GDDR7,至少GDDR7短暫數年間不太可能升級至GDDR8...則計算出256*32/8=1024GB/s。

這裡我們想像一個足夠優的精度抉擇,最終使用Q6/nf6/fp6為主的量化,參數為8B而實際總體的容量約7.6GB,則1024/7.6=134.7Token/s。(考慮1024進非1000實際大概減少些到125token?)

而考慮到GDDR6很久都沒能真正讓24Gbps顆粒普及便宜或真正量產,又GDDR7可傳數量翻1.5倍,我們可能考慮到GDDR7至少可能入手到36Gbps,先不考慮實驗室極致40Gbps。

大概就256*36/8=1152GB/s,相比現在896GB/s高約28%,這幾代可能都要卡在這裡了。而提高cache等幾乎無法有效節省,能節省7~15%就是極限了,甚至不太可能願意花大代價在消費級上配有類似單元或快取改善。

假設未來GDDR7在2026年底甚至2027年底有望普及...可能會更貴?到單顆粒32Gb/4GB/32bit,則有望普及32GB單卡,盡管這個『普及』可超過單卡999美金...沒什太大意義。

考慮到需要保留一點,並且技術進步7.6GB降到7.5GB甚至以內,但合理一點也可能超過7.2GB/8B的比例,我們拉高到32B時約28.8GB,保留一些可以跑上下文數十上百K。

1152/28.8~=40token/s,而32B應該算能記得住的好水準了,盡管現在很多說什麼蒸餾小參數能表現跟大參數接近甚至損失小...實務上表達能力與思考CoT等可能會差距到智力障礙跟正常人的差距。

因為現代對AI的測試覆蓋能力真的太有限了,沒有很好的方法理解預測並有效產生一個非常高效覆蓋程度良好的測試,以致於測試與實戰部分時候成為兩回事。

而參數越大能記住的知識或著事實就越多,但終究不如外連資料庫或網路搜索,但要框架與AI模型本身提供才能完成設定並授權搜索,單靠參數記憶非常容易出現幻覺或著『記錯』,導致非常自信得出結果實際上過程記錯太多,結果當然也是錯的。

盡管可以反覆提高訓練輪數,但輪數不可太高而過擬合,三十輪就不錯了...另一方面就是拉高訓練集,按照當前精度有效fp8能對應到約100T甚至200T的規模,而現在窮盡一切能得到品質足夠高也就10T規模的數據集,而且估計還有非常大的空間能提高品質,夠高品質可能估計就個位數T。

短期來說,目前技術在今年可能試圖普及以fp8為主的混合精度訓練,而推理最高效的點約用fp6為主的混合精度推理,而fp4為主的混合精度推理則適用於小規模且小數據集且前期仍須用bf/fp16為主的混合精度先練後精。

也就是fp4/fp6/fp8為主,bf16/fp16為副,少量fp32/tf32,更少數類型可能用得上fp64但很少?

fp6則大概在8T~10T訓練的數據集規模,且參數應該足夠大到數以百計B的參數規模,則n*10^13*10^10約近10^24?

可能transformer狂堆規模的路很難走下去了,未來可能是類似於Google新推出的titans架構,但要完成試驗可能一年甚至一年半載?(titans堪稱2.0甚至下世代,但按照描述所寫訓練所需計算資源和訓練難度更高甚至遠高目前模型...)

但無論如何短期除非讓每個人走本機MOE路線,否則稀疏效果不是很好用,而每個MOE夠高效的參數量都數十B甚至百B級,已經一個專家模型大小抵得上普通人的通用類型模型了...

那麼參數量對應大概的容量與頻寬消耗成定值,Token也就能很好求解出來了。

然後對於非本機的通用模型,專家模型訓練成本和推理成本都低得多效益高。

因為參數*訓練集=計算預算,拆解開來分開練可以減少互相影響,盡管聰明程度互通有無的上限可能更低,但更不易受其他資料影響在該領域的判斷,而這也是DeepSeek一類模型能大幅節省成本的成果,實際活動參數少很多只用部分,並且總體訓練成本低很多,並堆砌總參數規模很快。

假設租借一張ada RTX 6000價格約2.5美金好了,實際推估效率在單卡0.9以上時每小時可供應約10^18的計算預算。(精度bf16/fp16)

大規模多卡效率拉到0.5,成本翻倍,超大規模甚至單卡到H100/200/GB200)翻倍,但大量多卡成本也要翻倍才能拉到足夠能看得多卡效率。

全靠租成本拉到10^18算力預算成本在折損多卡效率後達到8~10美金,如果週期幾年盡可能權力均攤掉到2美金內,如果全力用到滿載不出事?

假設fp8訓練為主成本*0.7概估一個趨勢,實際不知道...然後約10^18計算預算成本為1.4美金好了。

假設直接全力訓練一個模型50輪,不用MOE而是單一模型直接練出1T參數且訓練集約100T且一次完成。

設n等於6。

10^12*10^14*6*50=3*10^(2+12+14)=3*10^28。

成本計算為3*10^10*1.4=4.2*10^10約420億美金,盡管部分數值可能偏離實際而放大數倍甚至更高,但不可否認練出這樣極強的模型成本非常巨大。

而且數據的品質對最終提取出來事實是否成功很重要,無用垃圾數據再多都比不上一個正確無誤的真實數據存在。

而32B左右參數在fp6下,簡單概算約能承受100T左右的數據集用於訓練的最大極限,短期間數年內不知道有哪家能真正做到100T足夠高品質的數據,而且對數據有效打出一個通用的評分很難很難。

不過就性能而言大概一般人願意花費的錢來說,性能僅只有40token也有點太難接受了,盡管可以慢慢等但不如上百token來得夠快。

如果模型解答能力夠好,適當的輸入與輸出token就能完成可能1000 token就好了,差可能10K的token,你得等待250秒。

而不同問題情況活動不一,對頻寬的需求可能是完全接近瓶頸也可能剛好足夠脫離頻寬瓶頸,是一種波動的狀態,但平均平穩下消耗就跟以上計算差不多。

無論是否專家或蒸餾在大規模數據集的投入上勢必加大,每年兩三百億美金或許未來會快速增長至一年千億美金開銷。

而要夠大參數且夠大訓練集,無論有什麼神奇的方法除非能徹底扭轉基礎架構或著機制的複雜度趨勢,否則計算能力始終都是天文數字般的消耗,並且瓶頸幾乎都在頻寬上永遠難消除降低。

消費級都會卡頻寬了,更別提計算卡堆出來超多tensor core實務上利用率更差,導致H100到H200靠換HBM就能大幅提升,GB200甚至到未出的GB300都是這樣。

盡管仍然有ASIC路線,但ASIC路線說穿就是靠超大Cache或著SRAM來解決頻寬問題,不存在什麼神奇硬體設計就能無視必須的數據傳輸與容量問題,而如果完全靠記憶體如HBM那永遠無法跟GPU拉開多少有效的差距甚至很小,軟體效率改進就會被反超。

但投產的半導體能產出的SRAM提升又很有限還有大量良率問題,始終站不上檯面。

或許X200系列遊戲卡的AI就會抵達GDDR7所能到達的極限,再往下就是2028年也許絲毫或進步非常小。

至於GDDR8不知道能否在2030年甚至說CFET 1nm的2032年見到。

或許堆參數對消費級來說不是最有效,而是走外接資料庫和搜索並有足夠準確的認知核心,依賴超級大上下文完成任務並且靈活度極高,而認知核心可以到10B甚至1B就能完成任務。

titans之類架構或許很好,但是按描述來說被內化為其中的層會比上下文或記憶住效率高很多,相同token下走認知核心輔以網路/資料庫搜索性能不如已經練好的大參數大訓練集模型。

只能說等未來幾年內實戰了,看誰單位token效率高或靈活度等需求符合人群,而且網路或資料庫搜索對網路或搜索引擎好壞及API限制或本機上的HDD/SSD存取性能或收集到是否可靠數據依賴過強。

或許未來會真有認知核心如4B參數且4GB容量/頻寬消耗的模型走這路線,但實戰中打同樣能上網搜索和搜數據庫的32B模型,誰更好用呢?可能高7~8倍token性能但消耗卻很難知道。

__________

預測下未來可能會出現的精度,個人傾向於fp12這個精度。

雖然fp10相對fp8可以支援到約數據集規模於P級甚至10P級已經夠人類很長一段時間用了,也一樣可以相對fp8更容易拿來訓練。

但按照訓練比推理精度始終要高一些來看,支援fp12無疑是更好的選擇,而且按照計算的規律足以支撐到接近E級甚至1個E級的超級大規模,幾乎人類在短期未來內都不可能涉及甚至超越的數量級。

而硬體支援fp10甚至搞區分fp10/fp12/fp14太怪也太冗餘了,不如在硬體上相對支援靈活調整縮放係數和tensor core上的暫存器更精細操作等完成更好的混合精度加速和調節。

有很多類似論文在軟體上實現甚至希望未來硬體都要實現該特性,還能在計算和控制上做到極致來提高利用頻寬/容量效率。

而fp12也剛好fp6的翻倍較整齊了,我傾向於未來X系列甚至X系列下一代會擁有該精度,不僅能夠相對輕鬆從bf16/fp16訓練將訓練的精度大量遷移到fp12上,更好運用到各方面的同時,也將上限提高到人類提升效率數年甚至數十年間和遙遠未來都超越不了的數據規模。

而有效的數據不重複冗餘和低價值是很難的,影片和圖片等容量非常巨大但重複程度過高,即使是聲音相對低也是冗餘度很大,這導致真正的數據規模其實不大,要高品質數據非常困難到100T,未來能有P級就很不錯了,盡人類全力能到多少P?

盡管相對於繼續加速提高性能已經做不到了,但還是可以說至少對比許多主要用fp16/bf16精度的訓練容易有效遷移到fp12上,直接說提升個33%也不為過,然後再說能有效訓練的數據集上限直接提從100T提升到E是足足一萬倍。

2025/1/26更________

簡單來估算一下如果用一個MOE模型,現在把參數1T拆解成16個模型,但每個模型額外追加一些參數更好容納共通或跨領域知識來到70B的參數量,並且數據集規模從100T拆解十六份後也額外加共通部分到7T左右。

並將輪數下降到30輪左右就算訓練完成,且同樣n為6。

成本如下:

7*10^10*7*10^12*6*30=4.9*1.8*10^(3+10+12)=8.82*10^25

同樣按每10^18計算預算為1.4美金成本均攤時,則成本約1.2348*10^8美金,這是一個模型的成本。

當十六個時成本為19.7568億美金。

相比原有比較誇張的成本而言降低了十數甚至數十倍,切分更細成本能降低更多,但估計是無法做到無限細分,就跟多核心多執行緒概念一樣。
引用網址:http://www.jamesdambrosio.com/TrackBack.php?sn=6078994
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 0 篇留言

我要留言提醒:您尚未登入,請先登入再留言

2喜歡★digong94 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:近期VRchat吐槽(2... 後一篇:RTX Blackwel...


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情? 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】