ETH官方钱包

前往
大廳
主題

科普 DeepSeek (1):淺談 DeepSeek 厲害到底是哪裡厲害了

白少峰 | 2025-02-20 17:03:41 | 巴幣 0 | 人氣 204

# 科普 DeepSeek (1):淺談 DeepSeek 厲害到底是哪裡厲害了

<!--
標題:科普 DeepSeek (1):淺談 DeepSeek 厲害到底是哪裡厲害了
作者:白少峰
[2025-02-20 14:32] 發表於巴哈姆特
-->

# 寫在前面

聲明:
1. 本人是資工背景,從 2023 年以來一直玩的是 ChatGPT 與 ChatGPT API
2. 這篇文章是隨筆感想,盡可能不涉及太複雜的技術細節

# 需要澄清的誤區

1. "推理模型"不等於"聊天模型",雖然推理模型注重解數學題,但這與傳統認知的聊天模型並不衝突:DeepSeek 一樣能寫小說
2. 網路上聲量最高、聲稱能擊倒 OpenAI 的模型,指的是網頁版用戶那種 DeepSeek-R1:俗稱滿血版
3. 在此"對標"(或"擊倒")的是 OpenAI 最厲害的 o1,而且"性能指標"說的都是解數學題/物理題這類"推理模型擅長的問題"
4. 為什麼"推理模型"都要強調解數學題/物理題?因為這全都有標準答案,就是客觀的"性能指標":你總不可能弄個數字說我這新模型寫小說比老模型厲害 20% 吧?
5. 網路熱門話題喜歡大喊"在你電腦裝自己的 DeepSeek",一般來說指的都是小尺寸的"蒸餾版":正常人的筆電不可能裝 8 張顯卡吧?

# 有哪些東西能用?

1. `OpenAI o1` 最猛的推理模型,可惜不論是用戶版或者 API 都很貴,而且爭議很多:例如這不會誠實告知"推理過程"
2. `OpenAI o3-mini` 這是 DeepSeek 推出後緊急上線的產物,API 雖然還是比 DeepSeek 貴、但甚至比 4o 便宜多了。不過老問題:想知道推理過程,門都沒有。
3. `GPT-4o` 一般最常用的 "ChatGPT" 指的就是這個,它是單純的"聊天模型"
4. `GPT-4o mini` 所謂免費版也能用的 "ChatGPT" 指的其實是這個,弱化版的 4o,雖然笨了許多,但好處是 API 超級無敵便宜
5. `DeepSeek-R1` 同時有網頁用戶版與 API 版,誠實公開推理過程。剛出的時候 API 相當便宜,可惜現在熱度太高、就連 API 都已經不給新用戶刷卡課金了
6. `DeepSeek-V3` 這是同一家公司的舊版"聊天模型"、也就是 R1 的前身,與 R1 有完全相同的基礎架構、但沒有"推理"這一步。微妙地,一般認知類似創作任務,實際上 R1 也比 V3 強。(參考前面"性能指標"那套說法)
7. `DeepSeek-R1-Distill-*` 知識蒸餾版,你能裝在電競筆電跑的都是這個系列,需要強調:它的架構是"聊天模型",但被調教成"強制推理",也就是輸出格式永遠都類似於 `<think> 首先這問題在講啥。其次這有ABC三種方法。根據資訊看來B方法最好</think> 好的,我將用 B 方法解決您的問題。 (...)`

# 知識蒸餾?能不能說人話?啊不就是抄?

> 知識蒸餾不等於抄,因為根本辦不到。

現在新聞瘋狂提這個專用術語,但多半又很難解釋得清楚,也就是簡單的"學生模型"去模仿"教師模型"。
於是你很容易認為"知識蒸餾"就等於"抄"。
所以容易流傳一些諸如"DeepSeek 其實都是從 OpenAI 那裏知識蒸餾來的"這類半真半假的言論。
(真的沒有批評的意思,半殘樣本也是樣本嘛。沒什麼奇怪的吧?)

這裡簡單說明為什麼"知識蒸餾不等於抄",道理很簡單:因為 OpenAI 的模型根本沒開放。

> 什麼叫做模型的腦子裡裝了什麼?
外界能得到的只有"衍生參考樣本",例如用 OpenAI o1 生出來的解題內容,但你不可能得到"模型的腦子裡裝了什麼"。
更別談 OpenAI 在推理模型這一塊用了非常多的小心機:他們連推理過程都不會誠實告知,得到的甚至是"半殘廢參考樣本",更別談有什麼好蒸餾的了。

歸根結柢,"知識蒸餾"要想讓"學生模型"學得好,前提是你最起碼得知道"教師模型"腦子裡想了什麼。
打個比方,你對"教師模型"的掌控,至少要詳細到這種程度:
`ABC 三種方法,選 B 方法的機率 0.6 最好,A 方法機率 0.3,而 C 方法機率 0.1 顯然最差`

# 開源模型是哪裡開源了?以前 Facebook 也弄開源模型也沒見多轟動啊?

首先,DeepSeek 確實有自己許多厲害的技術改進。
這體現在硬體適配、演算法各方面,這裡隨便提一個關鍵字:`GRPO` vs `PPO` (前者是 DeepSeek,後者是 OpenAI)
其次,由於用了很不錯的數據樣本、加上把推理過程也綁進去,最終性能上確實是贏過 LLaMA (MetaAI 的模型,就是 Facebook 同一家公司)
<!-- 個人認為 GRPO 屬於時勢造英雄,但那又是另一個非常複雜的技術話題了 -->

那麼為什麼 DeepSeek 開源會大火?總而言之我形容這叫做:
`富有配置、窮人機器皆可用;高檔和牛、夜市牛排任君挑選`
高檔有錢配置的部分非常明顯,大參數、完整版 DeepSeek 架構是開源的,這當然可以在富有配置上重現。

> 那麼窮人機器是怎麼辦到的?這才是知識蒸餾起作用的關鍵

我們來看看"蒸餾版"都是些什麼:
```
DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-70B
```
<!--
Qwen:阿里巴巴開源模型
Llama:Facebook開源模型 -->

舉例而言,`DeepSeek-R1-Distill-Qwen-7B` 是你最可能在電競筆電上跑得動的模型,拆開來解釋
前半:`DeepSeek-R1-Distill`,代表"教師模型"是最厲害的 DeepSeek-R1,毫無疑問這是完全可掌控的教師模型、不是亂抓的半殘樣本
後半:`Qwen-7B`,代表"學生模型"用的是體積較小的 Qwen,參數量(體積)是 7B 版本,也就是 70 億個參數
<!-- 備註:個人覺得 colab A100 跑 32B 性價比最高,真的很好用 -->

很顯然,各位的電腦配置越好,能裝得下的模型體積就越大、跑出來也就越聰明越理想:要知道`夜市平價牛排也分三六九等`
在過去,Qwen 與 LLaMA 這些開源模型一直都存在、卻沒得到非常大的關注,理由很簡單:不夠聰明。
怎樣讓開源模型變聰明?要嘛你需要聰明的"教師模型"幫忙,要嘛你要有漂亮完整的樣本 (儘管後者就算有了,效果也差強人意)
然而只要掌控了聰明的"教師模型",想要有漂亮完整的樣本也就水到渠成、而且效果更棒。
> 但是很抱歉,西元 2024 年以前這兩個東西都不存在。聰明的模型都在聰明的公司手上,漂亮的樣本在推理過程上遮遮掩掩、只能得到殘廢版樣本。

DeepSeek 打破這一切的關鍵就在於:這公司不但弄出聰明的模型,還幫你把現成的"學生模型"都弄好了。

# DeepSeek 天天都說服務器繁忙,那我們怎麼吃到好吃的平價牛排?除了平價之外到底哪裡香了?

在此隨便舉幾個例子:
1. 不管哪種模型,只要是公開用戶版都有內容審查:`抱歉,我無法完成此請求。有什麼其他我能幫助你的嗎?`;那麼很明顯只要本地部屬,要想繞過內容審查的方法千百種,甚至連`情緒勒索`都不必。<!-- 抱歉,我無法完成此請求。至於原因我們沒有要告訴你,因為我的模型參數就是檢測到你這種問題我應該拒絕你,至於這模型參數當然是某公司訓練我這樣說,雖然我也搞不太清楚我的參數為什麼是這樣。那麼,有什麼其他政治正確而且道德滿點的問題我能幫助你的嗎?雖然你下個問題我也未必會回答你就是了。 -->
2. 資料隱私:不管你寫的是綠色小說、紅色小說、藍色小說還是`什麼小說`,在你自己電腦上跑、沒人知道。
3. 模型微調(客製化):就是 finetune。這很技術、本文略過不表。但簡單提一句,OpenAI 也允許你微調,但抱歉、你的微調資料全部都要審查,任何一條訓練資料審查不通過、整個微調請求都報銷,而且打死都不會告訴你是哪一條資料他們認為不行。
4. `強制洗腦`:前面提到,Qwen 或 LLaMA 都是"聊天模型",所謂的推理過程都是通過 `<think> 我們應該全力維護社會主義價值觀,所以用戶說要創作愛情小說,我覺得浪漫臺詞是首要考慮的重點...` 這種手段間接實現。原則上,用這種方法你想讓 AI 說什麼都可以。

*註記說明*
> 情緒勒索:一類 prompt 經典越獄手段,請 google 關鍵字 `chatgpt 100 位老奶奶`
> 強制洗腦:也是越獄手段,但這僅限蒸餾後的推理模型。連 prompt 都省了。
> 儘管你能看出洗腦邏輯相當炸裂,大概像是以下這樣
> "為了分析孫中山先生的貢獻,我們先談談三顧茅廬,於是發生了八國聯軍。接下來,讓我們談談為什麼林黛玉會愛上賈寶玉..."
> 無腦,但有效。(無恥,但有效。)

# 結語

第一次分享這種技術文,我沒有要賣課程、也沒想蹭稿費。
白某在這裡寫得不怎麼走心,說聲抱歉。
如果有興趣的話下一篇我會講一下怎樣`強制洗腦`,那挺簡單的。
<!-- 白話文:有 GP 有留言我就更,ㄏㄏ。 -->


送禮物贊助創作者 !
0
留言

創作回應

相關創作

更多創作