主題

Meta推出LLaMA 3模型，分別有80億、700億參數，以及7/23推出的4050億Llama 3.1模型

這可不是鬧著玩的 | 2024-04-19 03:00:04 | 巴幣 14 | 人氣 670

萬眾矚目的Llama 3終於出來啦！下面開始從各種發佈的資料中抓一些重點資訊來介紹，並整理使用方式與API管道

。

?設計理念：

LLaMA 3採用了四個關鍵要素的設計理念，重點在於：

模型架構
預訓練資料
擴大預訓練
指令微調

?模型型號介紹：

Meta目前釋出的8B與70B參數量的LLaMA 3模型，

8B的模型可用於消費級GPU上高效部署和開發，

70B的模型則專為大規模AI應用設計，

兩種型號都包含基礎和經過微調的模型，

除了以上4個模型之外，還推出了基於Llama 8B上微調後的Llama Guard 2(安全微調版本)，可用於檢測、分類prompts和回應的內容危害程度。

~~另外還有最大的400B(4千億)參數模型正在訓練當中，期待會是Dense還是MoE架構，另據網友比較與Claude Opus相當~~( 2024/7/23推出最大為4050億參數的Llama3.1模型 [2024/07/23 (二) 推出] )。

▲ Llama Guard 2

?模型評估/基準測試：

?模型架構介紹：

模型的架構上採用了相對標準僅decoder的transformer，且上下文的長度是Llama 2的2倍，與Llama 2相比最大的變化的地方是使用了新的tokenizer，將Vocabulary的大小拓展至128K(128,256)tokens(先前的僅32K)，從而更有效的對語言進行編碼，產生更強的多語言能力，提高了模型的性能，另外Llama 3 70B的錯誤拒絕率不到Llama 2 70B的1/3。

?模型訓練/訓練資料集/微調：

Llama 3使用超過15T tokens的預訓練資料，全部收集自公開的資料，並且所訓練的資料集比Llama 2多了7倍之多，包含4倍以上的程式碼，超過5%的預訓練資料集由30多種非英語資料組成，但是預計不會有與英語一樣的水準。

除了使用高品質的資料訓練之外，另外開發了一系列資料過濾管道(data-filtering pipelines)用來預測資料品質：heuristic、NSFW、semantic、semantic deduplication approaches、text classifiers。

Llama 3的許多改進使訓練效率比Llama 2約高出了3倍。

此外也已針對Llama 3 Instruct模型的對話應用進行了優化，並採用來自1千萬個人工註釋資料的訓練，並結合了監督微調(SFT)、拒絕採樣微調(RSFT)、近端策略優化(PPO)、直接偏好優化(DPO)來進行訓練。

?Llama 3 建構開發：

除了引入新的工具至安全評測工具項目Purple Llama之外，也引入至最近PyTorch所推出用於模組化完整微調的torchtune函式庫，藉由torchtune來對Llama 3進行Full-finetune，此Library也與Hugging Face、Weights & Biases、EleutherAI 等熱門平臺集成，甚至支援Executorch，以便運行在各種移動、邊緣裝置上進行高效推理，詳情請參考文檔，例如與LangChain結合使用等...

?模型支援的平臺：

AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake，並獲得 AMD、AWS、Dell、Intel、NVIDIA 提供的硬體平臺支援。

?Llama 3 模型使用/API：