ETH官方钱包

前往
大廳
主題

Meta推出LLaMA 3模型,分別有80億、700億參數,以及7/23推出的4050億Llama 3.1模型

這可不是鬧著玩的 | 2024-04-19 03:00:04 | 巴幣 14 | 人氣 670

萬眾矚目的Llama 3終於出來啦!下面開始從各種發佈的資料中抓一些重點資訊來介紹,並整理使用方式與API管道
?設計理念:
LLaMA 3採用了四個關鍵要素的設計理念,重點在於:
  • 模型架構
  • 預訓練資料
  • 擴大預訓練
  • 指令微調

?模型型號介紹:
Meta目前釋出的8B與70B參數量的LLaMA 3模型,
8B的模型可用於消費級GPU上高效部署和開發,
70B的模型則專為大規模AI應用設計,
兩種型號都包含基礎和經過微調的模型,
除了以上4個模型之外,還推出了基於Llama 8B上微調後的Llama Guard 2(安全微調版本),可用於檢測、分類prompts和回應的內容危害程度。
另外還有最大的400B(4千億)參數模型正在訓練當中,期待會是Dense還是MoE架構,另據網友比較與Claude Opus相當( 2024/7/23推出最大為4050億參數的Llama3.1模型 [2024/07/23 (二) 推出] )。
Llama Guard 2


?模型評估/基準測試:


?模型架構介紹:
模型的架構上採用了相對標準僅decoder的transformer,且上下文的長度是Llama 2的2倍,與Llama 2相比最大的變化的地方是使用了新的tokenizer,將Vocabulary的大小拓展至128K(128,256)tokens(先前的僅32K),從而更有效的對語言進行編碼,產生更強的多語言能力,提高了模型的性能,另外Llama 3 70B的錯誤拒絕率不到Llama 2 70B的1/3。


?模型訓練/訓練資料集/微調:
Llama 3使用超過15T tokens的預訓練資料,全部收集自公開的資料,並且所訓練的資料集比Llama 2多了7倍之多,包含4倍以上的程式碼,超過5%的預訓練資料集由30多種非英語資料組成,但是預計不會有與英語一樣的水準。

除了使用高品質的資料訓練之外,另外開發了一系列資料過濾管道(data-filtering pipelines)用來預測資料品質:heuristic、NSFW、semantic、semantic deduplication approaches、text classifiers。

Llama 3的許多改進使訓練效率比Llama 2約高出了3倍。

此外也已針對Llama 3 Instruct模型的對話應用進行了優化,並採用來自1千萬個人工註釋資料的訓練,並結合了監督微調(SFT)、拒絕採樣微調(RSFT)、近端策略優化(PPO)、直接偏好優化(DPO)來進行訓練。


?Llama 3 建構開發
除了引入新的工具至安全評測工具項目Purple Llama之外,也引入至最近PyTorch所推出用於模組化完整微調的torchtune函式庫,藉由torchtune來對Llama 3進行Full-finetune,此Library也與Hugging Face、Weights & Biases、EleutherAI 等熱門平臺集成,甚至支援Executorch,以便運行在各種移動、邊緣裝置上進行高效推理,詳情請參考文檔,例如與LangChain結合使用等...


?模型支援的平臺:
AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake,並獲得 AMD、AWS、Dell、Intel、NVIDIA 提供的硬體平臺支援。


?Llama 3 模型使用/API:


?相關連結:


最後的最後
送禮物贊助創作者 !
0
留言

創作回應

相關創作

更多創作