ETH官方钱包

前往
大廳
主題

Gemini: 由Google所推出的多模態(tài)AI大模型

這可不是鬧著玩的 | 2023-12-10 13:43:18 | 巴幣 2 | 人氣 530


官方開源預(yù)計要等到12/13號(三)
(已開放使用!!)


官方API、使用平臺:
  • 價格:
  • Gemini Pro、Pro Vision API每分鐘限制60次的呼叫。
  • Google AI Studio (免費) vs Google Cloud上的Vertex AI (須建立帳單):



?? 介紹:
  • 由Google於12/06號推出的最強多模態(tài)模型,可處理文字、圖像、視訊、音訊和程式碼等內(nèi)容進行理解並推理。
  • Gemini是第一個在MMLU(大規(guī)模多任務(wù)語言理解)方面超越人類專家的模型。

?? Gemini的三種規(guī)模:

1??. Gemini Ultra(最大): 適用高度複雜任務(wù),在2024年初會推出給企業(yè)和開發(fā)者使用。

2??. Gemini Pro(中等): 最靈活通用的模型,12/13會讓開發(fā)者和企業(yè)客戶在Vertex AI和AI Studio等平臺中使用。

3??. Gemini Nano(最小): 最有效率且可以部署在手機等終端裝置的模型,12/6起提供給安卓開發(fā)者申請使用,可透過Android AICore建立Gemini為基礎(chǔ)的裝置用應(yīng)用程式。

  • 分為2個版本,分別為 Nano-1(1.8B,18億參數(shù),針對低記憶體裝置)、Nano-2(3.25B,32.5億參數(shù),針對高記憶體裝置)。
  • 採用4-bit量化技術(shù)進行部署,改善效能。
  • 已向 Google 自家的旗艦 Pixel 8 Pro 開放,以進一步釋放其所用 Tensor G3 晶片的 AI 潛力。
  • Gemini Nano在Android行動裝置上

?? 各基準測試:
? 文字、數(shù)學(xué)、推理、程式碼等方面...

? 圖像、影像、音頻等方面...

? 與其他模型的比較

? Gemini的三種規(guī)模(Nano、Pro、Ultra)互相比較

?? 已部署至Google Bard中(12/07號,目前僅限英語版)

?? 官方展示Gemini強大的多模態(tài)功能:
  • Hands-on with Gemini: Interacting with multimodal AI (Youtube)
    • 後續(xù)爭議:
      • Google坦承影片非真實呈現(xiàn),實際操作時間比影片來得更長,並且操作的過程也不是即時或語音進行,而是靠靜態(tài)圖像與提示操作。
      • DeepMind首席副總裁Oriol Vinyals針對影片造假嫌疑的後續(xù)回應(yīng),稱影片中的所有使用者提示和輸出都是真實的,為簡潔起見而進行了縮短,該影片展示了使用 Gemini 構(gòu)建的多模態(tài)用戶體驗是什麼樣子。我們這樣做是為了激勵開發(fā)人員。
  • The potential of Gemini (Youtube): 展示科學(xué)、推理、音頻、程式、數(shù)學(xué)與物理方面的能力。

? 與知名科技型Youtuber馬克·羅伯(Mark Rober)合作展示整合至Google Bard的Gemini Pro能力:

?? 相關(guān)消息:
送禮物贊助創(chuàng)作者 !
0
留言

創(chuàng)作回應(yīng)

相關(guān)創(chuàng)作

更多創(chuàng)作