日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了

文章圖片

編輯:桃子 好困
【新智元導(dǎo)讀】Meta首個(gè)理解圖文的多模態(tài)Llama 3.2來(lái)了!這次 , 除了11B和90B兩個(gè)基礎(chǔ)版本 , Meta還推出了僅有1B和3B輕量級(jí)版本 , 適配了Arm處理器 , 手機(jī)、AR眼鏡邊緣設(shè)備皆可用 。


Llama 3.1超大杯405B剛過(guò)去兩個(gè)月 , 全新升級(jí)后的Llama 3.2來(lái)了!
這次 , 最大的亮點(diǎn)在于 , Llama 3.2成為羊駝家族中 , 首個(gè)支持多模態(tài)能力的模型 。
Connect大會(huì)上 , 新出爐的Llama 3.2包含了小型(11B)和中型(90B)兩種版本的主要視覺模型 。
正如Meta所說(shuō) , 這兩款模型能夠直接替代 , 相對(duì)應(yīng)的文本模型 , 而且在圖像理解任務(wù)上擊敗了閉源Claude 3 Haiku 。
甚至 , 90B版本擊敗了GPT-4o mini 。

就連英偉達(dá)高級(jí)科學(xué)家Jim Fan都不禁夸贊 , 在輕量級(jí)模型中 , 開源社區(qū)整體上并不落后!


同時(shí) , 為了適配邊緣計(jì)算和終端設(shè)備 , Meta還推出了1B和3B兩個(gè)輕量級(jí)純文本的版本 , 可支持128K上下文 。

別看參數(shù)少 , 1B/3B在總結(jié)摘要、指令遵循、重寫等任務(wù)上 , 表現(xiàn)非常出色 , 而且專為Arm處理器做了優(yōu)化 。
LeCun激動(dòng)地表示 , 「可愛的大羊駝寶寶來(lái)了」!

Meta首席技術(shù)官對(duì)Llama 3.2的發(fā)布 , 做了兩大亮點(diǎn)總結(jié):

  • 首個(gè)既能識(shí)別圖像 , 又能理解文本的多模態(tài)模型 。 最重要的是 , 能夠媲美閉源模型
  • 超輕量1B/3B模型 , 解鎖更多終端設(shè)備可能性

有網(wǎng)友對(duì)此點(diǎn)評(píng)道 , 這可能是改變游戲規(guī)則的進(jìn)步 , 邊緣設(shè)備AI正在壯大 。

能力一覽


11B和90B這兩款模型 , 不僅支持圖像推理場(chǎng)景 , 包括圖表和圖形在內(nèi)的文檔級(jí)理解、圖像描述以及視覺定位任務(wù) , 而且還能基于現(xiàn)有圖表進(jìn)行推理并快速給出回答 。
比如 , 你可以問(wèn)「去年哪個(gè)月銷售業(yè)績(jī)最好?」 , Llama 3.2就會(huì)根據(jù)現(xiàn)有圖表進(jìn)行推理 , 并迅速給出答案 。
輕量級(jí)的1B和3B模型則可以幫助不僅在多語(yǔ)言文本生成和工具調(diào)用能力方面表現(xiàn)出色 , 而且具有強(qiáng)大的隱私保護(hù) , 數(shù)據(jù)永遠(yuǎn)不會(huì)離開設(shè)備 。
之所以在本地運(yùn)行模型備受大家的青睞 , 主要在于以下兩個(gè)主要優(yōu)勢(shì):
  • 提示詞和響應(yīng)能夠給人瞬間完成的感覺
  • 應(yīng)用程序可以清晰地控制哪些查詢留在設(shè)備上 , 哪些可能需要由云端的更大模型處理

性能評(píng)估


結(jié)果顯示 , Llama 3.2視覺模型在圖像識(shí)別等任務(wù)上 , 與Claude 3 Haiku和GPT-4o mini不相上下 。
3B模型在遵循指令、總結(jié)、提示詞重寫和工具使用等任務(wù)上 , 表現(xiàn)優(yōu)于Gemma 2 2B和Phi 3.5 mini;而1B模型則與Gemma旗鼓相當(dāng) 。


視覺模型


作為首批支持視覺任務(wù)的Llama模型 , Meta為11B和90B型打造了一個(gè)全新的模型架構(gòu) 。
在圖像輸入方面 , 訓(xùn)練了一組適配器權(quán)重 , 將預(yù)訓(xùn)練的圖像編碼器集成到預(yù)訓(xùn)練的大語(yǔ)言模型中 。
具體來(lái)說(shuō) , 該適配器:
  • 由一系列交叉注意力層組成 , 負(fù)責(zé)將圖像編碼器的表示輸入進(jìn)大語(yǔ)言模型
  • 通過(guò)在文本-圖像對(duì)上的訓(xùn)練 , 實(shí)現(xiàn)圖像表示與語(yǔ)言表征的對(duì)齊
在適配器訓(xùn)練期間 , Meta會(huì)對(duì)圖像編碼器的參數(shù)進(jìn)行更新 , 但不會(huì)更新大語(yǔ)言模型參數(shù) 。
也就是說(shuō) , 模型的純文本能力便不會(huì)受到任何影響 , 而開發(fā)者也可以將之前部署的Llama 3.1無(wú)縫替換成Llama 3.2 。

具體的訓(xùn)練流程如下:
首先 , 為預(yù)訓(xùn)練的Llama 3.1文本模型添加圖像適配器和編碼器 , 并在大規(guī)模噪聲圖像-文本對(duì)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練 。
然后 , 在中等規(guī)模的高質(zhì)量領(lǐng)域內(nèi)和知識(shí)增強(qiáng)的圖像-文本對(duì)數(shù)據(jù)上 , 再次進(jìn)行訓(xùn)練 。
接著 , 在后訓(xùn)練階段采用與文本模型類似的方法 , 通過(guò)監(jiān)督微調(diào)、拒絕采樣和直接偏好優(yōu)化進(jìn)行多輪對(duì)齊 。 并加入安全緩解數(shù)據(jù) , 保障模型的輸出既安全又實(shí)用 。
這在期間 , 模型所使用的高質(zhì)量微調(diào)數(shù)據(jù) , 正是來(lái)自合成數(shù)據(jù)生成技術(shù)——使用Llama 3.1模型在領(lǐng)域內(nèi)圖像的基礎(chǔ)上過(guò)濾和增強(qiáng)問(wèn)題答案 , 并使用獎(jiǎng)勵(lì)模型對(duì)所有候選答案進(jìn)行排序 。
最終 , 我們就能得到一系列可以同時(shí)接受圖像和文本提示詞的模型 , 并能夠深入理解和對(duì)其組合進(jìn)行推理 。
對(duì)此 , Meta自豪地表示表示:「這是Llama模型向更豐富的AI智能體能力邁進(jìn)的又一步」 。
得到全新Llama 3.2加持的助手Meta AI , 在視覺理解力上非常強(qiáng) 。
比如 , 上傳一張切開的生日蛋糕圖片 , 并問(wèn)它制作配方 。
Meta AI便會(huì)給出手把手教程 , 從配料到加工方式 , 一應(yīng)俱全 。

又或者你發(fā)給它一張小羊的照片 , 并要求將其放在沖浪板上 。
不一會(huì)兒功夫 , 一只站在沖浪板上的山羊圖畫好了 。

輕量模型


通過(guò)利用剪枝(pruning)和蒸餾(distillation)這兩種方法 , Meta讓全新的1B和3B模型 , 成為了首批能夠高效地適應(yīng)設(shè)備的、具有高能力的輕量級(jí)Llama模型 。
  • 剪枝能夠減小Llama的規(guī)模 , 并盡可能地保留知識(shí)和性能
在此 , Meta采用了從Llama 3.1 80億參數(shù)模型進(jìn)行單次結(jié)構(gòu)化剪枝的方法 。 也就是 , 系統(tǒng)地移除網(wǎng)絡(luò)的部分內(nèi)容 , 并調(diào)整權(quán)重和梯度的幅度 , 從而創(chuàng)建一個(gè)更小、更高效的大語(yǔ)言模型 , 同時(shí)保留原始網(wǎng)絡(luò)的性能 。
完成剪枝之后 , 則需要使用知識(shí)蒸餾來(lái)恢復(fù)模型的性能 。
  • 知識(shí)蒸餾是讓一個(gè)更大的網(wǎng)絡(luò)給更小的網(wǎng)絡(luò)傳授知識(shí)
也就是 , 較小的模型可以借助教師模型的指導(dǎo) , 獲得比從頭開始訓(xùn)練更好的性能 。 為此 , Meta在預(yù)訓(xùn)練階段融入了來(lái)自Llama 3.1 8B和70B模型的logits(模型輸出的原始預(yù)測(cè)值) , 并將這些較大模型的輸出則用作token級(jí)的目標(biāo) 。

后訓(xùn)練階段 , Meta采用了與Llama 3.1類似的方法——通過(guò)在預(yù)訓(xùn)練大語(yǔ)言模型基礎(chǔ)上進(jìn)行多輪對(duì)齊來(lái)生成最終的聊天模型 。
其中 , 每一輪都包括監(jiān)督微調(diào)(SFT , Supervised Fine-Tuning)、拒絕采樣(RS , Rejection Sampling)和直接偏好優(yōu)化(DPO , Direct Preference Optimization) 。
在這期間 , Meta不僅將模型的上下文長(zhǎng)度擴(kuò)展到了128K token , 而且還利用經(jīng)過(guò)仔細(xì)篩選的合成數(shù)據(jù)和高質(zhì)量的混合數(shù)據(jù) , 對(duì)諸如總結(jié)、重寫、指令跟隨、語(yǔ)言推理和工具使用等多項(xiàng)能力進(jìn)行了優(yōu)化 。
為了便于開源社區(qū)更好地基于Llama進(jìn)行創(chuàng)新 , Meta還與高通(Qualcomm)、聯(lián)發(fā)科(Mediatek)和Arm展開了密切合作 。
值得一提的是 , Meta這次發(fā)布的權(quán)重為BFloat16格式 。



Llama Stack發(fā)行版


Llama Stack API是一個(gè)標(biāo)準(zhǔn)化接口 , 用于規(guī)范工具鏈組件(如微調(diào)、合成數(shù)據(jù)生成等)以定制Llama大語(yǔ)言模型并構(gòu)建AI智能體應(yīng)用 。
自從今年7月Meta提出了相關(guān)的意見征求之后 , 社區(qū)反響非常熱烈 。
如今 , Meta正式推出Llama Stack發(fā)行版——可將多個(gè)能夠良好協(xié)同工作的API提供者打包在一起 , 為開發(fā)者提供單一接入點(diǎn) 。
這種簡(jiǎn)化且一致的使用體驗(yàn) , 讓開發(fā)者能夠在多種環(huán)境中使用Llama大語(yǔ)言模型 , 包括本地環(huán)境、云端、單節(jié)點(diǎn)服務(wù)器和終端設(shè)備 。

完整的發(fā)布內(nèi)容包括:
  1. Llama CLI:用于構(gòu)建、配置和運(yùn)行Llama Stack發(fā)行版
  2. 多種語(yǔ)言的客戶端代碼:包括Python、Node.js、Kotlin和Swift
  3. Docker容器:用于Llama Stack發(fā)行版服務(wù)器和AI智能體API供應(yīng)商
  4. 多種發(fā)行版:
    • 單節(jié)點(diǎn)Llama Stack發(fā)行版:通過(guò)Meta內(nèi)部實(shí)現(xiàn)和Ollama提供
    • 云端Llama Stack發(fā)行版:通過(guò)AWS、Databricks、Fireworks和Together提供
    • 設(shè)備端Llama Stack發(fā)行版:通過(guò)PyTorch ExecuTorch在iOS上實(shí)現(xiàn)
    • 本地部署Llama Stack發(fā)行版:由Dell提供支持

系統(tǒng)安全




這次 , Meta在模型安全方面主要進(jìn)行了兩個(gè)更新:
1.Llama Guard 3 11B Vision
它支持Llama 3.2的全新圖像理解能力 , 并能過(guò)濾文本+圖像輸入提示詞或?qū)@些提示詞的文本輸出響應(yīng) 。
2. Llama Guard 3 1B
它基于Llama 3.2 1B , 并在剪枝和量化處理之后 , 將模型大小從2858MB縮減至438MB , 使部署效率達(dá)到前所未有的高度 。

【Meta首款多模態(tài)Llama 3.2開源!1B羊駝寶寶,跑在手機(jī)上了】目前 , 這些新解決方案已經(jīng)集成到了Meta的參考實(shí)現(xiàn)、演示和應(yīng)用程序中 , 開源社區(qū)可以立即開始使用 。

    推薦閱讀