日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入

文章圖片

全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入


作者 |許麗思
編輯 |漠影
智東西2月25日報(bào)道 , 今天 , Anthropic重磅發(fā)布首個(gè)混合推理模型——Claude 3.7 Sonnet 。 這個(gè)模型在編碼和前端Web開發(fā)方面表現(xiàn)突出 , 用戶既可以讓模型給出實(shí)時(shí)答案 , 也可以給出經(jīng)過深思熟慮的答案 。
Anthropic還推出了代理編碼工具Claude Code , 可以搜索和讀取代碼、編輯文件、編寫和運(yùn)行測試、提交和推送代碼到GitHub以及使用命令行工具 。 在早期測試中 , Claude Code可以一次性完成通常需要45分鐘手動操作的工作 。
目前 , Claude 3.7 Sonnet已經(jīng)在全平臺上線 , 包括亞馬遜云服務(wù)Bedrock平臺、谷歌云 , 而要想要擴(kuò)展思考模式 , 除免費(fèi)版外其他都可以用 。 在標(biāo)準(zhǔn)和擴(kuò)展思維模式下 , Claude 3.7 Sonnet的價(jià)格與此前產(chǎn)品相同:每百萬輸入tokens收費(fèi)3美元 , 每百萬輸出tokens收費(fèi)15美元——其中包括思考tokens 。
剛剛 , Perplexity Pro也宣布上線Claude 3.7 Sonnet , 已經(jīng)在內(nèi)部測試了該模型一段時(shí)間 , 發(fā)現(xiàn)代理工作流程和代碼生成有了顯著改進(jìn) , 用戶現(xiàn)在可以通過在設(shè)置中切換AI模型來進(jìn)行嘗試 。
不少網(wǎng)友上手實(shí)測發(fā)現(xiàn) , 這個(gè)模型可以一次性給出了3287行代碼、十秒鐘完成會計(jì)分析數(shù)據(jù)可視化 , 但是知識儲備滯后 , 以至于搞出“美國現(xiàn)任總統(tǒng)是卡瑪拉”的烏龍 , 還有存在收費(fèi)過高的問題 。
值得一提的是 , 據(jù)華盛頓郵報(bào)消息 , Anthropic正在進(jìn)行一輪高達(dá)35億美元(約合人民幣254億元)的融資 , 融資后估值將達(dá)615億美元(約合人民幣4462億元) 。 投資者包括風(fēng)險(xiǎn)投資公司Lightspeed VenturePartners、General Catalyst和Bessemer Venture Partners、阿布扎比的投資公司MGX 。 Anthropic最初打算籌集20億美元 , 但后續(xù)在與投資者的談判中增加了融資金額 。
盡管上個(gè)月DeepSeek的橫空出世給行業(yè)帶來了顛覆性的變化和擔(dān)憂 , 但Anthropic的CEO Dario Amodei認(rèn)為 , DeepSeek的成就并沒有改變開發(fā)AI技術(shù)的經(jīng)濟(jì)計(jì)算 。 從其新一輪的融資進(jìn)展來看 , 投資者依舊青睞Anthropic這類開發(fā)專有AI模型的公司 。
一、首個(gè)混合推理模型 , 可切換兩種思考模式就像人類不會有兩個(gè)不同的大腦來分別處理可以立即回答的問題和需要思考的問題一樣 , Anthropic覺得 , 推理只是前沿模型應(yīng)具備的能力之一 , 它應(yīng)與其他能力順暢融合 , 而不是一個(gè)完全獨(dú)立的模型 。
Claude 3.7 Sonnet就從多個(gè)方面體現(xiàn)了這一理念:
首先 , Claude 3.7 Sonnet集LLM和推理模型于一身:用戶可以選擇讓模型實(shí)時(shí)作答 , 也可以選擇讓其進(jìn)行更深入的思考 。
在標(biāo)準(zhǔn)模式下 , Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版 。 在擴(kuò)展思考模式下 , 它會在回答前進(jìn)行自我反思 , 從而提高了它在數(shù)學(xué)、物理、指令執(zhí)行、編碼以及許多其他任務(wù)上的表現(xiàn) 。 在這兩種模式下 , 對模型的提示方式大致相同 。

其次 , 用戶還可以控制思考的“預(yù)算” 。 API用戶可以告訴Claude思考所用的token不超過N個(gè) , N的取值范圍可以是0到128000 , 從而在速度(以及成本)和答案質(zhì)量之間進(jìn)行權(quán)衡 。
比如 , 在回答2024年美國數(shù)學(xué)邀請賽問題時(shí) , Claude 3.7 Sonnet會根據(jù)每個(gè)問題允許使用多少token , 即使允許Claude使用整個(gè)思考預(yù)算 , 它通常也會停止 。

另外 , 把重點(diǎn)放在用戶有更大需求的現(xiàn)實(shí)世界任務(wù)上 , 減少了對數(shù)學(xué)和計(jì)算機(jī)科學(xué)競賽問題的優(yōu)化程度 。

在評估多模態(tài)AI代理能力的OSWorld上 , 可以看到Claude 3.7 Sonnet開始時(shí)表現(xiàn)稍好 , 隨著模型繼續(xù)與虛擬計(jì)算機(jī)交互 , 性能上的差異隨著時(shí)間的推移而增加 。

除了傳統(tǒng)基準(zhǔn)測試外 , Claude 3.7 Sonnet在寶可夢游戲測試中甚至超過了所有之前的模型 。
Anthropic為該模型配備了基本內(nèi)存、屏幕像素輸入和函數(shù)調(diào)用 , 以按下按鈕并在屏幕上導(dǎo)航 , 使其能夠連續(xù)玩寶可夢游戲 。 與無法離開故事開始的Pallet Town的房子的Claude 3.0相比 , Claude 3.7成功與三位神奇寶貝道館長戰(zhàn)斗并贏得了他們的徽章 。
圖中 , x軸表示Claude在玩游戲時(shí)完成的交互次數(shù);y軸表示游戲中涉及收集特定物品、導(dǎo)航到特定區(qū)域和擊敗特定游戲boss的重要里程碑 。

二、首個(gè)編碼工具亮相 , 一次性完成人工45分鐘的工作Anthropic還推出了首款智能編碼工具——Claude Code 。 它能夠搜索和讀取代碼、編輯文件、編寫并運(yùn)行測試、提交代碼并推送到GitHub上 , 還能使用命令行工具 , 并且在每一步都讓用戶了解進(jìn)展情況 。
目前還是有限的預(yù)覽版形式 , 用戶可以直接從終端將大量任務(wù)委派給Claude 。

在早期測試中 , Claude Code能夠一次性就能完成那些需要人工花費(fèi)45分鐘以上才能完成的任務(wù) , 從而減少了開發(fā)時(shí)間和工作量 。
在接下來的幾周里 , Anthropic計(jì)劃根據(jù)使用情況不斷對其進(jìn)行改進(jìn):提高工具調(diào)用的可靠性 , 增加對長時(shí)間運(yùn)行命令的支持 , 改進(jìn)應(yīng)用內(nèi)的呈現(xiàn)效果 , 并加深Claude對自身能力的理解 。
另外 , Anthropic還改進(jìn)了Claude.ai上的編碼體驗(yàn) 。 GitHub集成功能現(xiàn)在對所有Claude套餐都已可用 , 開發(fā)者可以將他們的代碼存儲庫直接連接到Claude 。
三、一口氣生成數(shù)千行代碼 , 十秒出會計(jì)報(bào)表不少網(wǎng)友已經(jīng)上手對Claude 3.7 Sonnet進(jìn)行實(shí)測 。 比如 , 讓它“構(gòu)建一個(gè)基于Next.js的軟件即服務(wù)(SaaS)營銷模板” , 咻一下 , 它就生成了26個(gè)代碼文件 , 堪比世界級開發(fā)者 。


網(wǎng)友讓Claude 3.7 Sonnet使用HTML、CSS和JavaScript創(chuàng)建一個(gè)響應(yīng)式的圖片庫 , 并說明該圖片庫應(yīng)顯示一個(gè)圖片網(wǎng)格 , 用戶可以通過點(diǎn)擊來打開一個(gè)光標(biāo)(全屏視圖) , 在其中可以瀏覽圖片 。 從結(jié)果來看 , Claude 3.7 Sonnet非常適合前段開發(fā) , 甚至被稱之為是有史以來最好的編碼基礎(chǔ)模型 。

讓Claude 3.7 Sonnet創(chuàng)建一個(gè)Pygame2D平臺游戲 , 需要包含5個(gè)關(guān)卡、多個(gè)敵人還有一個(gè)終極boss , 模型一次性給出了3287行代碼 , 并且只在2260行出現(xiàn)了一個(gè)錯(cuò)誤(RGB值出界) 。

不由得讓人感慨:都不用再工作了 , 反正Claude 3.7 Sonnet十秒就把會計(jì)分析數(shù)據(jù)可視化做完了 。

網(wǎng)友稱贊:Claude 3.7 Sonnet是一個(gè)巨大的進(jìn)步 , 大模型之間的競爭正在升溫 , 這是一個(gè)激動人心的時(shí)刻 。

有設(shè)計(jì)師讓Claude 3.7 Sonnet創(chuàng)建一個(gè)樣式“像玻璃一樣”的設(shè)計(jì)系統(tǒng) , 模型一次性就能創(chuàng)建出一整套設(shè)計(jì)系統(tǒng) , 而且包含了所有的組件 。


不過 , 也有用戶吐槽Claude 3.7 Sonnet的知識庫好像還停留在去年10月之前 。 針對“現(xiàn)任美國總統(tǒng)是誰”的問題 , Claude 3.7 Sonnet自信回答:是卡瑪拉·哈里斯 , 她在2024年總統(tǒng)選舉中獲勝 。 被用戶指出回答錯(cuò)誤后 , 它才重新回答是特朗普 。

有網(wǎng)友覺得Claude 3.7 Sonnet為了追求“道德正確”而受到了很大限制 , 總體來說還不如馬斯克的Grok 3 。

還有人質(zhì)疑Claude 3.7 Sonnet收費(fèi)太高了:每百萬輸入tokens收費(fèi)3美元 , 每百萬輸出tokens(包括思考tokens)收費(fèi)15美元 。 如果用戶在API請求中使用思考功能 , 思考tokens的數(shù)量很容易達(dá)到數(shù)百 , 甚至有時(shí)會達(dá)到上千 。
用戶關(guān)心的是最終結(jié)果而不是模型思考時(shí)間 , 思考tokens不應(yīng)和常規(guī)輸出tokens按一樣的價(jià)格出售 。


結(jié)語:體驗(yàn)優(yōu)先 , Anthropic探索重構(gòu)AI易用性邊界從Claude 3.7 Sonnet可以讓用戶選擇不同的思考方式、Claude Code將復(fù)雜開發(fā)流程簡化為終端指令等來看 , Anthropic似乎希望能夠簡化用戶體驗(yàn) , 不僅重新思考什么時(shí)候才真正需要AI系統(tǒng)來模仿人類推理 , 也在進(jìn)一步重構(gòu)AI易用性邊界 , 以體驗(yàn)優(yōu)先來增強(qiáng)人機(jī)協(xié)作流暢度 。
【全球首個(gè)混合推理模型降世!程序員集體過年,最強(qiáng)AI編程秒全場,多平臺火速接入】盡管行業(yè)已將推理定位為AI的下一個(gè)前沿領(lǐng)域 , 但Anthropic押注用戶有時(shí)可能渴望更簡單一點(diǎn)的方法 。 Anthropic的首席產(chǎn)品官M(fèi)ike Krieger也談道 , “我們真正想做的是 , 在真正有意義的地方采用這項(xiàng)功能 , 而不是在沒有意義的地方使用它 。 ”在不斷白熱化的AI企業(yè)競爭態(tài)勢中 , 這種方法或許能幫助Anthropic脫穎而出 。

    推薦閱讀