日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

蘋果研究揭示:大語言模型推理能力嚴(yán)重缺陷

蘋果研究揭示:大語言模型推理能力嚴(yán)重缺陷
最近 , 蘋果公司進(jìn)行了一項(xiàng)關(guān)于大語言模型(LLM)推理能力的研究 , 引發(fā)了人們對這些模型在數(shù)學(xué)領(lǐng)域表現(xiàn)的關(guān)注 。
眾所周知 , GSM8K 基準(zhǔn)測試被廣泛用于評估模型在小學(xué)數(shù)學(xué)問題上的推理能力 。 盡管 LLM 在 GSM8K 上的表現(xiàn)近年來有所提高 , 但研究人員對此結(jié)果的可靠性產(chǎn)生了質(zhì)疑 。 因此 , 他們進(jìn)行了大規(guī)模的研究 , 探討當(dāng)前最先進(jìn)的開源和閉源模型的表現(xiàn) 。
為了更好地評估模型的推理能力 , 研究團(tuán)隊(duì)引入了一種改進(jìn)的基準(zhǔn)測試 ——GSM-Symbolic 。 這個(gè)新基準(zhǔn)測試使用符號(hào)模板生成多樣化的問題 , 能夠更好地控制評估過程 , 提供更可靠的指標(biāo) 。

研究發(fā)現(xiàn) , 當(dāng)問題中的數(shù)值被改變時(shí) , LLM 的表現(xiàn)明顯出現(xiàn)波動(dòng) 。 更有趣的是 , 隨著問題中條款數(shù)量的增加 , 模型的表現(xiàn)顯著下降 。 研究人員推測 , 這種表現(xiàn)的下降表明現(xiàn)有的 LLM 并不具備真正的邏輯推理能力 , 而是簡單地模仿訓(xùn)練數(shù)據(jù)中的推理步驟 。
【蘋果研究揭示:大語言模型推理能力嚴(yán)重缺陷】在實(shí)驗(yàn)中 , 當(dāng)僅增加一個(gè)看似相關(guān)的條款時(shí) , 所有最先進(jìn)模型的表現(xiàn)下降幅度高達(dá)65% 。 這些條款雖然與得出最終答案的推理鏈無關(guān) , 卻依然對模型的表現(xiàn)產(chǎn)生了巨大的影響 。 總體而言 , 這項(xiàng)研究為我們提供了對 LLM 在數(shù)學(xué)推理方面的能力和局限性的更深刻理解 。

    推薦閱讀