AI聊天機器人越聊越“笨”?可能真不是錯覺

AI聊天機器人越聊越“笨”?可能真不是錯覺

文章圖片

AI聊天機器人越聊越“笨”?可能真不是錯覺

文章圖片

AI聊天機器人越聊越“笨”?可能真不是錯覺

文章圖片


不知道大家有沒有這種感覺:和AI機器人短時間聊天的話還行 , 時間一長 , 就感覺對話開始變的前言不搭后語、邏輯不通 。
其實這種感覺并不是錯覺 。
最近 , 微軟發表的一項研究證實 , 即使是目前最先進的大語言模型 , 在多輪對話中的可靠性也會急劇下降 。

研究人員對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內的 15 款頂尖模型進行了超過 20 萬次模擬對話分析 , 揭示出一個被稱為“迷失會話”的系統性缺陷 。

數據顯示 , 這些模型在單次提示任務中的成功率可達 90% , 但當同樣的任務被拆解成多輪自然對話后 , 成功率驟降至約 65% 。
研究指出 , 模型的核心能力僅降低約 15% , 但“不可靠性”卻飆升 112% 。
也就是說 , AI 大模型仍然具備解決問題的能力 , 但在多輪對話中變得高度不穩定 , 難以持續跟蹤上下文 。

研究人員進一步分析了造成性能下降的行為機制 。
首先是“過早生成” 。 模型在用戶尚未完整說明需求前就嘗試給出最終答案 。 一旦在早期回合中形成錯誤假設 , 模型后續便會在該錯誤的基礎上繼續推理 , 而不是隨著新信息的加入進行修正 , 從而導致錯誤逐步放大 。
其次是“答案膨脹” 。 在多輪對話中 , 模型的回復長度比單輪對話增加了 20% 至 300% 。 更長的回答往往包含更多假設與“幻覺” , 這些內容隨后被納入對話的持續上下文 , 從而進一步影響后續推理的準確性 。

令人意外的是 , 即使是配備了額外“思考詞元”(thinking tokens)的新一代推理模型 , 如 OpenAI o3 和 DeepSeek R1 , 也未能顯著改善在多輪對話中的表現 。
研究人員指出 , 現有的基準測試主要基于理想的單輪場景 , 忽略了模型在真實世界中的行為 。
因此 , 對于那些依賴 AI 構建復雜對話流程或智能體的開發者而言 , 這一結論意味著未來將要接受嚴峻挑戰 。

再來看看其他消息 。
微軟日前測試 Windows 11 新版“畫圖”(Paint)應用 , 重點引入“自由旋轉”功能 。
根據微軟官方描述 , 用戶現在可以全方位角度調整形狀、文本框以及任何活動的圖像選區 。 用戶選中對象后 , 其上方會出現一個“旋轉手柄” , 用戶只需拖動該手柄即可向任意方向自由旋轉對象 , 從而實現更自然的構圖和布局 。

【AI聊天機器人越聊越“笨”?可能真不是錯覺】除了直觀的手動拖拽 , 微軟還為需要高精度編輯的用戶提供了解決方案 。 在“旋轉”菜單下新增了“自定義旋轉”選項 , 用戶可以在此輸入具體的角度數值 , 實現精確到 1 度的微調 。

    推薦閱讀