北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴

文章圖片

北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴


本文共同第一作者王一棟(北京大學)和宋昀澤(新加坡國立大學)主要從事大語言模型評估與對齊研究 。 通訊作者王存翔(清華大學)和葉蔚、張世琨(北京大學)分別在自然語言處理、軟件工程和知識推理等方向有長期積累 。 團隊成員來自北大、清華、南大、NUS、CMU、西湖大學、東南大學、東京科學大學等多所高校 , 長期關注 LLM 可信評估問題 。
讓 GPT-4 給兩篇文章打分 , A 拿了 4 分、B 拿了 3 分 。 按常理 A 應該比 B 好吧?但換成成對比較 , 同一個模型卻說「B 更好」 。 更離譜的情況也有——ABCA 的「石頭剪刀布」循環 , 連傳遞性都守不住 。 這事還真不少見 。
北京大學、清華大學等八所高校的研究團隊在 ICLR 2026 上提出了 TrustJudge , 一個基于概率的評估框架 。 核心想法不復雜:與其讓模型吐一個離散分數了事 , 不如把它內部的完整概率分布也用上 。 不用額外訓練 , 評估不一致性就降了一大截 , 準確率還跟著漲了 。

論文標題:TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them 作者:Yidong Wang* Yunze Song* Tingyuan Zhu Xuanwang Zhang Zhuohao Yu Hao Chen Chiyu Song Qiufeng Wang Zhen Wu Xinyu Dai Yue Zhang Cunxiang Wang? Wei Ye? Shikun Zhang? 單位:北京大學、清華大學、新加坡國立大學、南京大學、卡內基梅隆大學、西湖大學、東南大學、東京科學大學 論文鏈接:https://arxiv.org/abs/2509.21117 開源代碼:https://github.com/TrustJudge/TrustJudge01|問題有多嚴重?
用大模型給其他模型當裁判 , 已經是評估界的標配——MT-Bench 用單項評分 , AlpacaEval 用成對比較 , RLHF/GRPO 做偏好標注 。 但這個裁判的兩種考法給出的結論 , 經常打架 。
TrustJudge 的作者做了系統測量 , 把問題量化成了兩類:
評分-比較不一致(Score-Comparison Inconsistency)
打分時 A 比 B 高 , 拉到一起比較時又說 B 好 。 用 Llama-3.1-70B 測試 , 不一致率 23.32%——差不多每四次評估就矛盾一次 。
成對傳遞性不一致(Pairwise Transitivity Inconsistency)
成對比較出現循環偏好(ABCA)或者等價矛盾(A = B = C 但 A ≠ C) 。 Llama-3.1-70B 上的不一致率是 15.22% 。


圖 1:左圖是 Llama-3 系列在 1200 條指令上的評分熵分布 , 右圖是成對比較中兩種傳遞性錯誤的占比 。
02|問題出在哪?
數據擺出來了 , 接下來的問題是:這兩類不一致的根源是什么?作者從信息論的角度做了歸因 。
離散評分丟信息
5 分制打分 , 本質上是把模型心里的連續判斷硬塞進幾個整數格子里 。 比方說兩條回復質量分別是 3.8 和 4.2 , 5 分制下都成了 4 分 , 打分看不出差別 。 但拉到一起做比較 , 模型是感知得到這 0.4 差距的——矛盾就這么來了 。
作者還在理論上證了一條:存在兩個不同的概率分布 , 離散評分下完全相同 , 但信息熵不同 。 換句話說 , 離散化在結構上就一定會丟東西 。
模糊平局帶來傳遞性問題
做成對比較時 , 模型對質量相近的回復經常給「平局」 。 但平局和平局不一樣——有的是模型真覺得半斤八兩 , 有的純粹是拿不準 。 這些「含糊的平局」在不同組合里不一致地冒出來 , A = B、B = C、但 A ≠ C 的情況就出現了 。
03|TrustJudge 怎么做的?
思路說白了就一句話:別只取模型吐出的那個離散答案 , 把背后的概率分布也用起來 。 框架分兩塊:
分布敏感評分(Distribution-Sensitive Scoring)
傳統做法是讓模型輸出一個分數然后直接采納 。 TrustJudge 不這樣干:
把評分尺度從 5 分拉到 100 分 , 先把粒度給夠 。 對所有候選分數的 logits 做 softmax , 得到一個完整的概率分布 。 算加權期望作為最終分數:
效果就是:原來 5 分制下都是 4 分的兩條回復 , 現在一個 3.82、一個 4.17 , 差異保住了 。
跟 G-Eval 的區別在于 , TrustJudge 用 softmax 歸一化確保概率和嚴格為 1 , 不會被非評分 token 干擾 。
似然感知聚合(Likelihood-Aware Aggregation)
成對比較這邊 , TrustJudge 給了兩種策略來打破平局:
策略一:基于困惑度(PPL-Based)
遇到平局時 , 分別算 A 在前和 B 在前兩種排列的困惑度 , 選困惑度低的那個方向的結果——模型讀起來更通順的排列 , 判斷往往更靠譜:

策略二:雙向概率聚合
把兩個方向的偏好概率加起來 , 取置信度最高的:

由于是兩個方向聚合 , 位置偏差(position bias)也在這個過程中被抵消了 。
04|理論上也站得住
上面的方法直覺上說得通 , 但有沒有更嚴格的保證?作者給出了形式化的理論證明:

一句話概括:信息保留得更多了 , 判斷的不確定性降下去了 。
05|實驗結果
實驗數據來自 MT-Bench(80 題)和 ArenaHard(500 題) , 裁判模型覆蓋 Llama-3 系列(3B / 8B / 70B)和 GPT-4o 。
主實驗

表 1:所有模型上兩類不一致性都明顯下降 , 精確匹配率同步上升 。 其中 Llama-3.2-3B 的傳遞性不一致從 54.69% 直接降到 17.76% , 落差接近 37 個點 。


圖 2:不同容忍度 δ 下的不一致性對比 。 TrustJudge(方塊 / 三角)在各個設置下都低于 Baseline(虛線) 。
消融實驗
為了搞清楚每個組件的貢獻 , 作者做了逐項消融(這里額外加入了 GPT-3.5-Turbo 作為參考):

表 2:逐個拆開看 , softmax 歸一化和 100 分制對評分不一致各有貢獻;似然聚合和 PPL 方法對傳遞性不一致效果都很明顯 , 似然聚合整體略優 。
06|換個模型還管用嗎?
上面的主實驗只用了 Llama-3 和 GPT-4o 。 一個自然的問題是:換成別的架構還有效嗎?
管用 。 作者把實驗擴展到 Qwen-2.5(7B / 14B / 32B)、Gemma-2(2B / 9B / 27B)、Llama-3(3B / 8B / 70B)、GPT 四個家族、共 12 個變體 。


圖 3:四個模型家族上的不一致性對比 。 左圖為評分-比較不一致 , 右圖為傳遞性不一致 , TrustJudge 在所有架構上都有改善 。
幾個值得注意的點:
分布敏感評分的效果跟模型架構無關 , 都能降不一致性 。 加上似然感知聚合后 , 8B 模型的傳遞性甚至比未使用 TrustJudge 的 70B 模型更好 。 9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好 。07|推理模型反而更不靠譜
一個意外發現:專門練過推理能力的模型 , 做評估時反而更容易自相矛盾 。

DeepSeek-R1 蒸餾版的評分-比較不一致率 58.75% , 是同參數量 Llama 的將近兩倍 。 看起來在數學數據上做強化訓練這件事 , 是以評估能力為代價的 。
不過 TrustJudge 在這么高的不一致基線上依然有效:CR 降了將近 10 個點 , 傳遞性不一致從 63.98% 壓到了 18.50% 。
08|拿來做 Reward 也好使
除了評估 , TrustJudge 還有一個實際用途:給強化學習提供獎勵信號 。
作者把它接到 GRPO(Group Relative Policy Optimization)上訓練 Qwen2.5-7B-Instruct , 訓練數據覆蓋摘要、數學推理、指令遵循等 , 一共 8600 條 。

表 3:用 Baseline 獎勵訓練的模型在兩種協議下都沒超過原始模型(反而略降);用 TrustJudge 獎勵訓練的模型兩邊都漲了 。

圖 4:訓練過程中的獎勵變化 。 TrustJudge 的獎勵信號全程高于 Baseline 。

圖 5:驗證集上各任務的獎勵曲線 , 實線是 TrustJudge , 虛線是 Baseline 。 改善不是靠單個任務拉的 , 是全面的 。
道理也好理解:評估越一致 , 獎勵信號噪聲越小 , 模型學得越準 。
09|光提高打分精度夠不夠?
看完前面的實驗 , 可能會有人問:TrustJudge 里面既提高了評分粒度(5 分 → 100 分) , 又加了概率歸一化 。 那要是我只做前者 , 不做后者 , 行不行?

圖 6:5 分、10 分、100 分三檔粒度下的不一致性變化 。 粒度越高不一致越低 , 但在同一粒度下 TrustJudge(虛線)始終低于 Baseline(實線) 。
結論是:提高粒度有幫助 , 但光靠粒度不夠 。 TrustJudge 贏在粒度提升 + 概率歸一化兩件事疊加到一起 。
10|小結
TrustJudge 做的事情可以用兩句話講清楚:
離散評分丟信息 → 改用分布敏感評分 , 把概率分布的信息保住 。 模糊平局壞傳遞性 → 改用似然感知聚合 , 讓模糊判定變得清晰 。【北大清華聯合多校提出TrustJudge,讓LLM評估更值得信賴】實際效果上 , 它不用訓練 , 開箱即用;跨 Llama、GPT、Qwen、Gemma 四個架構都有效;除了做評估 , 接上 GRPO 當獎勵信號也能用;而且有理論證明兜底 。 說到底 , 如果我們要讓大模型來當裁判 , 總得先確認這個裁判自己別前后矛盾才行 。

    推薦閱讀