奇富科技發布評測基準,想讓信貸AI告別“黑箱競技”

奇富科技發布評測基準,想讓信貸AI告別“黑箱競技”

文章圖片

奇富科技發布評測基準,想讓信貸AI告別“黑箱競技”

文章圖片


奇富科技 , 為何此刻站出定義標準?這家科技公司的底氣來自于哪里?是否有能力為行業定義一把公認的“標尺”?
要回答這些問題 , 不妨先審視行業正面臨的真實挑戰 。
過去三年 , 大模型如風暴般席卷了信貸領域 , 掀起了一場以“效率革命”為名的技術浪潮 。
在這過程中 , 逐漸形成了由互聯網大廠引領、傳統銀行跟進和垂直玩家深耕的三足鼎立的格局 。
隨著大模型技術的收斂 , 信貸行業也陷入了“冷靜期” 。 技術上的先進性與落地效果間形成了鴻溝 。 當眾多廠商紛紛標榜自身的AI能力領先 , 一個根本性問題日益凸顯:究竟該如何客觀衡量 , 誰的技術更扎實、更可信?



近日 , 奇富科技給出了自己的答案 , 聯合復旦大學與華南理工大學研究人員 , 共同發布首個面向信貸場景的多模態評測基準FCMBench-V1.0 。
該基準基于真實信貸業務場景 , 抽象科學問題 , 設計多模態評估任務與挑戰 , 以期構建來源于業務、服務于業務的實用性評測體系 。 同時 , 奇富科技宣布開源數據集與評測工具 , 為行業共建AI基礎設施提供關鍵支撐 。
至此 , 熱鬧紛繁的信貸AI賽道 , 終于有了一把清晰的“標尺”和一條公認的“基準線” , 技術實力高低 , 終于有了可比較的刻度 。
信貸AI的“無標之痛”金融行業素有“練兵場”之稱 , 一方面是場景下的各種需求比較復雜 , 所涉及的流程繁多;另一方面是對數據保密性、審核合規和交易安全等指標的低容錯率 。
奇富科技多模態負責人楊葉輝博士向我們介紹 , “信貸審核涉及幾十類證件、每類證件有多種模板、審核流程涉及多個環節和任務 , 以及多證件的交叉推理驗證 , 用戶拍攝的場景和上傳的文件也多種多樣 。 信貸場景的這些挑戰對于多模態大模型的能力是非常好的試金石 。 ”
但當信貸AI從演示驗證走向深度應用時 , 卻遭遇了一系列痛點問題 。 最突出的表現是大模型對專業場景的失焦 , 大模型往往更注重通用的能力 , 而缺乏了對信貸場景的適配性 。
例如 , 一般行業評測多聚焦于“圖片識別”或“文本分類” , 但信貸審核員最頭疼的 , 并非識別“這是不是一張圖片” , 而是判斷這張身份證與當前操作人的其他材料 , 歷史留存證件是否一致 , 且證件本身是否可疑 。 所謂的專業任務 , 是從數百頁銀行流水中識別出隱性負債、可疑的關聯方交易等 , 這需要深度的領域知識和復雜的推理邏輯 , 通用大模型經常出現失靈 。



數據的合規問題 , 在信貸行業尤為棘手 。 最需要被衡量的風控模型 , 其訓練數據因涉及用戶隱私、企業商業機密 , 無法被共享 。 這導致了一個悖論 , 學術界無法獲取高質量脫敏的真實信貸數據 , 研究只能停留在真空環境下 , 訓練出的模型淪為“紙上談兵” 。
工業界則因為數據敏感性 , 只能進行“黑箱競賽” , 各家均宣稱自家模型在私有數據部署效果卓越 , 卻無法在第三方統一的數據集上同臺競技 , 不僅信任無法建立 , 行業也無法通過統一標準測試水平 。
即便走過了模型、數據的測試 , 在真實生產環境中還是會遇到許多突發和個性化的問題 。 例如 , 模型在執行掃描PDF、高清標準照等相對標準化任務上表現優異 。 但在真實世界中 , 客戶上傳的營業執照可能邊緣有褶皺 , 因年份過長可能出現褪色;手持身份證照片可能背景雜亂、光線昏暗;遠程面審時 , 網絡延遲和視頻壓縮會導致語音斷續、面部模糊 。 這些在實驗室被過濾掉的噪音 , 恰恰是線上場景的常態 , 專門針對此類場景的魯棒性測評目前嚴重缺失 。
專業場景失焦、數據之困和魯棒性盲區 , 三大痛點交織 , 共同將行業推入一個負向循環 。
【奇富科技發布評測基準,想讓信貸AI告別“黑箱競技”】機構和企業選型時只能看Demo和通用打榜成績 , 存在一定盲目性 。 各家都在自己的“孤島”上重復建設相似能力 , 并宣稱自己領先 , 市場充斥著劣幣驅逐良幣的擔憂 。 因魯棒性在上線前得不到充分檢驗 , 許多項目在落地效果不及預期 , 投入產出比低下 。
現階段 , 信貸行業呈現出投入大、選型盲和驗證難的困境 , 大量資源被消耗在解決相同的基礎問題上 。 要打破此循環 , 亟需一個統一的“標尺”和一場評估范式革命 。
FCMBench , 一把來自“戰場”的尺子為了解決行業的普遍性問題 , 奇富科技在設計FCMBench時設定了三大核心目標 。
強調實用性 , 與真實信貸審核流程對齊 , 提供標準化評估指標 。 重要的是 , 理想情況下 , 若模型在該基準測試中取得良好成績 , 可直接應用于實際場景 , 而不僅僅是滿足實驗室指標 。
據悉 , FCMBench-V1.0構建了與真實銀行審核流程高度一致的評測框架 , 涵蓋18類核心信貸證件 , 如身份證、收入證明、銀行流水、房產證等 , 包含4043張合規圖像和8446個測試樣本 , 問題覆蓋信貸審核全鏈條 。



評測盡可能全面覆蓋所有實際應用場景和需求 。 其創新的“感知-推理-魯棒性”三維評測體系 , 對信貸AI模型所需的實戰核心能力提出了全面的考核 。
感知維度包含文檔類型識別、關鍵信息提取、圖像質量評估三大任務 , 考驗模型從復雜圖像中提取基礎信息的能力;推理維度涵蓋一致性校驗、有效性校驗、數值計算、合理性審核四類任務 , 模擬信貸員交叉驗證信息、判斷材料有效性的核心工作;魯棒性維度則設置十類真實采集干擾 , 如傾斜拍攝、光照不均、反光等 , 測試模型在真實應用場景中的穩定性 。
在數據層面 , 在保證多樣性的基礎上 , 滿足合規性要求 。 數據采集支持單圖像和多圖像格式中的一種或多種證件 , 涵蓋信貸審核中遇到的各類數據類型 。 以真實信貸材料為基礎 , 在保證文檔格式高度仿真的同時 , 手動生成一系列信貸相關證件 , 其中所有敏感信息均為虛構 。
整體看下來 , FCMBench取之于奇富科技常年的業務經驗和數據積累 , 并將成果直接用于實戰場景 。 首個版本做到了“對癥下藥” , 其推出就是為了針對性地解決“無標可依”“無據可考”的AI落地痛點 , 讓AI模型的性能評估有統一的標尺 。
FCMBench并非是一個孤立的現象 , 而是整個金融行業轉向實用性的信號 。 去年 , 一些大廠已經率先行動起來 。
螞蟻數科同樣認同專業性和統一的標準 。 其構建的金融任務分類體系 , 包括了六大類、六十六小類場景 , 覆蓋銀行、證券、保險、基金、信托等金融全場景 。 此外 , 螞蟻數科還聯合行業內專業機構推出Finova大模型金融應用評測基準 , 深度考察智能體能力、復雜推理以及安全合規能力 。
螞蟻消金基于通義千問基座訓練“消費信貸垂類風控大模型” , 將任務詳細拆解為授信、審批、專項優化反欺詐和信用評估等指標 。 京東科技則依托供應鏈生態 , 強化票據、合同、倉單等多模態單據的結構化識別與交叉驗證 , 針對金融語義進行了專項重構 。 這些操作都在一定程度上 , 彌補了通用大模型“專而不精”的劣勢 。
落實到業務上 , 各家的目標也高度一致 , 追求價值落地 。 無論是螞蟻的秒級授信、京東的供應鏈金融快審 , 還是奇富科技的AI全流程審批 , 本質上都是將模型性能指標轉化為 , 包括壞賬率降低、客群覆蓋擴大、審核人工成本節約等實際業務價值 。
通過對23個主流多模態模型的全面評測 , FCMBench展現出了專業的鑒別能力 。 在FCMBench的首輪評測中 , 谷歌的Gemini 3 Pro(64.61)位列商業模型榜首 , 阿里云Qwen3-VL-235B(57.27)成為最佳的開源基模 。 基于奇富實際業務場景研發的信貸垂類多模態大模型 , Qfin-VL-Instruct以64.92的F1分數斬獲綜合第一 。



測試結果顯示 , Qfin-VL-Instruct感知任務精準度行業頂尖 , 一致性校驗能力突出 , 低延遲部署適配在線審批場景 , 是專為信貸審核優化的“場景化模型” 。
其中 , 在感知任務維度實現全面領先 , 文檔類型識別、關鍵信息提取和圖像質量評估三個子指標均超過Gemini 3 Pro 。 在有效性校驗、數值計算、合理性審核等任務上 , 還可通過啟用輕量級思維鏈推理進一步縮小與Gemini 3 Pro的差距 。
Qfin-VL-Instruct的成績 , 證明了通用模型能力無法完全覆蓋專業場景 , 通過“場景數據+專業領域知識”積累能夠突破現有模型的上限 , 奇富科技在垂類模型上的成功 , 也為行業指明了一條可復制的路徑 。
從“技術競技場”到“行業共同體”目前 , 奇富科技宣布開源了FCMBench的數據集與評測方法 , 有關FCMBench的數據集、評測工具以及Qfin-VL-Instruct的試用接口已開放獲取 。
FCMBench的開源 , 標志著金融AI發展邏輯的一次根本性轉向:信貸行業正從各家閉門的“黑箱競賽” , 走向基于公共標準的“生態共建” 。
這一舉措將徹底打破領域壁壘 , 推動信貸AI從“單點優化”邁向“產學研協同創新” 。 高質量、合規的開放數據集 , 讓學術界擁有了觸及真實金融問題的“合法接口” 。 產學研合作得以從務虛的技術對接會 , 轉向務實的問題攻堅 , 共同攻克“可解釋AI”“小樣本魯棒性”“公平性驗證”等既具學術深度 , 又攸關業務落地的真問題 。
擁有可量化、可復現的評測工具后 , 金融機構的技術評估體系得以重構 。 選型決策將從依賴廠商的“案例包裝”與“榜單大比拼” , 轉向客觀的能力跑分與場景適配度分析 , 極大降低決策風險與試錯成本 , 并倒逼大模型廠商回歸價值競爭本質 。
公開基準如同一面“照妖鏡” , 迫使所有廠商在同一把“尺子”下接受檢驗 。 這意味著以前公說公有理 , 婆說婆有理的局面即將終結 。 當各家同拿一份考卷答題 , 坐在考場答題時 , 誰的分數更高 , 成績則一目了然 。
金融AI的終局并非技術炫技 , 而是建立穩固的信任體系 。 公開、透明的評測基準 , 正是建立這種信任的第一步 。 它為信貸行業未來建立AI模型合規認證、金融垂類領域能力測試和監管標準 , 都提供了有效的思路和實踐基礎 。
楊葉輝博士告訴我們 , “FCMBench -V1.0只是一個開始 , 未來會持續完善評測基準 , 希望打磨好一把公平、公正 , 面向實戰需求的尺子” 。
這不僅僅是一次技術開源 , 更是一次行業共識的重塑 。 只有當技術能力可衡量、可比較、可驗證時 , 信貸AI才能進一步走向技術應用的深水區 , 推動整個行業走向更安全、可靠、可控的智能化未來 。

    推薦閱讀