企業構建可信賴智能體的四個關鍵策略

企業構建可信賴智能體的四個關鍵策略

智能體將會影響每一個職業角色 。 如果你的公司還沒有開始使用智能體 , 它很快就會使用 , 無論是通過現成的軟件產品還是利用大語言模型和數據源的內部工具 。

探索如何在工作中使用智能體的專業人士 , 最好尋求最佳實踐指導 。 湯森路透實驗室首席技術官Joel Hron就是這樣一個信息來源 , 他正在幫助這家信息服務公司利用生成式AI、機器學習和智能體技術 。
Hron告訴ZDNET , 湯森路透使用內部模型和現成工具相結合的方式來推動其AI創新 。 除了大型科技公司前沿實驗室的進展外 , Hron和他的團隊還確保公司充分利用其專有知識和資產 。
\"如果你看看我們擅長做的核心工作 , 那就是能夠將人類專業知識和信息綜合成判斷 , 然后提供給專業人士 , \"他說 。
\"這種專業知識的交付機制正在演進 。 傳統上 , 它通過軟件交付 。 但現在越來越多地通過智能體或智能體加軟件的方式交付 。 \"
Hron指出了湯森路透在智能體方面的幾個重要成就 , 包括AI驅動的法律研究工具Westlaw Advantage和公司的深度研究智能體 , 后者能像研究員一樣審查洞察并制定策略 。
通過這些探索 , Hron總結出了專業人士可以用來構建可信賴智能體AI系統的四個關鍵經驗 。
建立有效的評估體系
Hron表示首先要關注的領域是評估:\"你需要知道什么是好的樣子 。 \"
雖然對評估的關注聽起來是一個顯而易見的要求 , 但Hron說這是一個很難做好、量化和系統化的過程 。
\"在過去三年里 , 我們一直說這是構建良好AI系統最重要的事情之一 , 在智能體時代 , 這一點仍然成立 , \"他說 。
Hron的團隊通過幾種方式跟蹤和衡量智能體的成功 。 首先 , 他們利用公共基準測試 , 他說這些測試為新模型的積極潛在性能提供了良好的早期指標 。
其次 , 他們開發了自己的內部基準測試 , 并為自動評估提供了明確的指導:\"我們的過程不是簡單地說'生成的答案與好答案有多接近?' , 而是真正定義'什么使答案變得好?'\"
最后 , 湯森路透讓人類參與其中 , 確保評估超越自動化評估的范圍 。
\"自動化評估幫助我們的開發團隊更快地推動工作 , 他們可以相對快速地測試很多想法 , 這很好 。 但在我們發布之前 , 我們仍然希望獲得人類專家的信心和他們對性能的評估 , \"他說 。
\"繼續依賴這種方法讓我們能夠發布在市場上表現良好的優秀產品 。 我認為人類輸入是我們能夠做好這項工作并充滿信心地完成它的關鍵要素 。 \"
深入理解智能體運作機制
Hron建議專業人士要深入理解智能體的功能以及它們如何隨時間運作 。
\"將這種認知與用戶體驗緊密結合變得越來越重要 , \"他說 。 \"如果你把這些智能體系統看作是人類AI協作者 , 那么人類和智能體需要有共同的語言和共同的接口來協作 。 \"
Hron說 , 這種共同語言和接口應該讓人類對智能體的思考過程有寶貴的洞察 , 反之亦然 。
\"這個領域是一種新的重要UI體驗 , 我認為將對智能體的深度技術理解與良好的用戶體驗緊密結合是至關重要的 。 \"
雖然許多專家都在談論人類/智能體耦合的重要性 , 但Hron說成功的關鍵很簡單:將業務團隊聚集在一起 。
\"這個過程不是科學的——而是強迫我的設計師與數據科學家坐在一起 , 談論正在發生的事情 , \"他說 。 \"我們越能讓這兩類人接近 , 他們越能經常坐在一起 , 你就能更好地實現這兩個領域之間思維的滲透 。 \"
善用現有工具而非追求全能
盡管可能有炒作讓你相信其他情況 , 但Hron說專業人士必須認識到智能體和驅動它們的模型遠非無所不知 。
Hron說AI模型在三個維度上正在改進:編寫代碼、執行計劃和多步推理 。 最新的進展允許通過其他軟件工具擴展模型能力 。
\"這種發展對我們公司來說利大于弊 , 因為這意味著 , 如果我們能夠分解我們幾十年來向市場銷售的數百個應用程序 , 那么我們就擁有了為專業人士提供經過驗證的能力 , \"他說 。
【企業構建可信賴智能體的四個關鍵策略】\"如果我們能將這些元素分解為智能體的工具 , 那么我們實際上在很大程度上擴展了這些模型的能力 , 這確實是智能體的未來 。 \"
Hron建議專業人士不要將智能體AI視為試圖做所有事情的全知模型 , 而是給智能體提供人們已經使用的經過驗證的能力 , 這是他團隊的重點 。
\"我們正在審視我們的系統 , 問自己:'好的 , 我們為人類用戶構建了這個系統很多年了 。 現在 , 智能體要與這個系統協作需要什么樣的人機工程學?你如何調整過程使其有利于與智能體協作 , 而不一定在所有情況下都與人類協作?這種方法對工具的外觀、感覺和性能意味著什么?'\"
持續學習與行業合作
湯森路透實驗室最近推出了AI信任聯盟 , 這是一個由構建者主導的論壇 , 匯集了來自Anthropic、AWS、Google Cloud、OpenAI和湯森路透的高級AI研究人員 , 討論如何將信任工程化到智能體系統中 。
Hron說 , 該聯盟公開分享經驗教訓 , 為圍繞可信賴AI的更廣泛行業對話提供信息 , 也幫助他團隊的高級成員從行業先驅那里學習最佳實踐 。
\"我們試圖在這些模型如何運作方面推進可解釋性和透明度的關注 , \"他說 。
Hron說 , 技術先驅和他們的模型大大減少了從零準確率到90%準確率所需的時間和精力 。
\"但我們不是在玩90%的游戲 , \"他說 。 \"我們在玩99%和99.9%的游戲 , 我們必須考慮如何獲得那額外的一個九或兩個九的準確率 , 這是信任的區別 。 \"
作為這一過程的一部分 , 湯森路透也在與學術機構合作 。 去年年底 , 該公司宣布了一項為期五年的合作伙伴關系 , 在倫敦帝國理工學院創建聯合前沿AI研究實驗室 。
\"在這些舉措中 , 我們專注于最后兩個九的準確率 , 因為當我們向市場發布產品時 , 這就是人們希望從我們這里購買的東西 , \"Hron說 。
\"前沿技術組織將繼續推動可能性的極限 。 但對我們來說 , 邊際就是在法律、稅務和合規世界中贏得或失去競爭優勢的地方 。 這就是我們真正需要做對的事情 。 \"
Q&A
Q1:湯森路透如何評估智能體系統的性能?
A:湯森路透采用三種方式評估智能體成功:利用公共基準測試作為早期性能指標 , 開發內部基準測試并明確定義\"什么使答案變得好\" , 以及讓人類專家參與評估過程 。 他們強調自動化評估幫助快速測試想法 , 但在產品發布前仍需要人類專家的信心和性能評估 。
Q2:如何實現人類與智能體的有效協作?
A:關鍵在于建立共同語言和接口 , 讓人類和智能體能夠相互理解思考過程 。 實際操作中 , 需要將設計師與數據科學家聚集在一起討論 , 通過頻繁的團隊協作實現兩個領域思維的滲透 , 將對智能體的深度技術理解與良好的用戶體驗緊密結合 。
Q3:智能體是否能替代所有現有的軟件系統?
A:不是的 。 湯森路透認為智能體不應被視為試圖做所有事情的全知模型 , 而應該利用現有經過驗證的能力 。 他們的策略是將幾十年來的應用程序分解為智能體的工具 , 通過現有的專業能力來擴展模型功能 , 這才是智能體發展的真正未來 。

    推薦閱讀