糟糕,大佬45年前論文,被判AI生成

糟糕,大佬45年前論文,被判AI生成

文章圖片

糟糕,大佬45年前論文,被判AI生成

文章圖片

糟糕,大佬45年前論文,被判AI生成

文章圖片

糟糕,大佬45年前論文,被判AI生成

文章圖片

【糟糕,大佬45年前論文,被判AI生成】糟糕,大佬45年前論文,被判AI生成

文章圖片

糟糕,大佬45年前論文,被判AI生成

文章圖片

糟糕,大佬45年前論文,被判AI生成

機器之心編輯部
這是 AI 的時代 , 也是 AI 檢測器的時代 。
近段時間 , 隨著 AI 生成的內容(AIGC)越來越多 , 其中還有不少試圖假冒真實內容 , AI 內容檢測也正成為一種越來越迫切的需求 , 尤其是在注重實證、真實性至關的重要的論文寫作上 。
然而 , 這些 AI 內容檢測器的表現究竟如何呢?
可能遠遠不及預期 。
前兩天 , 知名暢銷書作家 Adam Kay 在社交媒體 X 分享了自己的經歷:他心血來潮 , 把自己的作品丟進一款 AI 檢測器里查重 , 結果系統信誓旦旦地判定其中有 29.7% 的內容由機器生成 。
最尷尬的地方在于 , 這本書早在近十年前就已出版 , 當時的 AI 技術連他書中的一句長難句都讀不明白 。

這條吐槽帖迅速引爆網絡 , 目前瀏覽量已突破 210 萬次 , 同時也激起了全網一場浩浩蕩蕩的「測謊儀大挑戰」 。 越來越多的人拿著絕對不可能由 AI 生成的文本去測試 , 得到的結果無一不令人啼笑皆非 。
學術界可謂是這場誤判的重災區 。 比如愛丁堡大學全球公共衛生教授兼主任 Devi Sridhar 教授的以前的文章就被檢測判定有 90% 的內容都是 AI 生成的 。

阿伯丁羅伯特戈登大學公共政策系的榮譽退休教授 Paul Spicker 45 年的一篇論文也被判定有 77% 的內容是 AI 生成的 。

也有更多網友分享了自己的檢測結果 。 比如網友 decentricity 用自己 2008 年的一篇關于 AI 的論文進行了檢測 , 最終榮獲 100% 純 AI 生成的錯誤認證 。 這位網友調侃說自己用的是「GPT 負 6」 。

不僅學術圈 , 就連新聞報道也會被錯誤檢測 。 比如在下面的例子中 , Zavinski 測試了自己剛剛撰寫的一篇 2000 字的報紙報道 , 復盤了當地小鎮七十年代城市改造失敗的歷史 。 他特意使用了通俗易懂的平實文風 , 并且一手資料完全沒有在互聯網上公開過 。 即便如此 , 系統依然判定這篇報道有 91% 的可能性是 AI 寫的 , 順便還給出了「可讀性差」的扎心評價 。

至于破折號識別法 , 更是幾乎已經普及 , 也迫使相當多的人類作者改變自己的寫作習慣 。

還有更離譜的 , 就連經典的《羅密歐與朱麗葉》原著也被認為有 41% 的內容是 AI 生成的:

就連《獨立宣言》也未能幸免 , AI 檢測器認為有 99.99% 的內容來自 AI:

為什么 AI 檢測器會給出如此讓人大跌眼鏡的結果?
作家 Adam Kay 給出了自己的見解 , 如今大量人類創作內容被 AI 公司用于模型訓練 , 因此 , 當大模型判斷某些段落像 AI 風格時 , 本質上并不是人在模仿 AI , 而是 AI 在復現它曾經學習過的人類表達 。
所以 , 在不久的將來 , 當出版商像教育機構一樣 , 在印刷前把所有內容都拿去跑一遍 AI 檢測時 , 那些被拿去訓練的成千上萬作者的作品 , 會不會反而被標記為 AI 生成?這正是當下這種局面帶來的一個相當荒誕的副作用 。

更是有網友指出 , 寫作水平越高(詞匯更豐富、語法更規范) , 反而越容易被檢測工具判定為 AI 寫的 。

「AI 檢測器簡直就是個笑話 。 它們是用人類創作的數據訓練出來的 , 卻反過來用來質疑人類的智能與原創性 。 僅憑這一點就把某人的作品標記為 AI 生成 , 既不可靠 , 也不公平 , 而且在邏輯上站不住腳 。 」
這樣的質疑并非個例 。

這位網友表示「這些東西本質上都是胡扯 , 先用人類的集體知識去訓練 AI , 然后又用同一個 AI 來判斷一段內容是不是由 AI 生成的 , 而這個判斷本來就建立在它最初訓練所依賴的人類智能之上 。 說到底 , 這真的是一種相當荒誕的邏輯 。 」

AI 寫的內容 , 本來就來自人類 , 我們還怎么識別 AI?像不像 AI 這件事本身 , 或許就已經失去了明確的邊界 。

    推薦閱讀