還在討論token怎么翻譯?吃我一魯棒先!

還在討論token怎么翻譯?吃我一魯棒先!

文章圖片

還在討論token怎么翻譯?吃我一魯棒先!


最近AI自媒體開始踴躍討論各種英文技術名詞的中文新譯法 。 Token的新譯法紛紛涌現:靈符、模元、信符、道元、智籌、智元、智根、偷啃……
“茴字有幾種寫法”的當代活動版本 , 從未像現在這樣生機勃勃且不(太)招人嫌 。 琢磨AI、token和prompt該怎么譯 , 真的給業界帶來一陣中國溫度 。
將token譯為“偷啃”、將AI譯為“硅頭” , 固然不太妥當 。 但現在大家的咬文嚼字熱情 , 也不是特別必要 。 專有名詞的翻譯與流行有自生的規則 , 硬鉆牛角尖費力不討好 。
畢竟“中國日均詞元調用量突破140萬億”報道 , 已經將token和“詞元”的譯法標定 。 自媒體再有人氣 , 大不過這種認證 。
01
按唐僧的標準 , 直接音譯對中文無害
現在大家都知道嚴復的“譯事三難”原則是外文譯中文的基礎原則 , 不過“信、達、雅”雖然本身是外文中譯的黃金標準和典范示例 , 但不是唯一的標準 。 中文不是從百多年前才開始有翻譯 。
玄奘法師作為翻譯界祖師之一 , 給過“五不翻”的準則 , 在五種情況下 , 可以不對外文中的專屬名詞進行意譯 , 用音譯也行:
“秘密” , 有神秘性質的術語;
“含多義” , 多義詞;
“此無” , 中文里實在找不到有絲毫相近的近義詞;
“順古” , 已經通行的音譯 , 荀子講過“約定俗成謂之宜 , 異于約則謂之不宜”;
“生善” , 有宣揚譯者推崇的觀念的需要 。

以這“五不翻” , 就能看出AI相關字眼如果沒法意譯 , 直接音譯也無礙 。 拿天怒人怨、神泣鬼號、最出名的技術名詞翻譯“魯棒性”來說吧 , 這個音譯詞乍看礙眼、細琢磨卻符合“五不翻”原則 。
現在大家都知道“魯棒”是直接音譯“robust” 。 可考證的源頭 , 是1979年南開大學涂奉生、齊寅峰教授發表的論文《魯棒(Robust)調節器》和《魯棒調節器的一種設計》 。
在此之前 , 要把“robust”在各種工程學科中“系統在外部壓力、不確定條件、環境特性參數變化下維持原有性能狀態”的含義翻譯出 , “寬容性”和“穩健性”的譯法都用過 , 但都不完全傳達含義 。 “魯棒”一出 , 業內都覺得這說法的字義最貼合 。
【還在討論token怎么翻譯?吃我一魯棒先!】1980年的專業人士評價是:“魯棒有山東大棒之意 , 倒是音義兼顧”;
“‘音義兼顧’的絕好譯法 。 因為‘robust調節器’具有‘使系統保持穩定且具有漸進調節特性的能力’ , 而‘魯’者粗莽也 , ‘棒’者強之同義也 。 所以‘魯棒’一詞較好地表明了此類調節器的特征 , 且較‘粗壯’ , ‘強壯’等詞生動” 。
看 , “魯棒”符合了“含多義”、“順古”的音譯原則 。
說回AI范疇 , 大家在琢磨完Token和Prompt該怎么意譯之前 , 是否該想想如果要意譯每個英文AI字眼 , SOTA該不該排位更先?畢竟一個State of the art的縮寫詞非要寫英文字眼、且按英文拼音法連讀 , 而非直接意譯成“業內前沿” , 真是豈有此理 。
當然 , 不譯SOTA也符合“五不翻”原則里的“秘密”、“順古”和“生善” 。 用當代粗話說 , 就是大家習慣了 , 而且這字眼顯得使用者懂行、看不懂的人外行 , 體現逼格和門檻 , 你硬碰大家已經形成的語言習慣干嘛 。
02
若講究“傳信”且“通達” , Token就是“詞元”
“信達雅”三原則 , 在翻譯中必有取舍:“信”為根本 , 但不能執拗;在保證“達”的前提下 , “信”可以適當妥協;“雅”就是烤串上的孜然 , 有當然很好 , 沒有也過得去 。 從孔子開始 , “文勿勝質”、“勿以辭害意”就是說中文的標準 。
Token譯成“詞元” , 不僅“順古” , 而且在“信”、“達”、“雅”三要素中至少占了兩個 , 真沒必要繼續琢磨了 。
“順古” , 是因為《計算機科學技術名詞(第三版)》里 , 已將AI自然語言處理/計算語言學場景下的Token規范譯為“詞元”;頂級會議論文集和專業刊物論文的中文譯稿、中國高校的計算語言學專業教材 , 也大都采用“詞元”譯法 。 你要改 , 你先跟“中國科學技術名詞審定委員會”和外國的會議舉辦方去杠 。
而且Token譯成“詞元” , 在“信”的準確性要求、和“達”的曉暢明白要求之間 , 有最合適的均衡 。 在byte頂了“字節”的“字”之后 , “詞”和“元”的組合詞 , 就是最切近而且最易理解的“最基礎、不可再分的基本計算單元”表述 。
挑戰“詞元”譯法的立論 , 大都在“Token不能嚴格對應單個字/詞”的技術性質上立基 。
是啊是啊 , 耗千個token生成的是750個左右英語單詞、大模型答不對“strawberry里有幾個r”和“9.11與9.9誰更大”是因為token的分隔原理和自然人說話不一樣 , 你知道我知道大家都知道 。 但揪著這些技術細節 , 去改已經通用的譯名 , 顯你讀書多、能耐大嗎?
硬要追求譯詞指代的涵義既全面又精準 , 那Token用區塊鏈時代的“代幣”譯法也比新造好 。
畢竟從黃仁勛到騰訊、阿里 , 大廠和大老板們現在都說token消耗量與生產效能掛鉤、要把token配比薪資發給員工 。 管Token叫“代幣” , 這下又沒毛病了 。 拿南京方言口音念 , 還有一絲諧謔的惡趣味 , “雅”這塊也顧及 。
03
譯詞越短越好 , Prompt只會成為“提示”
中譯技術專屬名詞 , 音譯敵不過意譯、最終被意譯取代的例子不少 , 大都符合兩個條件:一是音譯實在太不知所謂 , 二是意譯比音譯短、且有最短的選項 。
音譯讓人不曉得在說啥的典范 , 就是嚴復本人 。 大清國的賜進士老爺既要翻譯英文書 , 又討厭當時直接搬運“和式漢語”字眼的“東學”風氣 , 就只有用音譯來完成專有名詞的英譯中任務 。
“幺匿”、“拓都”、“涅伏” , 嚴復獨創的這些音譯看上去比“魯棒”不知所謂得多 。 別說現在 , 近百年前的知識分子一眼也猜不透這是在說啥 , 不讀他的譯作 , 誰也不知道這是在翻譯“unit”、“total”、“nerve” 。 當時大人物的翻譯被收入入學考試之后 , 直接讓未來大人物郭沫若哭爹叫娘:“我的媽!這樣偉大的一個難題 , 實在足以把人難倒 。 ”
當“幺匿”、“拓都”、“涅伏”被中文使用者拋棄 , “nerve”的中文對應詞沒有退回到譚嗣同和洋教士版本的“腦氣筋” , “unit”、“total”、“nerve”譯詞使用了日本人的“個體”、“總體”、“神經” 。 原因不消解釋 , 三個字的單詞永遠沒有兩個字的單詞更受歡迎 。
如果直接音譯更準確但更拗口 , 中文使用者會很開明地使用意思不那么準確、而字面更簡潔的意譯 。 比如“伯里璽天德”是清國翻譯的精準表述:“權力效能比皇上強、但禮儀尊貴不如皇上的頭號大官” , “總統”是日本人譯法“大統領”的縮寫 。 “伯里璽天德”縮成“總統” , 意思上不夠準確 , 但后者迅速流行 。
哪種譯法在比較保真的前提下更短 , 普羅大眾就會選擇哪種 。 “西敏寺”比“威斯敏斯特”好用 , 是因為既傳遞“Westminster這地方是古倫敦西界以外更西”的意思 , 又更簡短 。 “拍立得”、“肯德基” , 更是典范 。 現在最鉆牛角尖的中國人也不會用“即時成像相機”、“肯塔基州炸雞”來說這兩種商品 。
這條原則應用在AI業界 , 就是Prompt即使不被譯成“提示詞” , 也不可能譯成其他花里胡哨、附庸風雅的硬拗 , 只會被縮寫成“提示”或“提詞” 。 這種語言現象正在發生 , 在阿里云的官方網站上就有出現 。

現在“生成-對抗網絡”這個AI概念不流行了 , 不然還會給這種語言現象添上更有趣的注解:看大家是會使用“生成-對抗網絡”這個詞 , 還是直接把英文縮寫GAN拿中文拼音法讀出來 。
畢竟現在網店商家拿AI生成的假圖當成門面照片、商品實拍 , 網購顧客拿AI生成的假圖當退款憑據 , 已成大眾新潮流 。 這種真人們相互做“生成器-判別器”對抗的生活 , 真的是很GAN啊 。

    推薦閱讀