AI翻譯服務通過硬件、軟件連接千千萬萬個應用場景,會打破語言不通的尷尬局面嗎?會是人工翻譯的終結者嗎?
世界這么大,我想去看看!十一長假臨近,夢想中的你背起行囊,自由行走在異國的大街小巷。然而現實的畫風很有可能是這樣的:走出國門沒幾天,你就發現期待已久的旅行,因為看不懂聽不懂,而身在囧途。此時的你捶胸頓足地感慨道:世界上最遙遠的距離,不是天涯海角,是你站在我面前,我卻不知道你在說什么。
9月21日,百度智能翻譯機在日本發布。名古屋有哪些好玩的景點?怎么乘車最便捷?翻譯機流暢精準的中日互譯令人驚嘆不已。AI翻譯服務通過硬件、軟件連接千千萬萬個應用場景,將會打破語言不通的尷尬局面。甚至有人認為,AI翻譯是人工翻譯的終結者?,F實真的如此嗎?
現狀:產品雖多,準確率有待提高
2017年可謂是AI大行其道的一年,作為現代科技的流行趨勢,不管是谷歌、蘋果,還是百度、阿里,都在相繼發布自己的人工智能產品,向智能行業進軍。而AI翻譯,幾乎是所有互聯網巨頭都想涉足的領域。
機器翻譯已出現了70年,但過去一年里涌現出的AI翻譯軟硬件產品,已超過最近30年的總和。
在國外,微軟發布了翻譯工具Microsoft Translator,可以實現9種語言實時語音轉為文本翻譯。國內的互聯網巨頭也不甘示弱。百度技術委員會聯席主席、自然語言處理部技術負責人吳華表示,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。除百度外,科大訊飛也走在語音交互前列,推出了訊飛聽見升級版產品,加入多語種翻譯功能,五種語言同步翻譯成漢語,還發布了智能翻譯產品“曉譯翻譯機”。就連網絡游戲開發大戶騰訊公司,也悄然上線了一款實時語音翻譯APP“翻譯君”,這款以AI內核驅動的翻譯產品,運用了語音識別+NMT(神經網絡機器翻譯)等技術,可以實現“同聲傳譯”功能,對著屏幕說話時,邊說邊翻,就像身邊帶了一位私人翻譯官。此外,電商大咖京東也開始涉足AI翻譯,推出了一個可以進行多國語言實時翻譯的人工智能翻譯機——準兒翻譯機的眾籌項目,目前已經有5008名支持者,輕松籌得320萬元的項目基金。
盡管AI翻譯進步神速,卻不被傳統的翻譯行業所看好。傳神語聯網絡科技股份有限公司董事長何恩培表示:“無論是翻譯機還是APP,中文翻譯成英文或其他語種時準確率還可以,但外國人說英文或其他語言時,翻譯成中文的準確率就很低,在實際交流時幾乎沒法用?!?/span>
今年2月,谷歌全新NMT系統在韓國世宗大學與人類譯員進行的翻譯對戰就是一例佐證。在規定的50分鐘內,人類和機器同時翻譯兩段隨機文本。結果,人類以巨大優勢戰勝了機器。賽后,評委表示,NMT系統翻譯出的文本90%都有語法問題。
難點:數據有限,且語言規則不規律
全球范圍內,服務于各大跨國會議、發布會等的30多種翻譯機能幫人們解決一些場景中語言交流的問題,但目前的現狀就如科大訊飛聲明的那樣:雖然機器翻譯已經取得非常大的進步,但距離高水平翻譯所講究的“信、達、雅”還存在很大差距。
以“千山鳥飛絕,萬徑人蹤滅”這句人們耳熟能詳的詩為例,國際翻譯界最高獎項之一“北極光”杰出文學翻譯獎得主許淵沖教授將其譯為“from hill to hill no bird in flight,from path to path no man in sight.”這不僅符合近代著名翻譯家嚴復提出的“信、達、雅”翻譯原則,而且其中的意境與精髓只有熟習漢語的人才能領會。
“文學藝術翻譯要體現情感、色彩、語調、溫度、韻致、字里行間的意味等種種幽微之處。要傳達出這些,譯者的水準、敏感、境界和心靈力量尤為重要?!敝袊鐣茖W院外國文學研究所編審高興說。
緣何能稱霸棋壇的人工智能AlphaGo,卻在翻譯領域不盡完美?何恩培告訴記者:“機器翻譯一直被公認為人工智能領域最難的課題之一。而且語言和圍棋不同,語言背后的多元文化和復雜社會屬性,注定了語言規則不可能規律化?!薄拔膶W作品,以及有引申含義或邏輯關系復雜的句子,AI翻譯很難搞定,因為翻譯它們不僅是基于理解,而且要使某種意義上待翻譯的語言和目標語言對齊?!比A為諾亞方舟實驗室資深研究員、自然語言處理專家呂正東說。
此外,AI翻譯要想達到“信、達、雅”的高度,還需克服口語化的兩大難題。一方面要聽得清,能準確判斷出指令發出者的語音、停頓,并在極短時間內進行“語音斷句”。另一方面要克服口語交談中的語法問題,以及句子不連貫、沒有明確句子邊界等問題。
機器靠什么解決上述問題?在清華大學計算機系副研究員劉洋看來,AI機器翻譯的難點其實也是整個人工智能的難點——如何讓機器真正像人一樣有智能行為。他認為,機器翻譯采用數據驅動的方法,其準確程度取決于給計算機提供哪些數據。目前提供最多的翻譯數據來自于政府文檔,比如聯合國有多種官方語言,基本每份文件都有多語種版本,但基本沒有體育、娛樂等領域的數據。再加上各國的口語中都存在較多隨意性口語或網絡用語,生活化氣息濃厚,多為非正式的語體材料,因此智能翻譯需要龐大的基礎詞匯庫支撐?!捌鋵嵥猩鲜鰡栴},理論上來說都可以靠更多的數據來彌補,但是我們數據是有限的?!?呂正東說。
展望:前路漫漫,發展需數據推動
近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起使翻譯應用進一步革新。
NMT模仿人腦的神經思考模式,產出媲美人工翻譯的高質量譯文,并將誤差降低了55%—85%。目前,谷歌公司己將該技術應用于網頁翻譯與手機應用,譯文質量明顯提升。此外,騰訊、百度、阿里巴巴等國內互聯網公司也將深度學習理念應用到機器翻譯。同時,語言處理、語音交互等技術的進步又加速了翻譯產品的場景升級,促使機器輔助翻譯”(CAT,Computer Aided Translation)過渡到“人工智能交互翻譯”(AI Interactive Translation)。
“語言是形式,而不是實質?!爆F代語言學理論奠基者費爾迪南·德·索緒爾說。同樣,對各種花哨的技術概念抽絲剝繭,其核心仍然是AI處理人類語言的三種方法:即基于規則的機器翻譯、基于實例的機器翻譯和統計的翻譯方法。目前谷歌、搜狗等公司基本采用的是最后一種方法。
伴隨著翻譯方法的完善,機器將完成未來大部分的簡單翻譯需求,而那些細膩、多元、充滿人文特質的復雜溝通以及專業化翻譯,人工智能究竟能不能實現?還需要哪些改進呢?
清華大學計算機系教授孫茂松說:“世界語言好幾千種,幾千種之間的互譯,其中絕大多數語言之間都沒有足夠語料。所以這方面的翻譯還需要去做,包括一些模型的探索?!?/span>
“AI翻譯是一個交叉學科,取決于數學、語言學、計算機科學、神經認知科學等很多方向的進展,因此AI翻譯應該和更多的‘知識’結合在一起,讓數據推動機器翻譯發展?!眲⒀笳f。
此外,在呂正松看來,如何真正讓計算機去理解語意中那些委婉的對應關系和不規范的表述,可能需要相當長的時間才能實現。