【編者按】谷歌于9月27日發布了論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介紹谷歌的神經機器翻譯系統(GNMT),宣布將 GNMT 投入到了非常困難的中英翻譯中,據稱其準確度已"接近人工筆譯"! 有人稱它為"翻譯界的重大突破",還有人擔憂"翻譯要下崗"。
谷歌于前天(9月27日)發布了論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介紹谷歌的神經機器翻譯系統(GNMT),并于昨天(9月28日)在谷歌 Research Blog 發布文章對該研究進行了介紹,還宣布將 GNMT 投入到了非常困難的中英翻譯中,據稱其準確度已"接近人工筆譯"! 有人稱它為"翻譯界的重大突破",還有人擔憂"翻譯要下崗"。翻譯公司排名
谷歌發布的論文和博客到底講的什么?
我們綜合了論文內容和Techcrunch的一篇入門級技術文章,將神經機器翻譯的難題與Google的解決方案及目標達成結果整理如下:
神經機器翻譯一直以來面對的難題有兩個,一是訓練和翻譯過程代價巨大,數據和模型的超大規模經常讓傳統訓練無法順利進行。二是神經機器翻譯系統在生僻字處理過程中沒有形成一個健全的解決方案。
Google神經機器翻譯(GNMT)針對這些問題提出了自己的解決辦法,新的注意機制(Attention Mechanism)將解碼層的低端和編碼層的開端連接在一起,提高平行計算以減少訓練時長。
對于生僻字的處理,Google選擇進行"個個擊破"戰術,我們可以把Google神經機器翻譯的過程比作人在看到一幅畫時大腦的處理過程:面對一幅美術作品,我們會看到整個畫面,也會注意到畫里的小素材。這也是Google對罕見詞翻譯時的處理方式。神經機器翻譯會把罕見詞分為單字進行拆解并放在上下文中進行考量。這種生僻字解決辦法增加了翻譯的準確率和可讀性。論文結論是,Google的神經機器翻譯比起其前期的基于短語的翻譯系統將翻譯錯誤平均降低了60%。
真的這么牛嗎?我們不妨來實際一下谷歌神經機器翻譯的整篇翻譯能力。如下,我們列舉了Google研究博客發表的技術性較強的關于神經機器翻譯的正文,與Google神經機器翻譯所做的英譯中文本,還有人工筆譯結果(源自機器之心公眾號),大家來對照看看:
英文原文:Ten years ago, we announced the launch of Google Translate, together with the use of Phrase-Based Machine Translation as the key algorithm behind this service. Since then, rapid advances in machine intelligence have improved our speech recognition and image recognition capabilities, but improving machine translation remains a challenging goal.
谷歌機翻:十年前,我們宣布推出谷歌的翻譯,與使用短語基于機器翻譯的,因為該服務背后的關鍵算法在一起。此后,機器智能的快速發展,提高了我們的語音識別和圖像識別能力,而且提高了機器翻譯仍然是一個具有挑戰性的目標。
人工筆譯:十年前,我們發布了 Google Translate(谷歌翻譯),這項服務背后的核心算法是基于短語的機器翻譯(PBMT:Phrase-Based Machine Translation)。自那時起,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。
英文原文:Today we announce the Google Neural Machine Translation system (GNMT), which utilizes state-of-the-art training techniques to achieve the largest improvements to date for machine translation quality. Our full research results are described in a new technical report we are releasing today: "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation" [1].
谷歌機翻:今天我們宣布谷歌神經機器翻譯系統(GNMT),它利用國家的最先進的訓練技術,以實現最新機器翻譯的質量最大的改進。我們充分的調研結果在我們今天推出一項新的技術報告中描述:"谷歌的神經機器翻譯系統:彌合人類與機器翻譯差距"[1]。
人工筆譯:今天,我們宣布發布谷歌神經機器翻譯(GNMT:Google Neural Machine Translation)系統,該系統使用了當前最先進的訓練技術,能夠實現到目前為止機器翻譯質量的最大提升。我們的全部研究結果詳情請參閱我們的論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》。
英文原文:A few years ago we started using Recurrent Neural Networks (RNNs) to directly learn the mapping between an input sequence (e.g. a sentence in one language) to an output sequence (that same sentence in another language) [2]. Whereas Phrase-Based Machine Translation (PBMT) breaks an input sentence into words and phrases to be translated largely independently, Neural Machine Translation (NMT) considers the entire input sentence as a unit for translation.The advantage of this approach is that it requires fewer engineering design choices than previous Phrase-Based translation systems. When it first came out, NMT showed equivalent accuracy with existing Phrase-Based translation systems on modest-sized public benchmark data sets.
谷歌機翻:幾年前,我們開始使用遞歸神經網絡(RNNs),直接學習輸入序列(例如,在一種語言的句子),以輸出序列(另一種語言,同一個句子)之間的映射關系[2]。而短語基于機器翻譯(PBMT)打破了整句輸入到單詞和短語,在很大程度上獨立翻譯,神經機器翻譯(NMT)認為,整個輸入句子作為這種方法的優點translation.The一個單位,它需要較少的工程設計的選擇比以前的短語為基礎的翻譯系統。當它第一次出來,NMT表現出與上中等規模的公共基準數據集現有的短語為基礎的翻譯系統精度相當。
人工筆譯:幾年前,我們開始使用循環神經網絡(RNN:Recurrent Neural Networks)來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基于短語的機器學習(PBMT)將輸入句子分解成詞和短語,然后在很大程度上對它們進行獨立的翻譯,而神經機器翻譯(NMT)則將輸入的整個句子視作翻譯的基本單元。這種方法的優點是:相比于之前的基于短語的翻譯系統,這種方法所需的工程設計更少。當其首次被提出時,NMT 在中等規模的公共基準數據集上的準確度,就達到了可與基于短語的翻譯系統媲美的程度。
英文原文:Since then, researchers have proposed many techniques to improve NMT, including work on handling rare words by mimicking an external alignment model [3], using attention to align input words and output words [4] and breaking words into smaller units to cope with rare words [5,6]. Despite these improvements, NMT wasn't fast or accurate enough to be used in a production system, such as Google Translate. Our new paper [1] describes how we overcame the many challenges to make NMT work on very large data sets and built a system that is sufficiently fast and accurate enough to provide better translations for Google's users and services.
谷歌機翻:自那時以來,研究者提出了許多技術來提高NMT,包括通過模仿外部對準模型[3]處理罕見詞語工作,使用注意對準輸入字和[4]輸出字和分斷字劃分成小單位,以應付稀有詞語[5,6]。盡管有這些改進,NMT是不是快或不夠準確在生產系統中使用,如谷歌翻譯。我們的新文獻[1]介紹了我們克服了許多挑戰做出非常大的數據集NMT工作,建立了一個系統,是足夠快,足夠精確,為谷歌的用戶和服務更好的翻譯。
人工筆譯:自那以后,研究者已經提出了很多改進 NMT 的技術,其中包括模擬外部對準模型(external alignment model)來處理罕見詞,使用注意(attention)來對準輸入詞和輸出詞 ,以及將詞分解成更小的單元應對罕見詞。盡管有這些進步,但 NMT 的速度和準確度還沒能達到成為 Google Translate 這樣的生產系統的要求。我們的新論文描述了怎樣克服讓 NMT 在非常大型的數據集上工作的許多挑戰、如何打造一個在速度和準確度上都足夠能為谷歌 用戶和服務帶來更好的翻譯體驗的系統。
英文原文:Data from side-by-side evaluations, where human raters compare the quality of translations for a given source sentence. Scores range from 0 to 6, with 0 meaning "completely nonsense translation", and 6 meaning "perfect translation."
谷歌機翻:從并排側評估,其中人工評級比較的翻譯給定的源句子的質量數據。分數范圍從0到6,0表示"完全胡說八道翻譯",和6個意思是"完美的翻譯。"
人工筆譯:來自對比評估的數據,其中人類評估者對給定源句子的翻譯質量進行比較評分。得分范圍是 0 到 6,其中 0 表示"完全沒有意義的翻譯",6 表示"完美的翻譯"。
英文原文:The following visualization shows the progression of GNMT as it translates a Chinese sentence to English. First, the network encodes the Chinese words as a list of vectors, where each vector represents the meaning of all words read so far ("Encoder"). Once the entire sentence is read, the decoder begins, generating the English sentence one word at a time ("Decoder"). To generate the translated word at each step, the decoder pays attention to a weighted distribution over the encoded Chinese vectors most relevant to generate the English word ("Attention"; the blue link transparency represents how much the decoder pays attention to an encoded word).
谷歌機翻:下面的可視化顯示GNMT的進展,因為它翻譯一個句子中國英語。首先,該網絡編碼中國字作為載體的列表,其中,每個向量表示到目前為止讀到的所有詞語的含義("編碼器")。一旦整個句子被讀出,解碼器開始,在時間("譯碼器")生成的英語句子一個字。在每一步產生的譯詞,解碼器注重在最相關的生成英文單詞編碼中國向量的加權分布("注意";藍色鏈接透明度表示解碼器多少注重編碼字)。
人工筆譯:該網絡將該漢語句子的詞編碼成一個向量列表,其中每個向量都表征了到目前為止所有被讀取到的詞的含義(編碼器(Encoder))。一旦讀取完整個句子,解碼器就開始工作--一次生成英語句子的一個詞(解碼器(Decoder))。為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關的編碼的漢語向量的權重分布(「注意(Attention)),藍色鏈接的透明度表示解碼器對一個被編碼的詞的注意程度)。
英文原文:Using human-rated side-by-side comparison as a metric, the GNMT system produces translations that are vastly improved compared to the previous phrase-based production system. GNMT reduces translation errors by more than 55%-85% on several major language pairs measured on sampled sentences from Wikipedia and news websites with the help of bilingual human raters.
谷歌機翻:使用人類的額定側方比較作為度量,則GNMT系統產生被相比以前的基于短語的生產體系大大提高了翻譯。 GNMT對維基百科采樣句子和新聞網站雙語人工評級的幫助下測得的幾種主要語言對超過55%-85%,減少了翻譯錯誤。
人工筆譯:使用人類評估的并排比較作為一項標準,GNMT 系統得出的翻譯相比于之前基于短語的生產系統有了極大提升。在雙語人類評估者的幫助下,我們在來自維基百科和新聞網站的樣本句子上測定發現:GNMT 在多個主要語言對的翻譯中將翻譯誤差降低了 55%-85% 甚至更多。
英文原文:An example of a translation produced by our system for an input sentence sampled from a news site. Go here for more examples of translations for input sentences sampled randomly from news sites and books.
谷歌機翻:通過我們的系統,用于從新聞網站采樣的輸入句子生成的翻譯的一個例子。去這里的翻譯從新聞網站和書籍,隨機采樣的輸入句子的例子。
人工筆譯:上圖是我們的系統在一個新聞網站上選取句子之后,進行翻譯的范例。點擊此處獲取更多從新聞網站和書籍中隨機抽取的例句翻譯樣本。
英文原文:In addition to releasing this research paper today, we are announcing the launch of GNMT in production on a notoriously difficult language pair: Chinese to English. The Google Translate mobile and web apps are now using GNMT for 100% of machine translations from Chinese to English-about 18 million translations per day. The production deployment of GNMT was made possible by use of our publicly available machine learning toolkit TensorFlow and our Tensor Processing Units (TPUs), which provide sufficient computational power to deploy these powerful GNMT models while meeting the stringent latency requirements of the Google Translate product. Translating from Chinese to English is one of the more than 10,000 language pairs supported by Google Translate, and we will be working to roll out GNMT to many more of these over the coming months.
谷歌機翻:除了今天發布這個研究論文,我們宣布在生產中推出GNMT的一個非常困難的語言對:中國人英語。谷歌翻譯的移動和現在的Web應用程序所使用的GNMT機器翻譯從中國到每天英語約1800萬翻譯的100%。 GNMT的生產部署是通過使用我們的公開可用的機器學習工具包TensorFlow和我們的張量處理單元(熱塑性聚氨酯),提供足夠的計算能力來部署這些功能強大的GNMT模式,同時滿足谷歌的嚴格延遲要求翻譯的產品成為可能。從中國翻譯成英語是由谷歌翻譯支持10000多個語言對之一,我們將努力在未來幾個月內推出GNMT到更多的這些。
人工筆譯:今天除了發布這份研究論文之外,我們還宣布將 GNMT 投入到了一個非常困難的語言(漢語-英語)的翻譯的生產中?,F在,移動版和網頁版的 Google Translate 的漢英翻譯已經在 100% 使用 GNMT 機器翻譯了--每天大約 1800 萬條翻譯。GNMT 的生產部署是使用我們公開開放的機器學習工具套件 TensorFlow 和我們的張量處理單元(TPU:Tensor Processing Units),它們為部署這些強大的 GNMT 模型提供了足夠的計算算力,同時也滿足了 Google Translate 產品的嚴格的延遲要求。漢語到英語的翻譯是 Google Translate 所支持的超過 10000 種語言對中的一種,在未來幾個月,我們還將繼續將我們的 GNMT 擴展到遠遠更多的語言對上。
英文原文:Machine translation is by no means solved. GNMT can still make significant errors that a human translator would never make, like dropping words and mistranslating proper names or rare terms, and translating sentences in isolation rather than considering the context of the paragraph or page. There is still a lot of work we can do to serve our users better. However, GNMT represents a significant milestone. We would like to celebrate it with the many researchers and engineers-both within Google and the wider community-who have contributed to this direction of research in the past few years.
谷歌機翻:機器翻譯是沒有解決的辦法。 GNMT仍然可以顯著的錯誤,翻譯人員會落空,就像在隔離下探文字和mistranslating專有名稱或稀有條款,翻譯句子而不是考慮的段落或頁面的上下文。還有很多我們可以做服務我們的用戶提供更好的工作。不過,GNMT代表顯著的里程碑。我們愿與在谷歌的許多研究人員和工程師和慶祝它更廣泛的社會,誰在過去幾年的研究這個方向作出了貢獻。
人工筆譯:機器翻譯還遠未得到完全解決。GNMT 仍然會做出一些人類翻譯者永遠不出做出的重大錯誤,例如漏詞和錯誤翻譯專有名詞或罕見術語,以及將句子單獨進行翻譯而不考慮其段落或頁面的上下文。為了給我們的用戶帶來更好的服務,我們還有更多的工作要做。
但是,GNMT 代表著一個重大的里程碑。我們希望與過去幾年在這個研究方向上有所貢獻的許多研究者和工程師一起慶祝它--不管是來自谷歌還是更廣泛的社區。
英文原文:
Acknowledgements:
We thank members of the Google Brain team and the Google Translate team for the help with the project. We thank Nikhil Thorat and the Big Picture team for the visualization.
谷歌機翻:
致謝:
我們感謝谷歌大腦小組成員和谷歌翻譯團隊與項目的幫助。我們感謝尼基爾Thorat和大圖片隊伍,為可視化。
人工筆譯:
致謝:
我們對Google Brain和Google Translation團隊對此項目給予的幫助表示由衷的感謝。并感謝Nikhil Thorat和Big Picture團隊的視覺呈現。
【參考文獻略】
全文結束。怎么樣,對比下來,感覺谷歌機器翻譯是否已"接近人工筆譯"了呢?還會擔憂"翻譯要下崗"嗎?
|