描述

內容簡介

★☆★☆★【全中文自然語言處理】★☆★☆★

有了多拉A夢翻譯年糕誰還要找翻譯社？人人都可以當口譯哥！

旅遊網紅用手機環遊世界溝通無礙！

當Google翻譯像空氣一樣自然的存在時，我們仿佛忘了機器翻譯走了幾百年，篳路藍縷有多麼的艱辛。身為使用者在享受這些科技的成果時，技術人員則更好奇些神奇應用底層的科學是如何發展出來的。熟悉史丹佛CS224n NLP課程的人，一定對大師Chris Manning對機器翻譯的重點十分讚嘆。本書就是堪比大師NLP和機器翻譯的真正鉅作。從機器翻譯的歷史、數學原理、理論細節、實作理論、參考資源、最新發展、從最細節到最宏觀的高度都放入書中。NLP是AI上皇冠上的一個明珠，機器翻譯更是最能展現NLP技術的極緻精華。從事NLP的技術人員、資料科學家、神經網路演算法科學家，如果想要真正進入NLP的世界，本書將會是20年來最重要，最完整、最能精進技術的一個重要提升。

本書特色

◎機器翻譯簡介

說明了從理性主義一直進入到資料主義的過程。接下來說明統計語言建模的基礎，進一步進入詞法語法分析的原理，其中並穿插了翻譯品質的評鑑標準。

◎統計機器翻譯

介紹了以詞、扭曲度、繁衍度、短語、句法為基礎的機器翻譯原理及實作。

◎近代機器翻譯的新世代 – 神經機器翻譯

介紹了神經網路及神經語言的建模、循環神經網路模型、卷積神經網路模型及自注意力機制的模型。

◎神經翻譯系統的細節

包括模型訓練及最佳化，模型的推論，更有針對神經網路系統的結構精進，以及使用低資源的神經網路(如資料蒸餾)，以及多模態、多層次的機器翻譯，也介紹了新一代神經網路的應用及發展。

本書技術重點

✪理性主義及資料主義

✪統計語言建議

✪詞法/語法分析，以機率圖/分類器模型

✪科學方法評估翻譯品質

✪以詞、扭曲度/繁衍度、短語、句法模型的翻譯方法

✪Google大殺器：神經機器翻譯建模

✪循環神經網路模型/注意力機制，卷積神經網路模型

✪Transformer，自注意力機制

✪神經網路翻譯模型訓練/推論/結構最佳化

✪小型裝置上的神經網路機器翻譯

✪多模態/多層次機器翻譯

✪當代機器翻譯的應用及佈署

作者

肖桐

博士，東北大學教授、博士生導師，東北大學計算機學院人工智能係系主任，
東北大學自然語言處理實驗室主任，小牛翻譯（NiuTrans）聯合創始人。
於東北大學計算機專業獲得博士學位。
2006-2009年赴日本富士施樂、微軟亞洲研究院訪問學習，
並於2013一2014年赴英國劍橋大學開展博士後研究。
主要研究領域包括自然語言處理、機器學習等。
在國內外相關領域高水平會議及期刊上發表學術論文70餘篇。
作為項目技術負責人，成功研發了NiuTrans、NiuTensor等開源系統，
在WMT、CCMT/CWMT、NTCIR等國內外評測中多次獲得冠軍。
2014年獲得中國中文信息學會首屆優秀博士論文提名獎，
2016年獲得中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎。
任ACL、EMNLP、TACL等國際著名會議及期刊的領域主席和常駐審稿人。

朱靖波

博士，東北大學教授、博士生導師，小牛翻譯創始人。於東北大學計算機專業獲得博士學位，曾在香港城市大學（2004-2005年）和美國南加州大學ISI（2006-2007 年）開展訪問研究。從1992年開始，專注於語言分析和機器翻譯技術研究工作，在國內外高水平會議及期刊上發表學術論文200餘篇，2005年入選國家教育部新世紀優秀人才計劃，2016年獲得中國中文資訊學會"錢偉長中文資訊處理科學技術獎"一等獎。

第1部分 機器翻譯基礎

01 機器翻譯簡介

1.1 機器翻譯的概念

1.2 機器翻譯簡史

1.3 機器翻譯現狀及挑戰

1.4 基於規則的機器翻譯方法

1.5 資料驅動的機器翻譯方法

1.6 推薦學習資源

02 統計語言建模基礎

2.1 機率論基礎

2.2 擲骰子遊戲

2.3 n-gram 語言模型

2.4 預測與搜索

2.5 小結及拓展閱讀

03 詞法分析和語法分析基礎

3.1 問題概述

3.2 中文分詞

3.3 命名實體辨識

3.4 句法分析

3.5 小結及拓展閱讀

04 翻譯品質評價

4.1 譯文品質評價面臨的挑戰

4.2 人工評價

4.3 有參考答案的自動評價

4.4 無參考答案的自動評價

4.5 小結及拓展閱讀

第2部分 統計機器翻譯

05 基於詞的機器翻譯建模

5.1 詞在翻譯中的作用

5.2 一個簡單實例

5.3 雜訊通道模型

5.4 統計機器翻譯的3個基本問題

5.5 IBM 模型1

5.6 小結及拓展閱讀

06 基於扭曲度和繁衍率的模型

6.1 基於扭曲度的模型

6.2 基於繁衍率的模型

6.3 解碼和訓練

6.4 問題分析

6.5 小結及拓展閱讀

07 基於短語的模型

7.1 翻譯中的短語資訊

7.2 數學建模

7.3 短語取出

7.4 翻譯調序建模

7.5 翻譯特徵

7.6 最小錯誤率訓練

7.7 堆疊解碼

7.8 小結及拓展閱讀

08 基於句法的模型

8.1 翻譯中句法資訊的使用

8.2 基於層次短語的模型

8.3 基於語言學句法的模型

8.4 小結及拓展閱讀

第3部分 神經機器翻譯

09 神經網路和神經語言建模

9.1 深度學習與神經網路

9.2 神經網路基礎

9.3 神經網路的張量實現

9.4 神經網路的參數訓練

9.5 神經語言模型

9.6 小結及拓展閱讀

10 基於循環神經網路的模型

10.1 神經機器翻譯的發展簡史

10.2 編碼器- 解碼器框架

10.3 基於循環神經網路的翻譯建模

10.4 注意力機制

10.5 訓練及推斷

10.6 小結及拓展閱讀

11 基於卷積神經網路的模型

11.1 卷積神經網路

11.2 基於卷積神經網路的翻譯建模

11.3 局部模型的改進

11.4 小結及拓展閱讀

12 基於自注意力的模型

12.1 自注意力機制

12.2 Transformer 模型

12.3 位置編碼

12.4 基於點乘的多頭注意力機制

12.5 殘差網路和層標準化

12.6 前饋全連接網路子層

12.7 訓練

12.8 推斷

12.9 小結及拓展閱讀

第4部分 機器翻譯前端

13 神經機器翻譯模型訓練

13.1 開放詞表

13.2 正則化

13.3 對抗樣本訓練

13.4 學習策略

13.5 知識蒸餾

13.6 基於樣本價值的學習

13.7 小結及拓展閱讀

14 神經機器翻譯模型推斷

14.1 面臨的挑戰

14.2 基本問題

14.3 輕量模型

14.4 非自回歸翻譯

14.5 多模型整合

14.6 小結與拓展閱讀

15 神經機器翻譯模型結構最佳化

15.1 注意力機制的改進

15.2 神經網路連接最佳化及深層模型

15.3 基於句法的神經機器翻譯模型

15.4 基於結構搜索的翻譯模型最佳化

15.5 小結及拓展閱讀

16 低資源神經機器翻譯

16.1 資料的有效使用

16.2 雙向翻譯模型

16.3 多語言翻譯模型

16.4 無監督機器翻譯

16.5 領域適應

16.6 小結及拓展閱讀

17 多模態、多層次機器翻譯

17.1 機器翻譯需要更多的上下文

17.2 語音翻譯

17.3 圖型翻譯

17.4 篇章級翻譯

17.5 小結及拓展閱讀

18 機器翻譯應用技術

18.1 機器翻譯的應用並不簡單

18.2 增量式模型最佳化

18.3 互動式機器翻譯

18.4 翻譯結果的可干預性

18.5 小裝置機器翻譯

18.6 機器翻譯系統的部署

18.7 機器翻譯的應用場景

隨筆

後記

A.1 統計機器翻譯開放原始碼系統

A.2 神經機器翻譯開放原始碼系統

B.1 公開評測任務

B.2 基準資料集

B.3 平行語料

C.1 IBM 模型2 的訓練方法

C.2 IBM 模型3 的訓練方法

C.3 IBM 模型4 的訓練方法

C.4 IBM 模型5 的訓練方法

D 參考文獻

E 索引

序

前言

緣起

讓電腦進行自然語言的翻譯是人類長久以來的夢想，也是人工智慧的重要目標之一。自20世紀90年代起，機器翻譯邁入了以統計建模為基礎的時代，發展到今天，已經大量應用了深度學習等機器學習方法，並獲得了令人矚目的進步。在這個時代背景下，對機器翻譯的模型、方法和實現技術進行深入了解，是自然語言處理領域的研究者和實踐者所渴望的。

與所有從事機器翻譯研究的人一樣，筆者也夢想著有朝一日，機器翻譯能夠完全實現。這個想法可以追溯到1973年，姚天順教授和王寶庫教授領銜創立了東北大學自然語言處理實驗室，把機器翻譯作為奮鬥的目標。這一舉動影響了包括筆者在內的許多人。雖然那時的機器翻譯技術並不先進，研究條件也異常艱苦，但是努力實現機器翻譯的夢想從未改變。

步入21世紀後，統計學習方法的興起給機器翻譯帶來了全新的想法，也帶來了巨大的技術進步。筆者有幸經歷了那個時代，也加入了機器翻譯研究的浪潮中。筆者從2007年開始研發NiuTrans開放原始碼系統，在2012年對NiuTrans機器翻譯系統進行產業化，並創立了小牛翻譯。在此過程中，筆者目睹了機器翻譯的成長，並不斷地被機器翻譯所取得的進步感動。那時，筆者就考慮將機器翻譯的模型和方法進行複習，形成資料供人閱讀。雖然粗略寫過一些文字，但是未成系統，只在教學環節使用，供實驗室的同學在閒暇時參考。

機器翻譯技術發展之快是無法預見的。2016年之後，隨著深度學習方法在機器翻譯中的進一步應用，機器翻譯迎來了前所未有的機遇。新的技術方法層出不窮，機器翻譯系統也獲得了廣泛應用。這時，筆者心裡又湧現出將機器翻譯的技術內容編撰成書的想法。這種強烈的念頭使筆者完成了本書的第一個版本（共7章），並將其開放原始碼，供人廣泛閱讀。承蒙同行厚愛，獲得了很多回饋，包括一些批評和意見。這使筆者可以更全面地梳理寫作想法。

最初，筆者的想法僅是將機器翻譯的技術內容做成資料供人閱讀。但是，朋友和同事們一直鼓勵筆者將其內容正式出版。雖然擔心書的內容不夠精緻，無法給同行作為參考，但最終還是下定決心重構內容。所幸，得到電子工業出版社的支持，出版本書。

寫作中，每當筆者翻閱以前的資料時，都會想起當年的一些故事。與其說這本書是寫給讀者的，不如說是寫給筆者自己及所有同筆者一樣，經歷過或正在經歷機器翻譯蓬勃發展年代的人的。希望本書可以作為一個時代的記錄，但這個時代並未結束，它還將繼續，並更加美好。

本書特色

本書全面回顧了近30年機器翻譯技術的發展歷程，並圍繞機器翻譯的建模和深度學習方法這兩個主題對機器翻譯的技術方法進行了全面介紹。在寫作中，筆者力求用樸實的語言和簡潔的實例來說明機器翻譯的基本模型，同時對相關的前端技術進行討論。其中涉及大量的實踐經驗，包括許多機器翻譯系統開發的細節。從這個角度看，本書不僅是一本理論書，還結合了機器翻譯的應用，給讀者提供了很多機器翻譯技術實踐的想法。

本書可供電腦相關專業高年級大學生及所究所學生學習之用，也可作為自然語言處理領域，特別是機器翻譯方向相關研究人員的參考資料。此外，本書各章主題明確，內容緊湊。因此，讀者可將每章作為某一專題的學習資料。

用最簡單的方式說明機器翻譯的基本思想是筆者期望達到的目標。雖然書中不可避免地使用了一些形式化的定義和演算法的抽象描述，但筆者也盡所能地透過圖例了解釋（本書共395張插圖）。本書所包含的內容較為廣泛，難免會有疏漏，望讀者海涵，並指出不當之處。

本書內容概要

本書分4個部分，共18章。章節的順序參考了機器翻譯技術發展的時間脈絡，兼顧了機器翻譯知識系統的內在邏輯。本書的主要內容包括：

第1部分：機器翻譯基礎

- 第1章機器翻譯簡介

- 第2章統計語言建模基礎

- 第3章詞法分析和語法分析基礎

- 第4章翻譯品質評價

第2部分：統計機器翻譯

- 第5章以詞為基礎的機器翻譯建模

- 第6章以扭曲度和繁衍率為基礎的模型

- 第7章以子句為基礎的模型

- 第8章以句法為基礎的模型

第3部分：神經機器翻譯

- 第9章神經網路和神經語言建模

- 第10章以循環神經網路為基礎的模型

- 第11章以卷積神經網路為基礎的模型

- 第12章以自注意力為基礎的模型

第4部分：機器翻譯前端

- 第13章神經機器翻譯模型訓練

- 第14章神經機器翻譯模型推斷

- 第15章神經機器翻譯模型結構最佳化

- 第16章低資源神經機器翻譯

- 第17章多模態、多層次機器翻譯

- 第18章機器翻譯應用技術

第1部分是本書的基礎知識部分，包含統計語言建模、詞法分析和語法分析基礎、翻譯品質評價等。在第1章對機器翻譯的歷史及現狀介紹之後，第2章透過語言建模任務將統計建模的思想說明出來，這部分內容是機器翻譯模型及方法的基礎。第3章重點介紹了機器翻譯涉及的詞法分析和語法分析方法，旨在為後續相關概念的使用做鋪陳，並展示了統計建模思想在相關問題上的應用。第4章相對獨立，系統地介紹了機器翻譯結果的評價方法。第1部分內容是機器翻譯建模及系統設計所需的前置知識。

第2部分主要介紹統計機器翻譯的基本模型。第5章是整個機器翻譯建模的基礎。第6章對扭曲度和繁衍率兩個概念介紹，同時列出相關的翻譯模型，這些模型在後續章節中都有涉及。第7章和第8章分別介紹了以子句和句法為基礎的模型。它們都是統計機器翻譯的經典模型，其思想也組成了機器翻譯成長過程中最精華的部分。

第3部分主要介紹神經機器翻譯模型，該模型是近年機器翻譯的熱點。第9章介紹了類神經網路和深度學習的基礎知識，以保證本書知識系統的完備性。同時，介紹了以神經網路為基礎的語言模型，其建模思想在神經機器翻譯中被大量使用。第10～12章分別對3種經典的神經機器翻譯模型介紹，以模型提出的時間為序，從最初的以迴圈網路為基礎的模型，到Transformer模型均有涉及。其中，也會對編碼器-解碼器框架、注意力機制等經典方法和技術介紹。

第4部分對機器翻譯的前端技術進行了討論，以神經機器翻譯為主。第13～15章介紹了神經機器翻譯研發的3個主要方面，它們也是近年機器翻譯領域討論最多的方向。第16～17章介紹了機器翻譯領域的熱門方向，包括無監督翻譯等主題。同時，對語音、圖型翻譯等多模態方法及篇章級翻譯等方法介紹，它們可以被看作機器翻譯在更多工上的擴充。第18章結合筆者在各種機器翻譯比賽和機器翻譯產品研發中的經驗，對機器翻譯的應用技術進行討論。

致謝

在此，感謝為本書做出貢獻的人：曹潤柘、曾信、孟霞、單韋喬、周濤、周書含、許諾、李北、許晨、林野、李垠橋、王子揚、劉輝、張裕浩、馮凱、羅應峰、魏冰浩、王屹超、李炎洋、胡馳、薑雨帆、田豐甯、劉繼強、張哲暘、陳賀軒、牛蕊、杜權、張春良、王會珍、張俐、馬安香、胡明涵。

特別感謝為本書提供技術指導的姚天順教授和王寶庫教授。