在這個(gè)處處連接的互聯(lián)網(wǎng)世界里,人與人之間的溝通和交流變得無(wú)比的方便快捷。但現(xiàn)在的問(wèn)題是,語(yǔ)言的差異仍然像是一道深不可測(cè)的鴻溝擺在擁有不同文化背景的人們面前。
近年來(lái),人工智能學(xué)者們一直持續(xù)改進(jìn)機(jī)器翻譯算法——從多年前的規(guī)則翻譯模型,到統(tǒng)計(jì)翻譯模型,再到目前最為火熱的神經(jīng)翻譯模型,力求早日打破這種語(yǔ)言鴻溝。目前,人類(lèi)使用近 7000 種不同的語(yǔ)言,而根據(jù)一支麻省理工團(tuán)隊(duì)近日發(fā)布的最新成果,他們開(kāi)發(fā)的新機(jī)器翻譯模型,甚至可以翻譯世界上絕大多數(shù)語(yǔ)言,甚至包括那些使用人數(shù)很少的語(yǔ)言。
目前,來(lái)自谷歌、Facebook、微軟和亞馬遜等公司的機(jī)器翻譯系統(tǒng),是監(jiān)督式的機(jī)器翻譯,需要大量的對(duì)齊語(yǔ)料(指訓(xùn)練數(shù)據(jù)中兩種語(yǔ)言的段落、句子甚至單詞能夠一一對(duì)應(yīng)的語(yǔ)料)來(lái)訓(xùn)練模型,從成百上千萬(wàn)的文檔中尋找匹配模式,例如已經(jīng)被人類(lèi)翻譯成各種語(yǔ)言的法律和政治文檔或新聞文章。當(dāng)給定一種語(yǔ)言的單詞時(shí),機(jī)器就可以從這些文檔里找到另一種語(yǔ)言中對(duì)應(yīng)匹配的單詞或短語(yǔ)。
對(duì)一些常用語(yǔ)言來(lái)說(shuō),互聯(lián)網(wǎng)的語(yǔ)料較為豐富,因此谷歌、微軟等公司的機(jī)器翻譯模型在某些常用語(yǔ)言之間的翻譯表現(xiàn)已經(jīng)超越了人類(lèi)。而對(duì)相對(duì)小眾的小語(yǔ)種來(lái)說(shuō),對(duì)齊語(yǔ)料很少,數(shù)據(jù)的積累十分耗時(shí)且難以收集。
為了克服對(duì)齊語(yǔ)料稀缺的困難,最近幾年出現(xiàn)了一些無(wú)監(jiān)督機(jī)器翻譯相關(guān)的研究,比如僅利用單語(yǔ)語(yǔ)料(即擁有分別擁有兩種語(yǔ)言的大量語(yǔ)料,但沒(méi)有互相之間的對(duì)齊和翻譯數(shù)據(jù)),在訓(xùn)練中引入對(duì)偶學(xué)習(xí)(Dual Learning)、聯(lián)合訓(xùn)練(Joint Training)、對(duì)齊嵌入空間等訓(xùn)練技巧,取得了不錯(cuò)的效果,有些論文的結(jié)果甚至可以與對(duì)齊語(yǔ)料訓(xùn)練出來(lái)的模型結(jié)果相近。但這些無(wú)監(jiān)督機(jī)器翻譯的一大缺點(diǎn)就是訓(xùn)練速度過(guò)于緩慢。比如對(duì)偶學(xué)習(xí),如圖 1,特殊的對(duì)偶結(jié)構(gòu),使得兩個(gè)任務(wù)可以互相提供反饋信息,而這些反饋信息可以幫助更好地訓(xùn)練深度學(xué)習(xí)模型。本模型某一步可能翻譯出錯(cuò),反饋給另一模型之后,另一模型可以用自身的語(yǔ)言模型糾正(修改成符合自身語(yǔ)法的語(yǔ)句),然后經(jīng)再次翻譯之后反饋給本模型。這種學(xué)習(xí)模式需要大量反復(fù)的調(diào)整和學(xué)習(xí),由此帶來(lái)訓(xùn)練時(shí)間的大幅增加。
圖丨對(duì)偶學(xué)習(xí)的示意圖
麻省理工學(xué)院的研究人員開(kāi)發(fā)的這種新穎的“無(wú)監(jiān)督”語(yǔ)言翻譯模型,既不像監(jiān)督式機(jī)器翻譯任務(wù)一樣需要對(duì)齊語(yǔ)料,同時(shí)又克服了無(wú)監(jiān)督機(jī)器翻譯任務(wù)耗時(shí)低效的缺點(diǎn),實(shí)現(xiàn)更快捷、更有效的語(yǔ)言翻譯,從而使更多的語(yǔ)言翻譯可以通過(guò)計(jì)算機(jī)來(lái)完成。
本文發(fā)表在自然語(yǔ)言處理四大頂級(jí)會(huì)議之一的 EMNLP 會(huì)議上,兩位作者 Tommi Jaakkola 和 David Alvarez-Melis 都是來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員。
論文鏈接:
論文摘要:從機(jī)器翻譯領(lǐng)域到遷移學(xué)習(xí)領(lǐng)域,跨語(yǔ)言和跨域一致都非常重要。最近,單語(yǔ)詞嵌入已經(jīng)成為有效的翻譯對(duì)齊工具。然而,目前的最優(yōu)方法包含多個(gè)步驟,包括啟發(fā)式訓(xùn)練后微調(diào)的方法。本文中,以度量恢復(fù)算法計(jì)算詞嵌入為思想,將所謂的一致性問(wèn)題轉(zhuǎn)化為最優(yōu)傳輸(optimal transport)問(wèn)題。文中使用了 Wasserstein 距離來(lái)度量詞語(yǔ)之間的相似度是如何在不同語(yǔ)言中產(chǎn)生聯(lián)系的。進(jìn)而,闡述本文所說(shuō)的最優(yōu)運(yùn)輸問(wèn)題可以被高效率地估算,幾乎不需要微調(diào),就可以達(dá)到目前無(wú)監(jiān)督翻譯任務(wù)里最優(yōu)的水平
靈感源于統(tǒng)計(jì)學(xué)中的 Wasserstein 距離
近年,研究人員一直在嘗試研究無(wú)監(jiān)督式的“單語(yǔ)”模型,不需要使用兩種語(yǔ)言之間的翻譯數(shù)據(jù)就可以實(shí)現(xiàn)語(yǔ)言的直接翻譯。
該模型利用了一個(gè)測(cè)度論里的概念——Gromov-Wasserstein 距離(以下簡(jiǎn)稱(chēng) Wasserstein 距離)。這一概念首次提出時(shí)用來(lái)進(jìn)行圖形匹配。Wasserstein 距離一般用于描述兩個(gè)分布之間的距離,通俗來(lái)說(shuō),如圖二所示的例子中,每個(gè)長(zhǎng)方形表示土塊,想把 P 圖中的土移成 Q 圖中土的形狀,有很多種方案。每一種方案可以對(duì)應(yīng)于兩個(gè)分布的一種聯(lián)合概率分布,推土代價(jià)被定義為移動(dòng)土的量乘以土移動(dòng)的距離,在所有的方案中,存在一種推土代價(jià)最小的方案,這個(gè)代價(jià)就稱(chēng)為兩個(gè)分布的 Wasserstein 距離,也被成為推土機(jī)距離(Earth-Mover Distance),這個(gè)推土機(jī)問(wèn)題也成為最優(yōu)運(yùn)輸(Optimal Transport)問(wèn)題。
圖丨推土案例
詞嵌入(word embedding) 是一種詞的類(lèi)型表示,將每種語(yǔ)言的所有詞匯映射到實(shí)數(shù)向量空間中去,經(jīng)過(guò)訓(xùn)練之后,詞義相近的詞在向量空間中的位置也比較接近??梢园褑卧~向量在向量空間中的分布看做一種聯(lián)合概率分布,不同的語(yǔ)言表示不同的分布空間,而從一種語(yǔ)言到另一種語(yǔ)言的翻譯可以看做是求分布之間的距離。這一概念與前文提到的求 Wasserstein 距離概念類(lèi)似。研究人員將這種技術(shù)應(yīng)用在兩種語(yǔ)言表示單詞對(duì)應(yīng)向量(一列數(shù)字)的詞嵌入里,如此一來(lái),模型就會(huì)在兩個(gè)語(yǔ)言的詞嵌入中通過(guò)尋找相對(duì)距離最接近的單詞,快速對(duì)齊單詞或向量,也就意味著直接的翻譯。
在實(shí)驗(yàn)中,這個(gè)模型與目前最優(yōu)的單語(yǔ)模型準(zhǔn)確率接近,甚至更好、速度更快,更重要的是新模型僅使用一小部分計(jì)算能力。下圖是論文中給出的幾個(gè)模型與本文模型的比較數(shù)據(jù)。可以看出,本文在多個(gè)語(yǔ)言翻譯任務(wù)上取得了與之前最佳模型相近甚至超過(guò)之前最佳模型的結(jié)果。而在耗時(shí)上,論文提到,由于本文使用的是 CPU 訓(xùn)練的,模型在 CPU 架構(gòu)運(yùn)行速度與 GPU 架構(gòu)的運(yùn)行速度往往有數(shù)倍甚至數(shù)十倍的差距,考慮到這一點(diǎn),本文的訓(xùn)練速度要遠(yuǎn)遠(yuǎn)快于其他無(wú)監(jiān)督學(xué)習(xí)模型。
圖丨本文的模型與之前幾個(gè)最佳模型在 5 個(gè)不同翻譯任務(wù)上的訓(xùn)練結(jié)果的對(duì)比。注:之前的工作是基于 GPU 訓(xùn)練的耗時(shí)統(tǒng)計(jì),而本文的工作是基于 CPU 訓(xùn)練的耗時(shí)統(tǒng)計(jì)。
該論文的共同作者、CSAIL 研究員 Tommi Jaakkola,及電氣工程和計(jì)算機(jī)科學(xué)系和數(shù)據(jù)、系統(tǒng)和社會(huì)研究所的教授 Thomas Siebel 表示,“該模型將兩種語(yǔ)言中的單詞視為一組向量,并在保留相對(duì)關(guān)系的基礎(chǔ)上將一種語(yǔ)言的向量映射到另一語(yǔ)言里。這種方法可以幫助翻譯語(yǔ)料缺乏的語(yǔ)言或方言,只要它們有足夠的單語(yǔ)內(nèi)容。”
論文第一作者、CSAIL 博士生 David Alvarez-Melis 也表示,該模型代表了機(jī)器翻譯的主要目標(biāo)之一,即完全無(wú)監(jiān)督的單詞對(duì)齊。“如果你沒(méi)有任何兩種語(yǔ)言的對(duì)齊語(yǔ)料(一一對(duì)應(yīng)的翻譯數(shù)據(jù)),你可以通過(guò)映射兩種語(yǔ)言的向量,并利用這些向量之間的距離,對(duì)齊它們。”
更重要的是相對(duì)關(guān)系
對(duì)于無(wú)監(jiān)督的機(jī)器翻譯來(lái)說(shuō),對(duì)齊詞嵌入并不是一個(gè)新概念。
有一些研究在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型中,直接在兩種語(yǔ)言的詞嵌入或矩陣中匹配向量,但是這些方法在訓(xùn)練期間需要進(jìn)行大量微調(diào)以使對(duì)齊完全正確,非常低效和耗時(shí)。
而基于關(guān)系距離測(cè)量和匹配向量是一種更加有效的方法,不需要太多的微調(diào)。無(wú)論單詞向量落在給定矩陣中的哪個(gè)位置,單詞之間的關(guān)系(即它們的距離)都將保持不變。例如,“父親”的詞向量可能落在兩個(gè)語(yǔ)言矩陣的完全不同的區(qū)域中。但“父親”和“母親”的向量的距離很可能一直比較接近。
“這些距離是不變的,”Alvarez-Melis 說(shuō),“通過(guò)查看相對(duì)距離,而不是向量的絕對(duì)位置,那么你可以跳過(guò)對(duì)齊并直接匹配向量之間的對(duì)應(yīng)關(guān)系。”
這就是 Wasserstein 距離派上用場(chǎng)的地方。該技術(shù)已被用于計(jì)算機(jī)科學(xué)領(lǐng)域,比如幫助在圖形設(shè)計(jì)中對(duì)齊圖像像素。Wasserstein 距離可以利用不同度量測(cè)度空間的相對(duì)不變量,通過(guò)比較不變量來(lái)進(jìn)行匹配。這個(gè)指標(biāo)看起來(lái)似乎是“量身定做”給單詞對(duì)齊任務(wù)的。Alvarez-Melis 說(shuō):“如果在一個(gè)空間中有一些點(diǎn)或詞聚集,那么 Wasserstein 會(huì)自動(dòng)嘗試找到另一個(gè)空間中相應(yīng)的點(diǎn)集群。”
對(duì)于模型訓(xùn)練和模型測(cè)試,研究人員使用了一個(gè)公開(kāi)的單詞嵌入數(shù)據(jù)集,稱(chēng)為 FASTTEXT,具有 110 種語(yǔ)言對(duì)。在這些詞嵌入中,上下文中頻繁共現(xiàn)的單詞的向量在空間中會(huì)很接近。“母親”和“父親”這兩個(gè)詞通常會(huì)在一起,但兩者距離“房子”這個(gè)詞都會(huì)更遠(yuǎn)。
提供一種“軟翻譯”概念
該模型可以注意到彼此關(guān)系很接近,但又與其他詞明顯區(qū)別的詞向量,并可以指定在另一個(gè)詞嵌入中類(lèi)似距離的向量對(duì)應(yīng)的概率。這有點(diǎn)像“軟翻譯”。
Alvarez-Melis 說(shuō):“因?yàn)樗皇莾H僅返回一個(gè)單詞的翻譯,而是告訴你這個(gè)向量或單詞與其他語(yǔ)言中某個(gè)區(qū)域里對(duì)應(yīng)位置的一些單詞之間,有很強(qiáng)的聯(lián)系。”
比如一年中的月份詞匯,在很多語(yǔ)言中這些表示月份的詞會(huì)聚集在一起。該模型將看到一組 12 個(gè)向量,這些向量在一個(gè)詞嵌入中聚集,在另一個(gè)嵌入中也會(huì)有非常相似的聚集關(guān)系。
Alvarez-Melis 說(shuō):“該模型不知道詞表示哪個(gè)月份,它只知道有一組 12 個(gè)點(diǎn)與另一種語(yǔ)言中的 12 個(gè)點(diǎn)對(duì)齊,而且它們與其他單詞明顯不同,所以它們可以很好地結(jié)合在一起。通過(guò)找到每個(gè)單詞之間的這些對(duì)應(yīng)關(guān)系,就可以同時(shí)對(duì)齊整個(gè)空間。”
Jaakkola 表示,研究人員希望這項(xiàng)工作可以作為一種“可行性檢查”來(lái)將 Wasserstein 方法應(yīng)用于機(jī)器翻譯系統(tǒng),以便更快、更高效地翻譯,并能推廣到更多語(yǔ)言的翻譯中去。
另外,該模型一個(gè)可能的好處是它自動(dòng)產(chǎn)生一個(gè)值,可以解釋為在數(shù)學(xué)尺度上量化語(yǔ)言之間的相似性。研究人員表示,這可能對(duì)語(yǔ)言學(xué)研究有用。
該模型計(jì)算兩個(gè)語(yǔ)言詞嵌入中所有向量彼此之間的距離,這種距離取決于句子結(jié)構(gòu)和其他因素。如果向量距離接近,它們的分?jǐn)?shù)將接近 0,而距離越遠(yuǎn),分?jǐn)?shù)越高。例如,法語(yǔ)和意大利語(yǔ)等類(lèi)似的浪漫語(yǔ)言得分接近 1,而古漢語(yǔ)與其他主要語(yǔ)言得分在 6 到 9 之間。
Alvarez-Melis 說(shuō):“這給大家提供了一個(gè)簡(jiǎn)單的數(shù)字,很好地表達(dá)語(yǔ)言之間的相似度,并且可以用來(lái)描述語(yǔ)言之間的相對(duì)關(guān)系。”
本文 Wasserstein 距離的引入可以為無(wú)監(jiān)督機(jī)器翻譯領(lǐng)域提供一種新的思路,作者利用 Wasserstein 測(cè)度理論,從數(shù)學(xué)角度論證了詞嵌入對(duì)齊問(wèn)題和最優(yōu)運(yùn)輸問(wèn)題的一致性和區(qū)別。而且利用 Wasserstein 距離對(duì)齊詞嵌入可以大大加快無(wú)監(jiān)督機(jī)器翻譯的訓(xùn)練速度,對(duì)機(jī)器翻譯領(lǐng)域也是一個(gè)很好的啟發(fā)。
近年來(lái)各大公司均在機(jī)器翻譯有所發(fā)力。谷歌利用其海量的語(yǔ)料數(shù)據(jù)和巨大的 AI 算力,在 16 年徹底拋棄統(tǒng)計(jì)機(jī)器翻譯轉(zhuǎn)為神經(jīng)機(jī)器翻譯之后,翻譯質(zhì)量顯著提高。
(來(lái)源:麻省理工科技評(píng)論)
谷歌在近幾年提出應(yīng)用在機(jī)器翻譯的 Attention 機(jī)制以及 Transformer 模型也都逐漸應(yīng)用在自身的機(jī)器翻譯系統(tǒng)里。在無(wú)監(jiān)督機(jī)器翻譯領(lǐng)域,谷歌提出利用中間語(yǔ)言做翻譯橋梁,可以達(dá)到多語(yǔ)言翻譯同時(shí)訓(xùn)練的目的。
微軟除利用對(duì)齊語(yǔ)料訓(xùn)練的監(jiān)督式機(jī)器翻譯模型之外,其研究院也提出了一些無(wú)監(jiān)督機(jī)器翻譯方法,如前文提到的對(duì)偶學(xué)習(xí)、聯(lián)合訓(xùn)練,以及推敲網(wǎng)絡(luò)(Deliberation Networks)和一致性規(guī)范(AgreementRegularization)。微軟將這幾種技術(shù)運(yùn)用在其機(jī)器翻譯系統(tǒng)中后,在中英翻譯測(cè)試集上,甚至達(dá)到了與人類(lèi)翻譯匹配的水準(zhǔn)。
Facebook 也在今年提出了一種全新的無(wú)監(jiān)督機(jī)器翻譯方法,使用了旋轉(zhuǎn)對(duì)齊詞嵌入、迭代回譯和去噪等方法,在英法等翻譯任務(wù)上取得了最佳的結(jié)果。
雖然各大公司都生成自己的翻譯模型超過(guò)了人工翻譯,但在實(shí)際運(yùn)作過(guò)程中效果很難讓人信服。
大多數(shù)所謂的超越人類(lèi),只是在特定數(shù)據(jù)集的特定指標(biāo)上超過(guò)人類(lèi)得分而已,目前的機(jī)器翻譯距離人類(lèi)水平還有不少差距,只靠海量語(yǔ)料數(shù)據(jù)和計(jì)算力的堆疊也很難說(shuō)是機(jī)器翻譯發(fā)展的正確方向。
近年來(lái)也有一些關(guān)于詞嵌入的研究,比如 CoNLL(自然語(yǔ)言處理頂會(huì)之一)2018 的最佳論文說(shuō),“詞嵌入能獲得的信息遠(yuǎn)比我們想象中的要多得多”,本文在詞嵌入中引入 Wasserstein 距離,這種對(duì)詞嵌入的探索也會(huì)帶來(lái)一些啟發(fā)式思考。
關(guān)鍵詞: