亚洲乱码一区AV春药高潮,最近免费中文字幕中文高清百度,在线观看特色大片免费网站

您的位置：首頁 >機器人 >

斯坦福李紀為博士畢業(yè)論文：讓機器像人一樣交流

來源：鳳凰 2017-11-14 22:41:18

自圖靈測試被提出以來，一代代研究者提出了各種方法試圖通過測試，但我們目前距離完成任務(wù)還有很長一段路要走。在本論文中，我們受限簡要回顧一下過去幾十年里人們提出的各種系統(tǒng)。具體來說，這其中包括三種對話系統(tǒng)：開放領(lǐng)域聊天系統(tǒng)、目標導向的框架系統(tǒng)以及問答交互(QA)對話系統(tǒng)。我們會討論它們的成功應(yīng)用、優(yōu)缺點以及為什么它們?nèi)匀粺o法通過圖靈測試。本論文將著重討論如何改進聊天系統(tǒng)和交互式問答(QA)系統(tǒng)。

圖1.1使用IBM模型消息與回復之間的字對齊。圖片來自MichelGalley。

第二章背景

2.1序列到序列生成

SEQ2SEQ模型可以被視為一個用輸入內(nèi)容生成目標句的基礎(chǔ)框架，適用于多種自然語言生成任務(wù)，例如利用給定的英文句子生成法語句子的機器翻譯;通過生成響應(yīng)功能在接收到源信息時生成響應(yīng);在問答任務(wù)中針對問題做出回答;或是對一段文檔生成總結(jié)性短句等等。

本段將介紹語言模型基礎(chǔ)，循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(LSTM)，它們被視為SEQ2SEQ模型的基礎(chǔ)。隨后，我們將詳細解讀SEQ2SEQ模型的基礎(chǔ)。最后，我們將討論不同SEQ2SEQ模型的算法，如注意力(attention)機制。

2.2記憶網(wǎng)絡(luò)

記憶網(wǎng)絡(luò)(Westonetal.,2015;Sukhbaataretal.,2015)是一類神經(jīng)網(wǎng)絡(luò)模型，可以通過操作內(nèi)存中的內(nèi)容(存儲、取回、過濾和重用)來進行自然語言推理。記憶網(wǎng)絡(luò)中的存儲器部分可以嵌入長期記憶(例如，關(guān)于真實世界的常識)和短期上下文(例如，最近的幾段對話)。記憶網(wǎng)絡(luò)已被成功地應(yīng)用于很多自然語言任務(wù)中了，例如問答系統(tǒng)(Bordesetal.,2014;Westonetal.,2016)，語言建模(Sukhbaataretal.,2015;Hilletal.,2016)以及對話(Dogeetal.,2016;Bordes&Weston,2017)。

2.3策略梯度方法

策略梯度法(Aleksandrovetal.,1968;Williams,1992)是一類強化學習模型，通過使用梯度下降預測獎勵的參數(shù)化策略來學習參數(shù)。與其他強化學習模型(如Q學習模型)比較而言，策略梯度方法不會受到如缺乏價值函數(shù)等方面的問題(因為它不需要明確估算價值函數(shù))，或由于高維空間連續(xù)狀態(tài)或動作導致難以控制。

第三章用交互信息避免泛化回復

當我們將SEQ2SEQ模型應(yīng)用與生成回復的時候，一個嚴重的問題脫穎而出：神經(jīng)對話模型總是會傾向于生成無意義的回復，例如「Idon'tknow」、「Idon'tknowwhatyouaretalkingabout」(Serbanetal.,2015;Vinyals&Le,2015)。從表3.1中我們可以看出，很多排名靠前的回復是泛化的。那些看起來更加有意義、更有針對性的回復可以在非最佳列表中找到，但是排名非常靠后。這種現(xiàn)象是因為通用性回復如Idon'tknow在對話數(shù)據(jù)集中相對較高的頻率。MLE(最大似然估計)目標函數(shù)對源到目標的單向依賴性進行了建模，由于無意義回復沒有意義，有意義回復多種多樣，系統(tǒng)總會傾向于生成這些無意義的回復。直觀上，似乎不僅要考慮回復與信息的相關(guān)性，也需要考慮傳遞的信息是否具有意義：如果回答是「Idon'tknow」，我們就難以猜測對話者開始詢問的是什么。

我們建議通過最大互信息(MaximumMutualInformation，MMI)，作為測量輸入和輸出之間的相互依賴性的優(yōu)化目標來捕獲這種直覺，作為傳統(tǒng)MLE目標函數(shù)中源到目標單向依賴性的反向。我們提出了使用MMI作為目標函數(shù)神經(jīng)生成模型的實際訓練和解碼策略。我們證明了使用MMI可以顯著減少泛化回復產(chǎn)生的幾率，在BLEU和人類評測的結(jié)果中得出了顯著提升性能的結(jié)果。

表3.1從OpenSubtitles數(shù)據(jù)集2000萬對話配對中訓練的4層SEQ2SEQ神經(jīng)模型生成的回復。解碼實現(xiàn)的Beamsize被設(shè)為200。最大概率的回復選項為N-best列表中平均可能性對數(shù)似然的最高概率。更低的概率回復是手動選擇的。

表3.4：在Open-Subtitles數(shù)據(jù)集上SEQ2SEQ基線和MMI-antiLM模型的對比。

第四章解決說話者一致性問題

目前聊天系統(tǒng)的一個嚴重的問題是缺少說話者一致性。這是由于訓練集中包含了不同的人的談話，而且一個解碼模型總是選擇最大似然的應(yīng)答，從而使輸出變得非常的混亂且不一致。

在這一章中，我們討論了應(yīng)對不一致問題的方法以及如何為數(shù)據(jù)驅(qū)動的系統(tǒng)賦予合乎邏輯的「人格角色」(persona)以模仿類人的行為，無論是個人助理，個性化的「阿凡達」智能體，亦或是游戲角色。為了這個目的，我們將把persona定義為一個人工智能體在對話交流中所扮演或表現(xiàn)出來的一種特征。persona可以看成身份要素(背景事實或用戶外形)、語言行為和交互方式的混合物。persona是有適應(yīng)性的，由于智能體在面對不同的人類談話者的時候需要按交互的需求表現(xiàn)不同的側(cè)面。

表5.1：左列：使用SEQ2SEQ模型和OpenSubtitles數(shù)據(jù)集訓練的兩個智能體之間的對話模擬。第一輪(指標1)是由作者輸入的，然后兩個智能體輪流應(yīng)答，一個智能體的輸入將作為另一個的在前生成輪。右列：使用我們提出的強化學習模型的對話模擬。新的模型擁有更具前瞻性的言辭(諸如「你為什么要問這個問題」、「我和你一起去」)，在掉入對話黑洞之前能進行更持久的對話。

為了應(yīng)對這些挑戰(zhàn)，我們需要一個擁有以下能力的對話框架：

(1)更好的獎勵函數(shù);

(2)對生成的某一句話的長期影響進行建模。

為了達到這些目的，我們利用了強化學習，其在MDP和POMDP對話系統(tǒng)中早已被廣泛應(yīng)用。我們提出了神經(jīng)網(wǎng)絡(luò)強化學習生成方法，可以優(yōu)化長期的獎勵。我們的模型使用了編碼器-解碼器架構(gòu)作為主干，讓兩個機器人模擬對話。這樣的話，通過優(yōu)化獎勵函數(shù)，探索可能行為的空間。我們認為針對對話好的獎勵函數(shù)應(yīng)該有如下特點：好的談話是具備前瞻性或交互性(一輪帶動下一輪對話)、提供有用以及合乎邏輯的信息。我們可以通過這些方面定義獎勵函數(shù)，從而通過獎勵函數(shù)來優(yōu)化編碼器-解碼器模型。

在訓練過程中，我們使用隨機梯度下降的更新策略，借用了YoshuaBengio在09年提出的課程學習(Curriculumlearning)的策略，逐漸增加對話模擬的輪數(shù)。這樣訓練的復雜度逐漸增加。

實驗結(jié)果(表5.1中右側(cè)的樣本結(jié)果)表明我們的方法產(chǎn)生了更持久的對話，并且相比使用MLE目標訓練的標準SEQ2SEQ模型，能生成更具交互性的應(yīng)答。

兩個對話機器人之間的對話模擬

模擬兩個機器人輪流對話的過程是這樣的，在一開始，從訓練集中隨意找到一句話作為輸入給第一個機器人，這個代理通過編碼器網(wǎng)絡(luò)把這個輸入編碼成一個隱層向量，然后解碼器來生成回答。之后，第二個機器人把之前那個機器人輸出的響應(yīng)和對話歷史結(jié)合起來，重新通過編碼器網(wǎng)絡(luò)編碼得到一個隱層向量(相當于更新了對話的狀態(tài))，然后通過解碼器網(wǎng)絡(luò)生成一個新的回復，并傳給第一個機器人。這個過程不斷被重復下去：