日本一卡二卡3卡四卡网站精品 ,久久精品成人无码观看,亂倫近親相姦中文字幕

您的位置：首頁(yè) >新聞 > 公司 >

斯坦福李紀(jì)為博士畢業(yè)論文：讓機(jī)器像人一樣交流

來源：鳳凰 2017-11-14 22:41:18

自圖靈測(cè)試被提出以來，一代代研究者提出了各種方法試圖通過測(cè)試，但我們目前距離完成任務(wù)還有很長(zhǎng)一段路要走。在本論文中，我們受限簡(jiǎn)要回顧一下過去幾十年里人們提出的各種系統(tǒng)。具體來說，這其中包括三種對(duì)話系統(tǒng)：開放領(lǐng)域聊天系統(tǒng)、目標(biāo)導(dǎo)向的框架系統(tǒng)以及問答交互(QA)對(duì)話系統(tǒng)。我們會(huì)討論它們的成功應(yīng)用、優(yōu)缺點(diǎn)以及為什么它們?nèi)匀粺o法通過圖靈測(cè)試。本論文將著重討論如何改進(jìn)聊天系統(tǒng)和交互式問答(QA)系統(tǒng)。

圖1.1使用IBM模型消息與回復(fù)之間的字對(duì)齊。圖片來自MichelGalley。

第二章背景

2.1序列到序列生成

SEQ2SEQ模型可以被視為一個(gè)用輸入內(nèi)容生成目標(biāo)句的基礎(chǔ)框架，適用于多種自然語(yǔ)言生成任務(wù)，例如利用給定的英文句子生成法語(yǔ)句子的機(jī)器翻譯;通過生成響應(yīng)功能在接收到源信息時(shí)生成響應(yīng);在問答任務(wù)中針對(duì)問題做出回答;或是對(duì)一段文檔生成總結(jié)性短句等等。

本段將介紹語(yǔ)言模型基礎(chǔ)，循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)，它們被視為SEQ2SEQ模型的基礎(chǔ)。隨后，我們將詳細(xì)解讀SEQ2SEQ模型的基礎(chǔ)。最后，我們將討論不同SEQ2SEQ模型的算法，如注意力(attention)機(jī)制。

2.2記憶網(wǎng)絡(luò)

記憶網(wǎng)絡(luò)(Westonetal.,2015;Sukhbaataretal.,2015)是一類神經(jīng)網(wǎng)絡(luò)模型，可以通過操作內(nèi)存中的內(nèi)容(存儲(chǔ)、取回、過濾和重用)來進(jìn)行自然語(yǔ)言推理。記憶網(wǎng)絡(luò)中的存儲(chǔ)器部分可以嵌入長(zhǎng)期記憶(例如，關(guān)于真實(shí)世界的常識(shí))和短期上下文(例如，最近的幾段對(duì)話)。記憶網(wǎng)絡(luò)已被成功地應(yīng)用于很多自然語(yǔ)言任務(wù)中了，例如問答系統(tǒng)(Bordesetal.,2014;Westonetal.,2016)，語(yǔ)言建模(Sukhbaataretal.,2015;Hilletal.,2016)以及對(duì)話(Dogeetal.,2016;Bordes&Weston,2017)。

2.3策略梯度方法

策略梯度法(Aleksandrovetal.,1968;Williams,1992)是一類強(qiáng)化學(xué)習(xí)模型，通過使用梯度下降預(yù)測(cè)獎(jiǎng)勵(lì)的參數(shù)化策略來學(xué)習(xí)參數(shù)。與其他強(qiáng)化學(xué)習(xí)模型(如Q學(xué)習(xí)模型)比較而言，策略梯度方法不會(huì)受到如缺乏價(jià)值函數(shù)等方面的問題(因?yàn)樗恍枰鞔_估算價(jià)值函數(shù))，或由于高維空間連續(xù)狀態(tài)或動(dòng)作導(dǎo)致難以控制。

第三章用交互信息避免泛化回復(fù)

當(dāng)我們將SEQ2SEQ模型應(yīng)用與生成回復(fù)的時(shí)候，一個(gè)嚴(yán)重的問題脫穎而出：神經(jīng)對(duì)話模型總是會(huì)傾向于生成無意義的回復(fù)，例如「Idon'tknow」、「Idon'tknowwhatyouaretalkingabout」(Serbanetal.,2015;Vinyals&Le,2015)。從表3.1中我們可以看出，很多排名靠前的回復(fù)是泛化的。那些看起來更加有意義、更有針對(duì)性的回復(fù)可以在非最佳列表中找到，但是排名非?？亢?。這種現(xiàn)象是因?yàn)橥ㄓ眯曰貜?fù)如Idon'tknow在對(duì)話數(shù)據(jù)集中相對(duì)較高的頻率。MLE(最大似然估計(jì))目標(biāo)函數(shù)對(duì)源到目標(biāo)的單向依賴性進(jìn)行了建模，由于無意義回復(fù)沒有意義，有意義回復(fù)多種多樣，系統(tǒng)總會(huì)傾向于生成這些無意義的回復(fù)。直觀上，似乎不僅要考慮回復(fù)與信息的相關(guān)性，也需要考慮傳遞的信息是否具有意義：如果回答是「Idon'tknow」，我們就難以猜測(cè)對(duì)話者開始詢問的是什么。

我們建議通過最大互信息(MaximumMutualInformation，MMI)，作為測(cè)量輸入和輸出之間的相互依賴性的優(yōu)化目標(biāo)來捕獲這種直覺，作為傳統(tǒng)MLE目標(biāo)函數(shù)中源到目標(biāo)單向依賴性的反向。我們提出了使用MMI作為目標(biāo)函數(shù)神經(jīng)生成模型的實(shí)際訓(xùn)練和解碼策略。我們證明了使用MMI可以顯著減少泛化回復(fù)產(chǎn)生的幾率，在BLEU和人類評(píng)測(cè)的結(jié)果中得出了顯著提升性能的結(jié)果。

表3.1從OpenSubtitles數(shù)據(jù)集2000萬對(duì)話配對(duì)中訓(xùn)練的4層SEQ2SEQ神經(jīng)模型生成的回復(fù)。解碼實(shí)現(xiàn)的Beamsize被設(shè)為200。最大概率的回復(fù)選項(xiàng)為N-best列表中平均可能性對(duì)數(shù)似然的最高概率。更低的概率回復(fù)是手動(dòng)選擇的。

表3.4：在Open-Subtitles數(shù)據(jù)集上SEQ2SEQ基線和MMI-antiLM模型的對(duì)比。

第四章解決說話者一致性問題

目前聊天系統(tǒng)的一個(gè)嚴(yán)重的問題是缺少說話者一致性。這是由于訓(xùn)練集中包含了不同的人的談話，而且一個(gè)解碼模型總是選擇最大似然的應(yīng)答，從而使輸出變得非常的混亂且不一致。

在這一章中，我們討論了應(yīng)對(duì)不一致問題的方法以及如何為數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)賦予合乎邏輯的「人格角色」(persona)以模仿類人的行為，無論是個(gè)人助理，個(gè)性化的「阿凡達(dá)」智能體，亦或是游戲角色。為了這個(gè)目的，我們將把persona定義為一個(gè)人工智能體在對(duì)話交流中所扮演或表現(xiàn)出來的一種特征。persona可以看成身份要素(背景事實(shí)或用戶外形)、語(yǔ)言行為和交互方式的混合物。persona是有適應(yīng)性的，由于智能體在面對(duì)不同的人類談話者的時(shí)候需要按交互的需求表現(xiàn)不同的側(cè)面。

表5.1：左列：使用SEQ2SEQ模型和OpenSubtitles數(shù)據(jù)集訓(xùn)練的兩個(gè)智能體之間的對(duì)話模擬。第一輪(指標(biāo)1)是由作者輸入的，然后兩個(gè)智能體輪流應(yīng)答，一個(gè)智能體的輸入將作為另一個(gè)的在前生成輪。右列：使用我們提出的強(qiáng)化學(xué)習(xí)模型的對(duì)話模擬。新的模型擁有更具前瞻性的言辭(諸如「你為什么要問這個(gè)問題」、「我和你一起去」)，在掉入對(duì)話黑洞之前能進(jìn)行更持久的對(duì)話。

為了應(yīng)對(duì)這些挑戰(zhàn)，我們需要一個(gè)擁有以下能力的對(duì)話框架：

(1)更好的獎(jiǎng)勵(lì)函數(shù);

(2)對(duì)生成的某一句話的長(zhǎng)期影響進(jìn)行建模。

為了達(dá)到這些目的，我們利用了強(qiáng)化學(xué)習(xí)，其在MDP和POMDP對(duì)話系統(tǒng)中早已被廣泛應(yīng)用。我們提出了神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)生成方法，可以優(yōu)化長(zhǎng)期的獎(jiǎng)勵(lì)。我們的模型使用了編碼器-解碼器架構(gòu)作為主干，讓兩個(gè)機(jī)器人模擬對(duì)話。這樣的話，通過優(yōu)化獎(jiǎng)勵(lì)函數(shù)，探索可能行為的空間。我們認(rèn)為針對(duì)對(duì)話好的獎(jiǎng)勵(lì)函數(shù)應(yīng)該有如下特點(diǎn)：好的談話是具備前瞻性或交互性(一輪帶動(dòng)下一輪對(duì)話)、提供有用以及合乎邏輯的信息。我們可以通過這些方面定義獎(jiǎng)勵(lì)函數(shù)，從而通過獎(jiǎng)勵(lì)函數(shù)來優(yōu)化編碼器-解碼器模型。

在訓(xùn)練過程中，我們使用隨機(jī)梯度下降的更新策略，借用了YoshuaBengio在09年提出的課程學(xué)習(xí)(Curriculumlearning)的策略，逐漸增加對(duì)話模擬的輪數(shù)。這樣訓(xùn)練的復(fù)雜度逐漸增加。

實(shí)驗(yàn)結(jié)果(表5.1中右側(cè)的樣本結(jié)果)表明我們的方法產(chǎn)生了更持久的對(duì)話，并且相比使用MLE目標(biāo)訓(xùn)練的標(biāo)準(zhǔn)SEQ2SEQ模型，能生成更具交互性的應(yīng)答。

兩個(gè)對(duì)話機(jī)器人之間的對(duì)話模擬

模擬兩個(gè)機(jī)器人輪流對(duì)話的過程是這樣的，在一開始，從訓(xùn)練集中隨意找到一句話作為輸入給第一個(gè)機(jī)器人，這個(gè)代理通過編碼器網(wǎng)絡(luò)把這個(gè)輸入編碼成一個(gè)隱層向量，然后解碼器來生成回答。之后，第二個(gè)機(jī)器人把之前那個(gè)機(jī)器人輸出的響應(yīng)和對(duì)話歷史結(jié)合起來，重新通過編碼器網(wǎng)絡(luò)編碼得到一個(gè)隱層向量(相當(dāng)于更新了對(duì)話的狀態(tài))，然后通過解碼器網(wǎng)絡(luò)生成一個(gè)新的回復(fù)，并傳給第一個(gè)機(jī)器人。這個(gè)過程不斷被重復(fù)下去：