产后漂亮奶水人妻无码,亚洲偷自拍另类图片二区,国产精品国产三级在线...

您的位置：首頁(yè) >文化 >

超越Softmax瓶頸：一種高秩RNN語(yǔ)言模型

來(lái)源：鳳凰 2017-11-14 22:38:44

卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院最近一篇正在評(píng)議階段的 ICLR 2018 論文在 arXiv 上公開(kāi)，該論文證明使用分布式詞嵌入的 Softmax 實(shí)際上沒(méi)有足夠的能力來(lái)建模自然語(yǔ)言，他們?yōu)榇艘蔡岢隽俗约旱慕鉀Q方法。本論文的并列第一作者是 Zhilin Yang 和 Zihang Dai。楊植麟(Zhilin Yang)本科就讀于清華大學(xué)計(jì)算機(jī)系，現(xiàn)就讀于CMU。曾在清華 4 年保持全年級(jí)第一，同時(shí)也是清華大學(xué) 2014 年本科生特獎(jiǎng)獲得者。此外，領(lǐng)導(dǎo)蘋(píng)果公司的人工智能技術(shù)研究的 CMU 教授 Ruslan Salakhutdinov 也是該論文的作者之一。本文由浙江大學(xué)博士生楊海宏推薦，他的研究方向?yàn)橹R(shí)圖譜問(wèn)答。

在因式分解(factorization)的基礎(chǔ)上，基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語(yǔ)言模型在多項(xiàng)基準(zhǔn)上都達(dá)到了當(dāng)前最佳的水平。盡管 RNN 作為通用近似器有出色的表達(dá)能力，但點(diǎn)積和 Softmax 的組合是否有能力建模條件概率(會(huì)隨語(yǔ)境的變化而發(fā)生巨大的變化)，這個(gè)問(wèn)題還沒(méi)有得到清楚的解答。

在這項(xiàng)工作中，我們從矩陣分解的角度研究了前面提到的基于 Softmax 的循環(huán)語(yǔ)言模型的表達(dá)能力。我們表明使用標(biāo)準(zhǔn)公式學(xué)習(xí)基于 Softmax 的循環(huán)語(yǔ)言模型等價(jià)于求解矩陣分解問(wèn)題。更重要的是，因?yàn)樽匀徽Z(yǔ)言高度依賴(lài)于語(yǔ)境，所以被分解的矩陣可能是高秩的(high-rank)。這進(jìn)一步表明帶有分布式(輸出)詞嵌入的基于標(biāo)準(zhǔn) Softmax 的語(yǔ)言模型沒(méi)有足夠的能力建模自然語(yǔ)言。我們稱(chēng)之為 Softmax 瓶頸(Softmax bottleneck)。

我們提出了一種解決 Softmax 瓶頸的簡(jiǎn)單且有效的方法。具體而言，我們將離散隱變量(discrete latent variable)引入了循環(huán)語(yǔ)言模型，并且將 next-token 概率分布形式化為了 Mixture of Softmaxes(MoS)。Mixture of Softmaxes 比 Softmax 和以前的研究考慮的其它替代方法有更好的表達(dá)能力。此外，我們表明 MoS 可以學(xué)習(xí)有更大的歸一化奇異值(normalized singular values)的矩陣，因此比 Softmax 和基于真實(shí)世界數(shù)據(jù)集的其它基準(zhǔn)有高得多的秩。

我們有兩大貢獻(xiàn)。首先，我們通過(guò)將語(yǔ)言建模形式化為矩陣分解問(wèn)題而確定了 Softmax 瓶頸的存在。第二，我們提出了一種簡(jiǎn)單且有效的方法，可以在當(dāng)前最佳的結(jié)果上實(shí)現(xiàn)顯著的提升。

論文地址：https://arxiv.org/pdf/1711.03953.pdf

摘要：

我們將語(yǔ)言建模形式化了矩陣分解問(wèn)題，并且表明基于 Softmax 的模型(包括大多數(shù)神經(jīng)語(yǔ)言模型)的表達(dá)能力受限于 Softmax 瓶頸。鑒于自然語(yǔ)言高度依賴(lài)于語(yǔ)境，這就進(jìn)一步表明使用分布式詞嵌入的 Softmax 實(shí)際上沒(méi)有足夠的能力來(lái)建模自然語(yǔ)言。我們提出了一種解決這一問(wèn)題的簡(jiǎn)單且有效的方法，并且在 Penn Treebank 和 WikiText-2 上分別將當(dāng)前最佳的困惑度水平改善到了 47.69 和 40.68。

在 PTB 和 WT2 上的語(yǔ)言建模結(jié)果分別在表 1 和表 2 中給出。在參數(shù)數(shù)量差不多的情況下，MoS 的表現(xiàn)超越了所有使用了或沒(méi)使用動(dòng)態(tài)評(píng)估(dynamic evaluation)的基準(zhǔn)，并且在當(dāng)前最佳的基礎(chǔ)上實(shí)現(xiàn)了顯著的提升(困惑度改善了高達(dá) 3.6)。

表 1：在 Penn Treebank 的驗(yàn)證集和測(cè)試集上的單個(gè)模型困惑度?；鶞?zhǔn)結(jié)果是從 Merity et al. (2017) 和 Krause et al. (2017) 獲得的。† 表示使用了動(dòng)態(tài)評(píng)估。

表 2：在 WikiText-2 上的單個(gè)模型困惑度?；鶞?zhǔn)結(jié)果是從 Merity et al. (2017) 和 Krause et al. (2017) 獲得的。† 表示使用了動(dòng)態(tài)評(píng)估。

為了進(jìn)一步驗(yàn)證上面所給出的改善確實(shí)源自 MoS 結(jié)構(gòu)，而不是因?yàn)樵黾恿祟~外的隱藏層或找到了一組特定的超參數(shù)，我們?cè)?PTB 和 WT2 上執(zhí)行了 ablation study(是指移除模型和算法的某些功能或結(jié)構(gòu)，看它們對(duì)該模型和算法的結(jié)果有何影響)。