馬云曾說:“三十年后,《時代》雜志封面年度最佳CEO說不定是個機(jī)器人。”
機(jī)器人CEO可能還需等待,但機(jī)器人繪畫師已經(jīng)在路上。
當(dāng)Google的AI正在涂鴉時,微軟的繪畫AI 已經(jīng)學(xué)會如何畫鳥了。近日,微軟對外宣稱正計(jì)劃推出一項(xiàng)新的人工智能技術(shù)——繪圖機(jī)器人(drawing bot)。使用者僅需說出想要繪制物體的名稱,機(jī)器人便可以進(jìn)行相關(guān)素材的匹配,也就是說,未來可以通過口述的方式進(jìn)行繪畫,說啥畫啥。
人工智能系統(tǒng)單純透過文字描述就能夠創(chuàng)作圖像,該技術(shù)在文字描述中尋找關(guān)鍵字詞,然后再用來創(chuàng)作高畫質(zhì)的圖像,據(jù)悉這個關(guān)注重點(diǎn)的技巧讓圖像的畫質(zhì)較之前提升3倍。
隨著人工智能時代的到來,藝術(shù)與科技的碰撞,越來越頻繁地現(xiàn)身熱門話題榜。AI“看文作畫”的技術(shù)展現(xiàn)了具有藝術(shù)表現(xiàn)力的潛能,對藝術(shù)創(chuàng)作的影響已經(jīng)可以預(yù)見。但微軟的繪畫AI,在撬動智能體想象力方面,意義絕對不只是“藝術(shù)助手”所能概括的。
所以,AI口述繪畫這件事,不可小瞧。
什么是AI口述繪畫
AI口述繪畫,看起來好像是機(jī)器接受人類指令給出圖畫,但遠(yuǎn)遠(yuǎn)不止這么簡單。智能相對論(微信id:aixdlun)了解到,正如負(fù)責(zé)研發(fā)的Microsoft深度學(xué)習(xí)技術(shù)首席研究員何曉東說的,圖像是人工智能由零開始,逐像素逐像素創(chuàng)作。
人工智能創(chuàng)作的黃色雀鳥并不一定在現(xiàn)實(shí)世界存在,只是電腦的一種想像。
他以一幅人工智能創(chuàng)作的黃色雀鳥圖像做解說,表示人工智能分析文字后,再透過一項(xiàng)名為生成對抗性網(wǎng)絡(luò)(GAN,Generative Adversarial Network)的技術(shù)將文字轉(zhuǎn)化成圖像,
GAN通過從高維的分布中采樣,生成模型輸出與訓(xùn)練樣本類似的新樣本。這就意味著,若生成模型的訓(xùn)練數(shù)據(jù)是鳥的圖像集,那么訓(xùn)練后得到的模型也能輸出類似于鳥的合成圖片。
研究員稱人工智能系統(tǒng)能夠創(chuàng)作出任何類型的形象,例如飄浮的雙層巴士、放牧中的牲畜等,而且在文字中欠缺的一些細(xì)節(jié),系統(tǒng)會在影像中自行補(bǔ)完。
生成器總是在試圖“騙過”判別器。
GAN結(jié)構(gòu)用到了兩個神經(jīng)網(wǎng)絡(luò):一個是生成器,它試圖基于輸入的數(shù)據(jù)生成更像真實(shí)數(shù)據(jù)的結(jié)果;另一個是判別器,它的目的在于正確分辨哪些是真實(shí)的數(shù)據(jù)。簡單地來理解就是,
生成器必須反復(fù)用隨機(jī)輸入的噪音數(shù)據(jù)合成有意義的內(nèi)容,直到判別器無法區(qū)分合成內(nèi)容的真?zhèn)巍_@套框架正在被擴(kuò)展應(yīng)用到許多數(shù)據(jù)模式和任務(wù)中。如仿真時間序列的特征;超分辨率圖像;從二維圖像復(fù)原三維結(jié)構(gòu);小規(guī)模標(biāo)注數(shù)據(jù)集的泛化;預(yù)測視頻的下一幀;生成自然語言的對話內(nèi)容;藝術(shù)風(fēng)格遷移;語音和音樂的合成。
這個AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了近三倍。
值得一提的是,微軟研究人員在此基礎(chǔ)上創(chuàng)建了他們稱之為注意力生成式對抗網(wǎng)絡(luò)或AttnGAN的技術(shù),而這種仿人類注意力的生成式對抗網(wǎng)絡(luò)對AI界的影響十分重大,這標(biāo)志著在類人類智能的發(fā)展實(shí)現(xiàn)了質(zhì)的突破。