能夠“理解”輸入信息的含義并輸出內(nèi)容,這類(lèi)AI模型,在一定程度上擁有和人腦同樣的能力——?jiǎng)?chuàng)造力。
近期大火的AIGC(AI-generated content)和ChatGPT都屬于這類(lèi)模型,即生成式AI。從廣義上看,ChatGPT是文字模態(tài)的AIGC應(yīng)用,負(fù)責(zé)生成自然語(yǔ)言,能夠和使用者進(jìn)行問(wèn)答式對(duì)話。
(相關(guān)資料圖)
其他形式還包括AI寫(xiě)詩(shī)、AI作曲、AI繪畫(huà)、AI換臉……甚至有人認(rèn)為,游戲中導(dǎo)入圖片生成模型的“捏臉系統(tǒng)”都是AIGC。相關(guān)熱門(mén)應(yīng)用也層出不窮,包括Stable Diffusion、QQ小世界AI畫(huà)匠/異次元的我、盜夢(mèng)師、玩句等。
其中,ChatGPT被稱為AI里程碑式應(yīng)用,它是明星公司Open AI在2020年推出的自然語(yǔ)言生成式模型——GPT 3的衍生產(chǎn)品。此前也不是沒(méi)有這類(lèi)應(yīng)用,AI客服、聊天機(jī)器人、語(yǔ)音工作助手、小說(shuō)衍生器等都屬于此類(lèi)。
但ChatGPT的智能化遠(yuǎn)遠(yuǎn)超出了這些“前輩”。與此前的模型相比,ChatGPT亮點(diǎn)主要包括:
(1)新增代碼理解和生成能力,對(duì)輸入的理解能力和包容度高,能在絕大部分知識(shí)領(lǐng)域給出專業(yè)回答。
(2)加入道德原則。即ChatGPT能夠識(shí)別惡意信息,識(shí)別后拒絕給出有效回答。
(3)支持連續(xù)對(duì)話。ChatGPT具有記憶能力,提高了模型的交互體驗(yàn)。
上線5天,ChatGPT的用戶突破100萬(wàn)。連特斯拉創(chuàng)始人馬斯克也稱:“許多人陷入了該死的瘋狂ChatGPT循環(huán)中。”
那么,作為生成式AI的代表,ChatGPT是如何獲得理解力的呢?
這一過(guò)程離不開(kāi)大模型、大數(shù)據(jù)、大算力。整體技術(shù)路線上,ChatGPT在效果強(qiáng)大的GPT 3.5大規(guī)模語(yǔ)言模型(LLM,Large Language Model)基礎(chǔ)上,引入“人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”來(lái)不斷訓(xùn)練語(yǔ)言模型,主要目的是讓GPT模型學(xué)會(huì)理解人類(lèi)的命令指令的含義。
簡(jiǎn)單來(lái)說(shuō),就是基于優(yōu)秀的機(jī)器學(xué)習(xí)算法和強(qiáng)勁的算力,通過(guò)海量的數(shù)據(jù)訓(xùn)練,讓AI學(xué)會(huì)“思考”。Open AI在2020年從微軟取得GPT 3的獨(dú)家授權(quán)后,一直在Azure AI超算基礎(chǔ)設(shè)施(由V100GPU組成的高帶寬集群)上訓(xùn)練該模型,主要使用的公共爬蟲(chóng)數(shù)據(jù)集有著超過(guò)萬(wàn)億單詞的人類(lèi)語(yǔ)言數(shù)據(jù)集。
國(guó)盛證券進(jìn)一步認(rèn)為,生成算法、NLP(自然語(yǔ)言處理)與算力決定AIGC能否運(yùn)行,而高質(zhì)量的數(shù)據(jù)集決定了AIGC質(zhì)量與商業(yè)模式。相關(guān)公司包括:
另外,AI需要利用大量的標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練和學(xué)習(xí),標(biāo)注數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)于模型的輸出結(jié)果至關(guān)重要,數(shù)據(jù)標(biāo)注/ AI訓(xùn)練數(shù)據(jù)因此也被視作增量需求。
漢王科技的自由書(shū)寫(xiě)文稿識(shí)別技術(shù)即依托于海量數(shù)據(jù)訓(xùn)練,本周一至今,該股三天內(nèi)收獲兩個(gè)漲停板(分別為12月5日、12月7日)。
漢王科技K線圖
A股公司中,從事數(shù)據(jù)訓(xùn)練業(yè)務(wù)的還有海天瑞聲、四維圖新等。在A股公司互動(dòng)易上,已有投資者向AI 訓(xùn)練數(shù)據(jù)提供商海天瑞聲提問(wèn):ChatGPT方面應(yīng)用方向?是否為人工智能+訓(xùn)練數(shù)據(jù)業(yè)務(wù)?
不過(guò),海天瑞聲的回復(fù)并沒(méi)有提及ChatGPT,僅表示將持續(xù)關(guān)注大模型領(lǐng)域新趨勢(shì),并根據(jù)客戶的需求變化,適時(shí)推進(jìn)公司產(chǎn)品創(chuàng)新、技術(shù)創(chuàng)新,滿足更多客戶、更新領(lǐng)域的AI訓(xùn)練數(shù)據(jù)需求。
▍下一目標(biāo):大規(guī)模商業(yè)化
對(duì)于這些AI工具的創(chuàng)造者們來(lái)說(shuō),下一步要考慮的是大規(guī)模商業(yè)化。
從GPT進(jìn)化到GPT 3的過(guò)程相當(dāng)燒錢(qián)——參數(shù)量從1.17億增加到1750億,預(yù)訓(xùn)練數(shù)據(jù)量從5GB增加到45TB,其中GPT 3訓(xùn)練一次的費(fèi)用是460萬(wàn)美元,總訓(xùn)練成本達(dá)1200萬(wàn)美。高額投入使得B端變現(xiàn)更具可行性。
如今很多C端應(yīng)用均為免費(fèi)版,國(guó)泰君安表示,當(dāng)前AI繪畫(huà)的用戶付費(fèi)意愿不強(qiáng),60%的用戶從未在AI繪畫(huà)相關(guān)方面付費(fèi),在C端付費(fèi)形式刺激度較低的情況下,未來(lái)B端或?qū)⒊蔀锳I繪畫(huà)軟件的核心客戶。
并非沒(méi)有愿意掏錢(qián)的消費(fèi)者。ChatGPT不限于普通聊天,還可解決具體難題,比如協(xié)助寫(xiě)代碼等,部分用戶在社交媒體上表達(dá)了對(duì)ChatGPT的付費(fèi)意愿,AI繪畫(huà)小程序“盜夢(mèng)師”從10月1號(hào)開(kāi)始商業(yè)化后,已經(jīng)有很多用戶付費(fèi),該產(chǎn)品負(fù)責(zé)人表示,目前次日留存率大概40%,七日留存率接近30%。
另外,版權(quán)問(wèn)題是生成式AI繞不開(kāi)的一道坎,絕大多數(shù)原創(chuàng)作品的版權(quán)擁有者會(huì)介意AI提取自身作品的部分元素。