21世紀(jì)經(jīng)濟報道記者楊清清 北京報道
作為當(dāng)前人工智能發(fā)展的重要方向,預(yù)訓(xùn)練大模型已成為AI領(lǐng)域的技術(shù)新高地。
據(jù)不完全統(tǒng)計,目前AI大模型已經(jīng)吸引了包括谷歌、微軟、英偉達、華為、百度、阿里等科技巨頭以及多個科研機構(gòu)參與其中,各家大模型的參數(shù)量級也從千億、萬億,迅速提升至10萬億級別。
不過,在AI大模型熱度持續(xù)攀升的過程中,各家的布局重點有所不同。近日,鵬城實驗室與百度聯(lián)合召開發(fā)布會,正式發(fā)布雙方共同研發(fā)的鵬城-百度·文心(模型版本號:ERNIE 3.0 Titan)。據(jù)介紹,該模型參數(shù)規(guī)模達到2600億,是目前全球最大中文單體模型,也是全球首個知識增強千億大模型。
“如果將這個模型的特點總結(jié)為一條,就是知識增強?!痹诮邮馨?1世紀(jì)經(jīng)濟報道在內(nèi)的媒體采訪時,百度集團副總裁吳甜分析稱,“同時,在融入知識的基礎(chǔ)上,該模型也會進行跨語言學(xué)習(xí)、跨模態(tài)學(xué)習(xí),從而體現(xiàn)出學(xué)習(xí)效率更高、學(xué)習(xí)能力更強的優(yōu)勢。”
知識增強大模型
鵬城-百度·文心知識增強大模型的最大特點,在于其在學(xué)習(xí)過程中融入知識,進而實現(xiàn)將海量知識與海量數(shù)據(jù)進行同時融合的學(xué)習(xí)。
在吳甜看來,知識帶來的優(yōu)勢在于學(xué)習(xí)效率更高。據(jù)介紹,鵬城-百度·文心知識增強大模型在包括機器閱讀理解、文本分類、語義相似度計算等60多項任務(wù)上取得最好效果,并在30余項小樣本和零樣本任務(wù)上刷新基準(zhǔn)。
“這說明模型本身的效果足夠好?!眳翘鸱治龇Q,“我們看到那60多個任務(wù)是各種各樣的不同任務(wù),體現(xiàn)出模型具備較好的通用性。同時在30多項小樣本、零樣本學(xué)習(xí)上,模型也取得了更好效果,意味著它的泛化能力更強,在看到不同場景和任務(wù)的時候可以通過少量數(shù)據(jù)標(biāo)記就能實現(xiàn)良好效果?!?/p>
需要注意的是,早在今年1月,谷歌便發(fā)布了全球首個萬億級模型Switch Transformer,參數(shù)規(guī)模達到1.6萬億。11月,阿里巴巴達摩院公布的多模態(tài)大模型M6的參數(shù)規(guī)模更是躍升至10萬億級別,成為全球最大的AI預(yù)訓(xùn)練模型。
相較之下,鵬城-百度·文心知識增強大模型的參數(shù)規(guī)模僅2600億,如何看待這樣的規(guī)模量級?
吳甜解釋稱,當(dāng)前AI預(yù)訓(xùn)練大模型分為“單體模型”和“混合專家模型”兩類。所謂單體模型也是稠密模型,具備稠密參數(shù),將所有數(shù)據(jù)中習(xí)得的規(guī)律都記錄在一張網(wǎng)絡(luò)內(nèi),使用時網(wǎng)絡(luò)上的任何點位都會被計算到,鵬城-百度·文心知識增強大模型正屬于此類。
“混合專家模型”則是稀疏模型,是由多個不同網(wǎng)絡(luò)通過門控機制集成在一起,在單次計算中可能只會使用部分子網(wǎng)絡(luò)的參數(shù)。目前,兩類大模型也代表了不同的AI預(yù)訓(xùn)練的技術(shù)方向。
“目前來說,我們能看到最大發(fā)布的單體模型是千億量級的,市面上的萬億、十萬億等都是混合專家模型。”吳甜表示,“到現(xiàn)在還沒有公開研究表明,萬億乃至十萬億的混合專家模型效果能夠媲美千億的單體模型,這個問題本身還值得進一步繼續(xù)研究?!?/p>
降低AI應(yīng)用門檻
大模型近年來受到追捧,并非沒有原因。
本輪的第三次人工智能浪潮中,伴隨著高性能計算機、因特網(wǎng)、大數(shù)據(jù)、傳感器的普及,以及計算成本的下降,“機器學(xué)習(xí)”隨之興起。所謂機器學(xué)習(xí)(Machine leaning),是指讓計算機大量學(xué)習(xí)數(shù)據(jù),使它可以像人類一樣辨識聲音及影像,或是針對問題做出合適的判斷。
其中,最受關(guān)注的莫過于深度學(xué)習(xí),亦即透過模仿人腦的“類神經(jīng)網(wǎng)絡(luò)”(Neural network)來學(xué)習(xí)大量數(shù)據(jù)的手法。深度學(xué)習(xí)的演進與發(fā)展則源自大數(shù)據(jù)、大算力、大模型三大支撐。
在吳甜看來,從某種程度而言,這三大支撐要素也構(gòu)成了深度學(xué)習(xí)及人工智能技術(shù)的瓶頸所在,包括大量的數(shù)據(jù)標(biāo)注背后高昂的成本、數(shù)據(jù)標(biāo)注本身的天花板等都是難題所在。與之相對應(yīng)的,預(yù)訓(xùn)練技術(shù)則解決了讓算法在海量無標(biāo)記數(shù)據(jù)中進行自監(jiān)督學(xué)習(xí),從而帶來技術(shù)上的突破與變化。
“隨著預(yù)訓(xùn)練技術(shù)的突破,幾乎可以認(rèn)為所有任務(wù)現(xiàn)在都是基于預(yù)訓(xùn)練機制實現(xiàn)全面的效果提升?!眳翘鸾忉尫Q,“而通過大算力平臺支撐,實現(xiàn)時間、模型體積、參數(shù)規(guī)模的增長,進而便形成當(dāng)前一系列大模型的誕生。”
從這個角度而言,預(yù)訓(xùn)練大模型具備相當(dāng)?shù)膬r值。“大模型對于產(chǎn)業(yè)而言,其意義在于降低了AI應(yīng)用門檻?!眳翘鸨硎尽?/p>
在吳甜看來,目前行業(yè)內(nèi)的AI技術(shù)應(yīng)用存在兩大困難。首先在于數(shù)據(jù)標(biāo)注非常昂貴,甚至在特定場景內(nèi)無法完成大批量批注,另一方面在行業(yè)應(yīng)用中,行業(yè)自身的知識積累至關(guān)重要。預(yù)訓(xùn)練大模型的推出,則能夠在不具備大量數(shù)據(jù)標(biāo)注的同時保證了技術(shù)基礎(chǔ)底座,疊加行業(yè)“基本功”便能夠?qū)崿F(xiàn)AI技術(shù)的快速落地。
據(jù)介紹,目前百度文心通過百度飛槳平臺陸續(xù)對外開源開放,并已大規(guī)模應(yīng)用于百度搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,同時通過百度智能云賦能工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè)。