國內(nèi)公司如何接招?
作者 | 趙健
(資料圖片)
ChatGPT的熱度正在一路狂飆。
“去年12月在機(jī)器學(xué)習(xí)圈曾持續(xù)熱議過,但是沒有現(xiàn)在每一個群都在交流和使用的狀況。這是除了疫情,從未有過的現(xiàn)象?!庇腥巳绱烁锌?/p>
一位AI產(chǎn)品經(jīng)理向「甲子光年」表示,或許若干年后回看AI行業(yè)的發(fā)展,會有兩個標(biāo)志:阿爾法狗代表AI在專業(yè)領(lǐng)域“干翻”人類的起點,ChatGPT代表AI在通用智能領(lǐng)域“干翻”人類的起點......
《財富》雜志則是這樣描述的:
在一代人的時間中總有一種產(chǎn)品的出現(xiàn),它將從工程系昏暗的地下室、書呆子們臭氣熏天的青少年臥室和愛好者們孤獨的洞穴中彈射出來,變成了你的祖母Edna都知道如何使用的東西。早在 1990 年就有網(wǎng)絡(luò)瀏覽器,但直到 1994 年Netscape Navigator的出現(xiàn),大多數(shù)人才發(fā)現(xiàn)了互聯(lián)網(wǎng)。2001 年 iPod 問世之前就已經(jīng)有了 MP3 播放器,但它們并沒有引發(fā)數(shù)字音樂革命。在2007 年蘋果推出iPhone之前,也有智能手機(jī),但在 iPhone 之前,沒有智能手機(jī)的應(yīng)用程序。2022年11月30日,人工智能迎來了Netscape Navigator時刻。
對于人工智能或者聊天機(jī)器人,我們并不陌生。從蘋果Siri、微軟小冰、智能音箱,這些人工智能產(chǎn)品已經(jīng)融入到人們的生活中,但是基本都有一個特點——還比較笨,跟我們在《流浪地球2》中看到的MOSS相差十萬八千里。
但這次的ChatGPT有點不一樣。它不但可以實現(xiàn)多輪文本對話,也可以寫代碼、寫營銷文案、寫詩歌、寫商業(yè)計劃書、寫電影劇本。雖然并不完美、也會出錯,但看起來無所不能。
連埃隆·馬斯克都評價道:“ChatGPT好得嚇人,我們離危險的強(qiáng)人工智能不遠(yuǎn)了?!?/p>
而且,ChatGPT也不僅僅是一個打發(fā)時間的聊天機(jī)器人,微軟與谷歌此時此刻正在因為ChatGPT的出現(xiàn)籌備一場關(guān)乎未來的AI大戰(zhàn)。而國內(nèi)的科技公司,也在努力思考著如何搭上駛向未來的船票,無論是以蹭概念,還是真產(chǎn)品的方式。
這一切,ChatGPT是如何做到的?本文,「甲子光年」將首先回答幾個最基礎(chǔ)的問題:
ChatGPT和過去的AI有什么不同?OpenAI是如何戰(zhàn)勝谷歌的?OpenAI的成功花了多少錢?ChatGPT爆火之后,誰是最后贏家?剛剛過去的2022年,從硅谷到國內(nèi)的科技公司,上上下下都蔓延著一股“寒氣”。但是,AI行業(yè)卻完全是另一番熱鬧的景象。
這一年,通過輸入文本描述就能自動生成圖片的AI繪畫神器突然雨后春筍般冒了出來,其中最具代表性的幾家為第二代DALL·E(由OpenAI于2022年4月發(fā)布)、Imagen(谷歌2022年5月發(fā)布)、Midjourney(2022年7月發(fā)布)、Stable Diffusion(2022年7月發(fā)布)等,讓人眼花繚亂。
2022年9月,由Midjourney創(chuàng)作生成的畫作《太空歌劇院》在科羅拉多州博覽會數(shù)字藝術(shù)創(chuàng)作類比賽中獲得一等獎并引發(fā)爭議,AI繪畫進(jìn)一步破圈,受到大眾關(guān)注。
AI繪畫是AI發(fā)展的里程碑級應(yīng)用,但沒過多久人們便發(fā)現(xiàn),AI繪畫只是“四個二”,真正的“王炸”在11月30日上線——ChatGPT。
去年12月,我們曾與ChatGPT做過一次對話。
從AI繪畫到ChatGPT,它們都屬于AI的一個分支——生成式AI(Generative AI),在國內(nèi)也被稱為AIGC(AI Generated Content)。
2022年9月,紅杉資本發(fā)布了一篇重磅文章——《生成式AI:一個創(chuàng)造性的新世界》(Generative AI: A Creative New World),首次提出生成式AI這一概念。
紅杉資本將生成式AI分為文本、代碼、圖片、語言、視頻、3D等數(shù)個應(yīng)用場景。紅杉資本認(rèn)為,生成式AI至少可以提高10%的效率或創(chuàng)造力,有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟(jì)價值。
憑借生成式AI的風(fēng)口,一些AI繪畫公司開始拿到巨額融資。2022年10月,Stable Diffusion模型背后的公司Stability AI宣布獲得1.01億美元種子輪,投后估值達(dá)10億美元;另一家AI內(nèi)容平臺Jasper亦宣布獲1.25億美元新融資,估值達(dá)17億美元。
據(jù)Leonis Capital統(tǒng)計,自2020年以來,VC對生成人工智能的投資增長了400%以上,2022年則達(dá)到驚人的21億美元。
在文章中,紅杉資本將AI分為“分析式AI”與“生成式AI”兩大類,分析式AI主要用在垃圾郵件檢測、預(yù)測發(fā)貨時間或者抖音視頻推薦中,也是過去幾年最常見、發(fā)展最快的AI類型。國內(nèi)的AI四小龍——商湯、曠視、云從、依圖皆屬于此類。
生成式AI則聚焦于知識工作與創(chuàng)造性工作,從社交媒體到游戲,從廣告到建筑,從編碼到平面設(shè)計,從產(chǎn)品設(shè)計到法律,從營銷到銷售。
在2015年之前,人工智能基本是小模型的天下。
過去的微軟小冰、蘋果Siri、智能音箱,以及各個平臺的客服機(jī)器人背后都是小模型,在其系統(tǒng)中包含若干Agent(知行主體,可以理解為執(zhí)行具體任務(wù)的程序),一個專門負(fù)責(zé)聊天對話、一個專門負(fù)責(zé)詩詞生成、一個專門負(fù)責(zé)代碼生成、一個專門負(fù)責(zé)營銷文案等等。
如果需要增加新功能,只需要訓(xùn)練一個新的Agent。如果用戶的問題超出了既有Agent的范圍,那么就會從人工智能變?yōu)槿斯ぶ钦稀?/p>
但是ChatGPT不再是這種模式,而是采用了“大模型+Prompting(提示詞)”。大模型可以理解為背后只有一個Agent來解決用戶所有的問題,因此更加接近AGI(通用人工智能)。
ChatGPT的出現(xiàn)不亞于在人工智能行業(yè)投下了一枚“核彈”。前微軟CEO比爾·蓋茨對ChatGPT評價為“不亞于互聯(lián)網(wǎng)誕生”,現(xiàn)微軟CEO薩提亞·納德拉將其盛贊為“堪比工業(yè)革命”。如今,有越來越多的公司開始將ChatGPT融入其產(chǎn)品中,或者推出類ChatGPT的產(chǎn)品。
對此,ChatGPT是如何做到的?
ChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯(lián)合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼(Sam Altman)等人出資10億美元創(chuàng)立。
OpenAI的誕生旨在開發(fā)通用人工智能(AGI)并造福人類。
當(dāng)時,谷歌才是人工智能領(lǐng)域的最強(qiáng)公司。2016年打敗人類圍棋冠軍的阿爾法狗背后的AI創(chuàng)企DeepMind,就是由谷歌收購。
這一年5月,谷歌CEO桑德·皮查伊(Sundar Pichai)宣布將公司策略從“移動為先”轉(zhuǎn)變成“人工智能為先”(AI First),并計劃在公司的每一個產(chǎn)品上都應(yīng)用機(jī)器學(xué)習(xí)算法。
OpenAI誕生的初衷,部分原因就是為了避免谷歌在人工智能領(lǐng)域形成壟斷。OpenAI起初是一個非營利組織,但在2019年成立OpenAI LP子公司,目標(biāo)是盈利和商業(yè)化,并引入了微軟的10億美元投資。前YC孵化器總裁阿爾特曼就是此時加入OpenAI擔(dān)任CEO。
ChatGPT名字中的GPT(Generative Pre-trained Transformer ,生成式預(yù)訓(xùn)練變換器),是OpenAI推出的深度學(xué)習(xí)模型。ChatGPT就是基于GPT-3.5版本的聊天機(jī)器人。
GPT的名字中包含了大名鼎鼎的Transformer,這是由谷歌大腦團(tuán)隊在2017年的論文《Attention is all you need》中首次提出的模型?,F(xiàn)在來看,這是人工智能發(fā)展的里程碑事件,它完全取代了以往的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和CNN(卷積神經(jīng)網(wǎng)絡(luò))結(jié)構(gòu),先后在NLP(自然語言處理)、CV(計算機(jī)視覺)領(lǐng)域取得了驚人的效果。
最初的Transformer模型有6500個可調(diào)參數(shù),是當(dāng)時最先進(jìn)的大語言模型(Large Language Model, LLM)。谷歌公開了模型架構(gòu),任何人都可以用其搭建類似架構(gòu)的模型,并結(jié)合自己手上的數(shù)據(jù)進(jìn)行訓(xùn)練。
特斯拉自動駕駛,預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold2模型,以及本文的主角OpenAI的GPT,都是在Transformer的基礎(chǔ)上構(gòu)建的。正如它的中文名字一樣——變形金剛。
Transformer出現(xiàn)之后,很多公司基于Transformer做NLP模型研究,其中OpenAI與谷歌就是最重要的兩家。
2018年,OpenAI推出了1.17億參數(shù)的GPT-1,谷歌推出了3億參數(shù)的BERT,雙方展開了一場NLP的較量。
GPT與BERT采用了不同的技術(shù)路線。簡單理解,BERT是一個雙向模型,可以聯(lián)系上下文進(jìn)行分析,更擅長“完形填空”;而GPT是一個單項模型,只能從左到右進(jìn)行閱讀,更擅長“寫作文”。
兩者的表現(xiàn)如何呢?發(fā)布更早的GPT-1贏了初代Transformer,但輸給了晚4個月發(fā)布的BERT,而且是完敗。在當(dāng)時的競賽排行榜上,閱讀理解領(lǐng)域已經(jīng)被BERT屠榜了。此后,BERT也成為了NLP領(lǐng)域最常用的模型。
但是這場AI競爭才剛剛開始。OpenAI既沒有認(rèn)輸,也非?!邦^鐵”。雖然GPT-1效果不如BERT,但OpenAI沒有改變策略,而是堅持走“大模型路線”。
在OpenAI眼中,未來的通用人工智能應(yīng)該長這個樣子:“有一個任務(wù)無關(guān)的超大型LLM,用來從海量數(shù)據(jù)中學(xué)習(xí)各種知識,這個LLM以生成一切的方式,來解決各種各樣的實際問題,而且它應(yīng)該能聽懂人類的命令,以便于人類使用?!?/p>
換句話說,就是大力出奇跡!
接下來的兩年(2019、2020年),在幾乎沒有改變模型架構(gòu)的基礎(chǔ)上,OpenAI陸續(xù)推出參數(shù)更大的迭代版本GPT-2、GPT-3,前者有15億參數(shù),后者有1750億參數(shù)。
GPT-2在性能上已經(jīng)超過BERT,到GPT-3又更進(jìn)一步,幾乎可以完成自然語言處理的絕大部分任務(wù) ,例如面向問題的搜索、閱讀理解、語義推斷、機(jī)器翻譯、文章生成和自動問答,甚至還可以依據(jù)任務(wù)描述自動生成代碼。
GPT-3大獲成功。OpenAI在早期測試結(jié)束后開始嘗試對GPT-3進(jìn)行商業(yè)化,付費用戶可以通過API使用該模型完成所需語言任務(wù),比如前文提到的AI繪畫獨角獸Jasper就是GPT-3的客戶。
值得一提的是,這個過程中谷歌也在不斷推出新的模型。但不同于OpenAI“從一而終”地堅持GPT路線,谷歌在BERT之后也推出了T5、Switch Transformer等模型,類似于賽馬機(jī)制。
此時距離ChatGPT的誕生還差一步。
在GPT-3發(fā)布之后,OpenAI研究人員在思考如何對模型進(jìn)行改進(jìn)。
他們發(fā)現(xiàn),要想讓GPT-3產(chǎn)出用戶想要的東西,必須引入“人類反饋強(qiáng)化學(xué)習(xí)機(jī)制”(RLHF),通過人工標(biāo)注對模型輸出結(jié)果打分建立獎勵模型,然后通過獎勵模型繼續(xù)循環(huán)迭代。
而聊天機(jī)器人就是引入強(qiáng)化學(xué)習(xí)的最佳方式,因為在聊天過程中,人類的對話就即時、持續(xù)地向模型反饋數(shù)據(jù),從而讓模型根據(jù)反饋結(jié)果進(jìn)行改進(jìn)。因為加入了人工標(biāo)注環(huán)節(jié),OpenAI為此雇傭了大約40位外包人員來與機(jī)器人對話。
通過這樣的訓(xùn)練,OpenAI獲得了更真實、更無害,并且更好地遵循用戶意圖的語言模型InstructGPT,在2022年3月發(fā)布,并同期開始構(gòu)建InstuctGPT的姊妹模型——ChatGPT。
根據(jù)《財富》雜志報道,當(dāng)ChatGPT準(zhǔn)備就緒后,OpenAI一開始并沒有想把它向公眾開放,而是先讓測試人員使用。
但根據(jù)OpenAI聯(lián)合創(chuàng)始人兼現(xiàn)任總裁Greg Brockman的說法,這些測試人員不清楚應(yīng)該與這個聊天機(jī)器人談?wù)撌裁?。后來,OpenAI試圖將ChatGPT轉(zhuǎn)向特定領(lǐng)域的專業(yè)人士,但缺乏專業(yè)領(lǐng)域的訓(xùn)練數(shù)據(jù)。
OpenAI最終不得不決定將ChatGPT向公眾開放。“我承認(rèn),我不知道這是否會奏效。” Brockman說。
在《紐約時報》的報道中,OpenAI發(fā)布ChatGPT還有另外一個理由:擔(dān)心對手公司可能會在GPT-4 前發(fā)布他們的人工智能聊天機(jī)器人,因此要搶先發(fā)布。
總之,在2022年11月30日這天,ChatGPT誕生了。
ChatGPT成為了史上躥紅最快的應(yīng)用。發(fā)布第五天,ChatGPT就積累了100萬用戶,這是Facebook花了10個月才達(dá)到的成績;發(fā)布兩個月,ChatGPT突破了1億用戶,對此TikTok用了大約九個月,Instagram用了兩年多。
ChatGPT的迅速傳播連OpenAI也猝不及防,OpenAI首席技術(shù)官Mira Murati說:“這絕對令人驚訝?!痹谂f金山VC活動上OpenAI CEO阿爾特曼說,他“本以為一切都會少一個數(shù)量級,少一個數(shù)量級的炒作”。
值得一提的是,OpenAI并非唯一的大模型聊天機(jī)器人。2021年5月,谷歌也發(fā)布了專注于生成對話的語言模型LaMDA,但直到現(xiàn)在谷歌仍未對外“交卷”。上周谷歌匆忙發(fā)布的用于對抗ChatGPT的聊天機(jī)器人Bard就由LaMDA支撐,但Bard的上線日期也未公布。
在這場OpenAI與谷歌持續(xù)數(shù)年的大模型競爭中,谷歌最終落了下風(fēng)。
但ChatGPT的成功,也讓OpenAI付出了代價,“燒錢”的代價。
過去幾年,大模型儼然成為了一場AI的軍備競賽。在2015年至2020年期間,用于訓(xùn)練大模型的計算量增加了6個數(shù)量級,在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類性能基準(zhǔn)。
OpenAI的成功讓人們見識到了大模型的威力,但是大模型的成功可能難以復(fù)制,因為太燒錢了。
OpenAI很早就意識到,科學(xué)研究要想取得突破,所需要消耗的計算資源每3~4個月就要翻一倍,資金也需要通過指數(shù)級增長獲得匹配。而且,AI人才的薪水也不便宜,OpenAI首席科學(xué)家Ilya Sutskever在實驗室的頭幾年,年薪為190萬美元。
OpenAI CEO阿爾特曼在2019年對《連線》雜志表示:“我們要成功完成任務(wù)所需的資金比我最初想象的要多得多。”
這也是OpenAI從非營利性組織成立商業(yè)化公司的原因。2019年7月,重組后的OpenAI獲得了微軟的10億美元投資,可借助微軟的Azure云服務(wù)平臺解決商業(yè)化問題,緩解高昂的成本壓力。
解決了糧草問題的OpenAI,開始全力訓(xùn)練大模型。
大模型背后離不開大數(shù)據(jù)、大算力。GPT-2用于訓(xùn)練的數(shù)據(jù)取自于Reddit上高贊的文章,數(shù)據(jù)集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經(jīng)網(wǎng)絡(luò)是在超過45TB的文本上進(jìn)行訓(xùn)練的,數(shù)據(jù)相當(dāng)于整個維基百科英文版的160倍。
在算力方面,GPT-3.5在微軟Azure AI超算基礎(chǔ)設(shè)施(由V100GPU組成的高帶寬集群)上進(jìn)行訓(xùn)練,總算力消耗約 3640PF-days(即每秒一千萬億次計算,運(yùn)行3640天)。
可以說,大模型的訓(xùn)練就是靠燒錢燒出來的。據(jù)估算,OpenAI的模型訓(xùn)練成本高達(dá)1200萬美元,GPT-3的單次訓(xùn)練成本高達(dá)460萬美元。
根據(jù)《財富》雜志報道的數(shù)據(jù),2022年OpenAI的收入為3000萬美元的收入,但凈虧損總額預(yù)計為5.445億美元。阿爾特曼在推特上回答馬斯克的問題時表示,在用戶與ChatGPT的每次交互中OpenAI花費的計算成本為“個位數(shù)美分”,隨著ChatGPT變得流行,每月的計算成本可能達(dá)到數(shù)百萬美元。
大模型高昂的訓(xùn)練成本讓普通創(chuàng)業(yè)公司難以為繼,因此參與者基本都是的科技巨頭。
在國內(nèi)科技公司中,阿里巴巴達(dá)摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,騰訊在2022年推出了混元AI大模型。
一個需要明確的事實是,雖然OpenAI的大模型取得了成功,但模型并非絕對意義上的越大越好,參數(shù)量也只是影響最終模型性能的因素之一。
GPT-3也不是參數(shù)最大的模型,比如,由英偉達(dá)和微軟開發(fā)的Megatron-Turing NLG模型,擁有超過5000億個參數(shù),但在性能方面并不是最好的,因為模型未經(jīng)充分的訓(xùn)練。
實際上,在特定場景下,較小的模型可以達(dá)到更高的性能水平,而且成本更低。
一位AI從業(yè)者告訴「甲子光年」:“現(xiàn)實就是,NLP公司做to B只能做小模型。得私有化,工程性能好,計算消耗少。甲方還希望你能部署在CPU上呢?!?/p>
關(guān)于大模型與小模型的關(guān)系,我們會在后面的文章中繼續(xù)討論。
以ChatGPT為代表的生成式AI正在引發(fā)新一輪AI軍備競賽,這個特別燒錢的新興市場,也讓背后的基礎(chǔ)設(shè)施廠商賺得盆滿缽滿。
著名風(fēng)投機(jī)構(gòu)A16Z將生成式AI市場分成了三層:
◆應(yīng)用層:將第三方API或自有模型集成到面向用戶的產(chǎn)品中,比如AI繪畫應(yīng)用Jasper、Midjourney;
◆模型層:為應(yīng)用層提供能力,比如閉源的GPT-3,或者開源的Stable diffusion;
◆基礎(chǔ)設(shè)施層:為生成人工智能模型運(yùn)行培訓(xùn)和推斷工作負(fù)載的云平臺和硬件制造商。
生成式AI的大量資金最終都穩(wěn)定地流向了基礎(chǔ)設(shè)施層——以亞馬遜AWS、微軟Azure、谷歌GCP為主的云廠商,以及以英偉達(dá)為代表的GPU廠商。
據(jù)A16Z估計,應(yīng)用層廠商將大約20%~40%的收入用于推理和模型微調(diào),這部分收入通常直接支付給云廠商或第三方模型提供商,第三方模型提供商也會將大約一半的收入用于云基礎(chǔ)設(shè)施。因此,總的來看生成式AI總收入的10%~20%都流向了云提供商。
微軟投資OpenAI就是一個很好的案例。
2019年微軟投資OpenAI 10億美元,其中大約一半以Azure云計算的代金券形式,成為OpenAI 技術(shù)商業(yè)化的“首選合作伙伴”,未來可獲得OpenAI 的技術(shù)成果的獨家授權(quán)。今年1月23日,微軟再次加碼,宣布向OpenAI追求數(shù)十億美元,來加速人工智能的突破。
根據(jù)《財富》雜志報道,在OpenAI的第一批投資者收回初始資本后,微軟將有權(quán)獲得OpenAI 75%的利潤直到收回投資成本;當(dāng)OpenAI賺取920億美元的利潤后,微軟的份額將降至49%。與此同時,其他風(fēng)險投資者和 OpenAI的員工也將有權(quán)獲得OpenAI 49%的利潤,直到他們賺取約1500億美元。如果達(dá)到這些上限,微軟和投資者的股份將歸還給OpenAI的非營利基金會。
本質(zhì)上,OpenAI是在把公司借給微軟,借多久取決于OpenAI賺錢的速度。微軟對OpenAI的投資更大的野心在于,希望在下一個人工智能的十年向谷歌以及其他科技巨頭發(fā)起挑戰(zhàn)。
在今年1月份的瑞士達(dá)沃斯論壇期間,微軟CEO納德拉表示,微軟將全線接入ChatGPT,計劃將ChatGPT、DALL-E等人工智能工具整合進(jìn)微軟旗下的所有產(chǎn)品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云服務(wù)、Teams聊天程序等等。
上周,新版Bing正式發(fā)布。納德拉霸氣表示:“比賽今天開始了,我們將繼續(xù)前進(jìn)并快速行動,希望在搜索領(lǐng)域再次獲得更多創(chuàng)新的樂趣?!?/p>
除了微軟之外,英偉達(dá)則是生成式AI幕后最大的贏家。
云廠商每年總共花費超過1000億美元的資本支出,來確保他們能夠擁有最全面、最可靠和最具成本競爭力的平臺,比如獲得英偉達(dá)最先進(jìn)、也是最稀缺的GPU——A100與H100。GPU成為了生成式AI發(fā)展上限“卡脖子”的一環(huán)。
英偉達(dá)過去一個月的股價漲幅甚至超過了微軟。
ChatGPT在科技圈引發(fā)的震動仍在持續(xù)。一個不可否認(rèn)的事實是,國內(nèi)的AI公司多少處于一種置身之外的感受。人們驚嘆于技術(shù)的進(jìn)步,也感慨于實力的差距。
對此,云知聲創(chuàng)始人黃偉如此評價:
接下來,國內(nèi)科技公司會如何接招呢?
關(guān)鍵詞: 機(jī)器學(xué)習(xí) openai 埃隆_馬斯克 人工智能技術(shù) deepmind