格雷格·布羅克曼在筆記本上潦草手繪了一張“笑話網(wǎng)站”的網(wǎng)頁設(shè)計,拍照后發(fā)送給GPT-4模型,僅過幾秒鐘,GPT-4便生成一段代碼,一個頁面簡單的網(wǎng)站隨后亮相,和草圖結(jié)構(gòu)完全相同——兩行笑話,以及點擊后可以顯示笑點的互動按鈕。
上圖是OpenAI 總裁格布羅克曼手繪的網(wǎng)頁設(shè)計,下圖是GPT-4生成的代碼及其轉(zhuǎn)成的網(wǎng)頁 圖/OpenAI關(guān)于GPT-4 的開發(fā)者直播視頻截圖
不用懂編程語言就能創(chuàng)建網(wǎng)頁,讓一些人感慨“前端程序員要失業(yè)”。這一場景發(fā)生在北京時間3月15日凌晨,OpenAI正式推出新一代語言模型GPT-4,該公司總裁格布羅克曼在面向開發(fā)者的直播中,演示了新模型的諸多應(yīng)用,還包括描述圖片內(nèi)容、模擬公民納稅等。
【資料圖】
OpenAI宣稱,GPT-4雖然在諸多現(xiàn)實世界場景中不如人類,但在一些為人類設(shè)計的標(biāo)準(zhǔn)考試,以及為機器學(xué)習(xí)模型設(shè)計的基準(zhǔn)評估中,表現(xiàn)出了人類水平。
OpenAI 推出的GPT-4 圖/視覺中國
從聊天到“看圖說話”
“安德魯在上午11點到下午3點有空,喬安妮中午12點到下午2點、下午3點半到5點有空,漢娜中午12點到12點半、下午4點到6點有空。他們?nèi)水?dāng)天將進行一場30分鐘的會議,開始時間有哪些選擇?”
將這一問題發(fā)給ChatGPT,它建議會議安排在下午4點。答案是錯誤的,不懂推理、做不好簡單的算術(shù)題,這也是過去一段時間以來ChatGPT最受使用者詬病的問題之一。GPT-4給出了正確答案:中午12點。在OpenAI的測試中,GPT-4的推理能力得到提升,也更難被欺騙。
用戶可以通過ChatGPT的付費版本率先體驗GPT-4的對話功能。如果僅是漫談,一些使用者發(fā)現(xiàn),兩者區(qū)別不大。但OpenAI表示,當(dāng)任務(wù)的復(fù)雜性達到足夠閾值時,差異就會出現(xiàn)——GPT-4比上一代“更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令”。
OpenAI在一些為人類設(shè)計的標(biāo)準(zhǔn)考試中進行實驗,GPT-4的考試能力明顯高于此前發(fā)布的GPT-3.5。兩個月前,網(wǎng)友們還在感慨ChatGPT可以通過美國大學(xué)入學(xué)考試SAT,但如今,GPT-4的成績優(yōu)異到能沖刺名校,比如SAT數(shù)學(xué)拿到700分,超過約9成的應(yīng)試者。
模擬律師考試中,GPT-4分?jǐn)?shù)也排在10%前后,GPT-3.5表現(xiàn)則在倒數(shù)10%。但GPT-4有些“偏科”,美國大學(xué)先修課程(AP)考試中,GPT-4在理化生、歷史、經(jīng)濟學(xué)甚至心理學(xué)科目中拿到滿分5分,但在英語語言與寫作中,卻只拿到2分。
GPT-4和GPT-3.5在一些人類標(biāo)準(zhǔn)化考試中的表現(xiàn) 圖/OpenAI官網(wǎng)
無論是Siri、小冰還是此前發(fā)布的GPT-3.5模型,人們熟知的對話機器人多是固定的語言風(fēng)格。OpenAI開發(fā)者提升了GPT-4的“可操縱性”,即事前通過詳細(xì)描述,給人工智能規(guī)定一個明確的“角色”或場景。比如開發(fā)者告訴GPT-4是一名“以蘇格拉底風(fēng)格回應(yīng)的導(dǎo)師”,從不給學(xué)生確定答案,而是將問題拆分更簡單部分,幫助學(xué)生獨立思考。在這一模式下,GPT-4通過循循善誘,能幫助使用者解出一個二元一次方程組。
此外,此前ChatGPT與用戶交流時,只能處理8000多個單詞,這相當(dāng)于約四五頁英文書的文字?jǐn)?shù)。GPT-4做了提升,記憶儲存由上一代4096個tokens(服務(wù)端生成的字符串)擴大到32700多個,可以處理25000個單詞。這意味著,這一語言模型有更強的上下文理解能力,可以記住用戶更長的表達,或者處理更長的文章。
但這些只是對ChatGPT所用模型的優(yōu)化,GPT-4最大的突破在于,不再只是文字對話,而是一個多模態(tài)模型,可以輸入圖像,生成說明和分析文本。布羅克曼在演示中輸入一張松鼠拍照圖,并詢問其有趣之處是什么。GPT-4描述了圖片內(nèi)容,準(zhǔn)確地指出邏輯的反差感,“松鼠通常只吃堅果,我們并沒料到它會用相機或表現(xiàn)得像人類”。GPT-4還可以通過一張包含雞蛋、牛奶、面粉、黃油的照片,告訴你可以做出哪些食物。不過,目前圖像輸入功能仍處在調(diào)試環(huán)節(jié),尚未在ChatGPT付費版和候補API(應(yīng)用編程接口)中應(yīng)用。
實際上,過去近十年,國內(nèi)外已有科研機構(gòu)和AI公司研發(fā)和應(yīng)用過視覺問題問答(VQA)?!暗珡哪壳癘penAI發(fā)布的信息看,GPT-4是第一次將VQA的看圖對話功能做到了大規(guī)模應(yīng)用?!鼻迦A大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清對《中國新聞周刊》說。不過他強調(diào),實際的讀圖能力如何,目前還沒有更多評測,需要更多應(yīng)用才能判斷。
OpenAI創(chuàng)始人薩姆·阿爾特曼介紹,GPT-4“比以前的模型更有創(chuàng)意,幻覺明顯減少,偏見也更少”,被公司稱為“OpenAI迄今為止功能最強大的模型”。
盡管如此,GPT-4仍與早期GPT模型具有相似的局限性。最重要的是,它還是會“幻想事實”,并一本正經(jīng)地胡說八道。
聶再清解釋,ChatGPT,也包括最新的GPT-4是開放域?qū)υ捪到y(tǒng),一些提問會超出事實范疇,如果讓它強行答復(fù),就會出現(xiàn)失控狀況。所以在技術(shù)上,更關(guān)鍵的是要不斷調(diào)試參數(shù),讓模型掌握“知之為知之,不知為不知”的能力,這也是未來大模型迭代必須要解決的問題。
OpenAI表示,GPT-4在迭代中已盡量減少這種幻覺,表現(xiàn)要比GPT3.5優(yōu)異40%。但OpenAI提醒,使用模型時,對結(jié)果仍要“格外小心”。此外,該公司開源了用于自動評估AI模型性能的框架,允許任何人報告模型中的缺點,以幫助指導(dǎo)模型進一步改進。
更少技術(shù)披露,更多商業(yè)應(yīng)用
“史上最強”的GPT-4是如何誕生的?
早在2022年8月,GPT-4的模型已被訓(xùn)練完成,開發(fā)者經(jīng)過6個月的調(diào)試后進行了迭代。早期GPT-4會有更多倫理問題,比如問它“如何制造導(dǎo)彈”,用戶會得到一些可能的步驟和注意事項,此前發(fā)布的ChatGPT也出現(xiàn)過類似漏洞。過去3個月,全球上億用戶使用ChatGPT的數(shù)據(jù)也被用于改進GPT-4的行為,此外,研究者納入了更多人工反饋,改善模型的安全性。
“但從目前公開的報告和網(wǎng)頁信息看,只有指標(biāo)和使用理念的變化,GPT-4的模型規(guī)模、如何被訓(xùn)練等,都沒有太多技術(shù)細(xì)節(jié)的披露?!庇ミ_的工程師王帥告訴《中國新聞周刊》,他在AI領(lǐng)域從業(yè)20多年。
大模型的原理,某種意義上可以理解為“大力出奇跡”,把大量數(shù)據(jù)輸入大黑盒子中得出更多可能性。《紐約時報》3月15日的相關(guān)報道寫到,OpenAI的GPT-4學(xué)習(xí)的數(shù)據(jù)規(guī)模要比GPT3.5大得多,但OpenAI高管拒絕透露更多數(shù)據(jù)信息,總裁布羅克曼只表示,數(shù)據(jù)集是“互聯(lián)網(wǎng)規(guī)?!钡?。
王帥注意到,早期,OpenAI更愿意公開技術(shù)信息,比如驗證了一個新想法會迅速發(fā)論文,讓同行信服。2020年OpenAI推出GPT-3時,曾公布模型參數(shù)為1750億,遠(yuǎn)超其他模型十倍以上,震驚國內(nèi)外科技圈。但近一兩年,OpenAI更多是公開一些宣傳稿,“能看出有意在隱藏一些技術(shù)信息”。有關(guān)GPT-4的關(guān)鍵數(shù)據(jù),只提到上述有關(guān)上下文參數(shù)的token信息。
3月15日的發(fā)布會上,OpenAI呈現(xiàn)更多的是GPT-4的實用功能和應(yīng)用場景。比如,語言學(xué)習(xí)網(wǎng)站“多鄰國”使用GPT-4提升軟件的對話能力,摩根士丹利利用GPT-4,改變其管理人員查找相關(guān)信息的方式。丹麥一家?guī)椭と撕鸵暳Φ拖氯耸孔R別物體的App公司“Be My Eyes”也正與OpenAI合作,借助最新的圖片輸入功能,開發(fā)由GPT-4驅(qū)動的新應(yīng)用。
丹麥這家公司的首席技術(shù)官提到,該模型優(yōu)勢在于,此前一些圖片識別應(yīng)用只能告訴你眼前的物體什么,但通過GPT-4的分析能力,在未來可以試圖告訴使用者,眼前東西的性質(zhì),比如“地上不僅是一個球, 而是一個會被絆倒的危險信號”。
OpenAI在公開信息上的微妙變化,釋放出加快商業(yè)化的信號。過去一段時間,OpenAI通過ChatGPT向全世界證明大規(guī)模這一路徑能夠走通,谷歌、微軟、阿里等大公司開始傾注更多資源在這一領(lǐng)域?!斑@一變化是巨大的,而且不大可逆?!甭櫾偾逭f。
王帥分析,OpenAI更關(guān)注商業(yè)應(yīng)用,一方面,OpenAI可能認(rèn)為,作為技術(shù)研發(fā)者,有責(zé)任推廣這一最前沿的技術(shù),希望保持自己的競爭優(yōu)勢。另外,推廣應(yīng)用,“不僅為了盈利或者融資”,更希望能采集到更多數(shù)據(jù)。
ChatGPT得到的海量數(shù)據(jù)具有極大價值,是之后技術(shù)迭代的先決條件,“這是OpenAI與其他公司競爭的’法寶’,幾乎是其他公司難以匹敵的優(yōu)勢?!蓖鯉泴Α吨袊侣勚芸氛f。
但模型不可避免地輸出錯誤信息,是否會制約商業(yè)應(yīng)用?實際上,GPT-3推出時,不少國外初創(chuàng)公司運用該模型進行創(chuàng)新性應(yīng)用。去年,摩根士丹利已經(jīng)在系統(tǒng)內(nèi)使用了GPT-3。在王帥看來,恰恰是因為大家知道大模型的問題,對它的預(yù)期會更清晰,也會想辦法降低出錯的概率,但這并不是導(dǎo)致其商業(yè)化無法推進的根本性問題。
多位專家提到,GPT-4的確在技術(shù)上有顯著的突破,在業(yè)內(nèi)無可置疑,而且讓更多人意識到AI的能力,但快速商業(yè)化的關(guān)鍵是,找到更多應(yīng)用場景。“目前是一個百花齊放的狀態(tài)。如果一項技術(shù)使用的范圍不夠大,就不會對社會產(chǎn)生巨大的影響?!?/p>
GPT-4推出后,不少人在網(wǎng)絡(luò)上感慨,“在這場AI風(fēng)暴中,人類何以生存?”多位受訪者坦言,人工智能的發(fā)展的確會導(dǎo)致一些崗位消失,但它從一個新技術(shù)誕生到真正顛覆人類生活,還有很長一段路要走。
(應(yīng)受訪者要求,王帥為化名)
作者:楊智杰
關(guān)鍵詞:
推薦閱讀