機(jī)器之心報道
(資料圖片僅供參考)
機(jī)器之心編輯部
連三位數(shù)的混合運(yùn)算都算不明白,ChatGPT 對數(shù)學(xué)家來說有用嗎?
ChatGPT 不擅長數(shù)學(xué),這是大家剛開始測試時就發(fā)現(xiàn)的問題。比如你問它一個「雞兔同籠」問題,它可能寫出一個看上去非常有條理的解題過程,但仔細(xì)一看,答案卻是錯的。
為了解決這個問題,OpenAI 也做了一些優(yōu)化,并在今年 1 月末宣布 ChatGPT 數(shù)學(xué)能力升級。但從測試的結(jié)果來看,這次升級效果并不明顯。
但這么一個連三位數(shù)混合運(yùn)算都算不明白的工具卻吸引了著名數(shù)學(xué)家陶哲軒的注意。最近一段時間,他似乎一直在探索 ChatGPT 能幫數(shù)學(xué)研究者做些什么。
通常來講,如果你經(jīng)常閱讀數(shù)學(xué)文本,你會很容易找到一些線索,這些線索可以幫你評估某個特定論證部分的有效性、深度和重要性。這會加快你的閱讀速度,讓你可以迅速分離出論文的「肉」。陶哲軒總結(jié)說。
但 AI 生成的數(shù)學(xué)文本給了他截然不同的閱讀體驗(yàn):文本乍一看很有說服力,但只有慢慢地逐行閱讀才能發(fā)現(xiàn)其中的缺陷。
在一次測試中,它向 ChatGPT 提了一個數(shù)學(xué)問題。乍一看,答案驚人地準(zhǔn)確,因?yàn)樗岬搅艘粋€高度相關(guān)的術(shù)語,還討論了一個例子,這在一個有意義的答案中是非常典型的。但其實(shí),ChatGPT 給出的答案并不完全正確:公式是對的,但不是有用的定義,例子也是錯的。
在另一個關(guān)于「素數(shù)是否無窮多」的證明問題中,ChatGPT 給出的答案也并不完全正確。
雖然測試結(jié)果不太令人滿意,但陶哲軒并沒有對 ChatGPT 持完全否定的態(tài)度。他認(rèn)為,像 ChatGPT 這類大型語言模型在數(shù)學(xué)中可以用來做一些半成品的語義搜索工作,也就是用它來生成一些提示。
比如在下面這個例子中,陶哲軒提出的問題是:「我在尋找一個關(guān)于 xx 的公式。我想這是一個經(jīng)典的定理,但我不記得名字了。你有什么印象嗎?」在這輪問答中,雖然 ChatGPT 沒能給出正確答案(庫默爾定理),但根據(jù)它給出的近似答案(Legendre 公式),我們可以結(jié)合傳統(tǒng)搜索引擎輕松找到正確答案。
從這些測試中,我們可以看到 ChatGPT 這類 AI 工具與傳統(tǒng)計算機(jī)軟件的區(qū)別。
傳統(tǒng)的計算機(jī)軟件類似于函數(shù):→:給定域中的輸入,它可靠地返回范圍中的單個輸出(),該輸出以確定的方式依賴于。但如果給定域外的輸入(比如大括號用錯,或者出現(xiàn)其他格式問題),則軟件會出現(xiàn)無法定義的情況,或給出無意義的內(nèi)容。
相比之下,AI 工具類似于概率 kernel μ:→Pr (),而不是經(jīng)典函數(shù)。輸入,它們會給出一個從概率分布 μ_?采樣的隨機(jī)輸出。這個概率分布在() 的完美結(jié)果附近,但帶有一些隨機(jī)偏差和不準(zhǔn)確性。但優(yōu)勢在于,這些工具可以比傳統(tǒng)的軟件工具更優(yōu)雅地處理嘈雜或格式不那么規(guī)范的輸入。
因此,想用 ChatGPT 輔助自己做研究的數(shù)學(xué)研究者務(wù)必要習(xí)慣這種差異。
當(dāng)然,在數(shù)學(xué)方向上,ChatGPT 當(dāng)前的狀態(tài)可能不會持續(xù)太久。
前段時間,計算機(jī)科學(xué)家、Wolfram 語言之父 Stephen Wolfram 提出了一個想法:將 ChatGPT 與自己的 Wolfram | Alpha 知識引擎結(jié)合起來用,因?yàn)楹笳弑揪途哂袕?qiáng)大的結(jié)構(gòu)化計算能力,而且也能理解自然語言。
Meta 在 2 月份發(fā)布的一篇論文也支持這種做法。他們提出了一種名為 Toolformer 的新方法,使得語言模型學(xué)會「使用」各種外部工具,如搜索引擎、計算器或日歷(參見《語言模型自己學(xué)會用搜索引擎了?Meta AI 提出 API 調(diào)用自監(jiān)督學(xué)習(xí)方法 Toolformer》)。
在未來幾年,如何補(bǔ)齊 ChatGPT 的各項(xiàng)短板將成為非常熱門的方向。
參考鏈接:https://mathstodon.xyz/@tao