(資料圖)
6月1日消息,在不久前,ChatGPT在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例,導致涉案的紐約律師可能面臨制裁,這一情況再次引起了大眾對于AI“說謊”的擔憂。
最對這一情況,ChatGPT的開發(fā)商OpenAI近日發(fā)布了一篇研究論文,闡述了一種解決AI“胡編亂造”問題的方法。
這種方法會在AI模型推理出答案的每個正確步驟上給予自我獎勵,而不僅僅是等到推理出正確的最終結論時才給予獎勵。
研究人員表示,這種方法被稱為“過程監(jiān)督”,與之相反的是“結果監(jiān)督”,這可能會訓練出更好的可解釋AI,因為這種策略鼓勵模型按照更類似人類的“思考”方式進行推理。
關鍵詞: