(資料圖)
6月1日消息,在不久前,ChatGPT在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例,導(dǎo)致涉案的紐約律師可能面臨制裁,這一情況再次引起了大眾對于AI“說謊”的擔(dān)憂。
最對這一情況,ChatGPT的開發(fā)商OpenAI近日發(fā)布了一篇研究論文,闡述了一種解決AI“胡編亂造”問題的方法。
這種方法會在AI模型推理出答案的每個正確步驟上給予自我獎勵,而不僅僅是等到推理出正確的最終結(jié)論時才給予獎勵。
研究人員表示,這種方法被稱為“過程監(jiān)督”,與之相反的是“結(jié)果監(jiān)督”,這可能會訓(xùn)練出更好的可解釋AI,因為這種策略鼓勵模型按照更類似人類的“思考”方式進(jìn)行推理。
關(guān)鍵詞: