發(fā)布時間:2025-09-15 來源:兩敗俱傷網(wǎng)作者:思慕雪的具足蟲
在人工智能的討論中,“幻覺”一直是最受關注的問題之一。所謂幻覺,是指AI給出的回答聽起來合情合理,但實際上完全錯誤?,F(xiàn)行的大多數(shù)AI基準測試采用二元評分方式:答對得分,答錯或說“不知道”都不得分。結果就是,如果模型選擇承認不確定,它的表現(xiàn)看起來更差;相反,哪怕它編造答案,只要碰巧答對,就會被當作“更好”。這種機制無形中“獎勵”了自信的胡編亂造,卻讓誠實吃虧。
▲概念圖 據(jù)圖蟲創(chuàng)意
原因
“語言模型被優(yōu)化為擅長應試,
進行猜測會提高考試表現(xiàn)”
上周,ChatGPT的研發(fā)公司OpenAI發(fā)布了一項名為《語言模型產(chǎn)生幻覺的原因》的研究,首次系統(tǒng)地指出幻覺并非偶然,而是源于模型本身的結構性機制。研究進一步強調,問題的根源在于評估體系:它的機制就是在獎勵猜測,從而助長了幻覺的滋生。
研究解釋說,當“我不知道”只能得零分,而一個貌似合理的猜測卻有機會得到滿分時,模型的最優(yōu)策略就變成了盡量去猜。這些模型并不是被刻意編程去撒謊,而是因為“虛張聲勢”會在現(xiàn)有機制下獲得更高的分數(shù)。正如OpenAI所說:“幻覺之所以持續(xù)存在,是因為大多數(shù)評估的打分方式。語言模型被優(yōu)化為擅長應試,而在不確定時進行猜測會提高考試表現(xiàn)?!?/p>
▲學生考試(創(chuàng)意圖片,據(jù)圖蟲創(chuàng)意)
這就像學??荚?。如果你不知道答案,大概也會蒙一把,希望碰巧答對。這正是大型語言模型(LLMs)被訓練去做的事情。它們始終處于“考試模式”:沉默會被懲罰,而猜測則顯得聰明。OpenAI的研究人員總結說:“人類是在生活的磨練中學會了表達不確定性的價值,而語言模型卻主要通過那些懲罰不確定性的考試來接受評估?!睋Q句話說,我們一直在把AI訓練成“永遠的應試者”,它們被優(yōu)化的目標是考試成績,而不是可信度。
修正
調整評估標準
不能“不回答就懲罰”
OpenAI還公布了其模型的基準測試結果。最新的推理模型GPT-5 Thinking Mini的準確率為22%,略低于上一代o4-Mini模型的24%。不過,GPT-5 的棄答率(即回答“我不知道”)達到52%,錯誤率為26%;相比之下,o4-Mini的棄答率僅為1%,但錯誤率卻高達75%。o4-Mini更頻繁的猜測行為同時增加了正確和錯誤的回答。研究人員指出:“大多數(shù)評分體系按照準確率對模型進行排名,但錯誤比棄答的后果更嚴重?!?/p>
針對這一問題,OpenAI提出的解決方案不是從頭重建模型,而是調整評估標準。研究人員認為,“根本性的問題在于,大量評估方法之間缺乏一致性?,F(xiàn)有的主要評估方式必須進行調整,避免在模型不確定時懲罰其選擇不作答”。該公司在另一篇文章中補充說:“那些廣泛使用的、基于準確率的評估需要更新,它們的評分方式必須阻止模型去猜。如果常用的評測體系繼續(xù)獎勵僥幸的猜測,模型最終就會越來越依賴這種策略?!?/p>
這是一個細微卻關鍵的轉變。多年來,行業(yè)一直在競相讓聊天機器人更快、更聰明、更流暢,但這些特質并不等于值得信賴。真正的挑戰(zhàn)在于,如何打造能夠在知識與謙遜之間找到平衡的系統(tǒng)。通過調整評估方式,OpenAI希望訓練出更少依賴“裝懂混過去”的模型,而是能夠給出更穩(wěn)健、可信回應的模型。畢竟,當用戶向AI尋求醫(yī)療建議或理財指導時,最不希望的就是聽到一個聽起來無比自信卻完全虛構的答案。而在一個常被指責為“過度炒作”和“半真半假”的行業(yè)里,這種對減少虛張聲勢的呼吁,或許才是迄今為止最激進的想法。
紅星新聞記者 王雅林 實習記者 楊詩柔
編輯 鄧旆光