OpenAI罕見發(fā)論文：我們找到了AI幻覺的罪魁禍?zhǔn)?/h1>

2025年9月09日 23:40

AI最臭名昭著的Bug是什么？不是代碼崩潰，而是「幻覺」——模型自信地編造事實(shí)，讓你真假難辨。這個(gè)根本性挑戰(zhàn)，是阻礙我們完全信任AI的關(guān)鍵障礙。

大模型會有幻覺，這幾乎已經(jīng)成為一個(gè)常識，讓每一個(gè)嚴(yán)肅使用大模型的人都不得不謹(jǐn)慎小心。OpenAI也指出：「ChatGPT也會產(chǎn)生幻覺。GPT-5的幻覺明顯更少，尤其是在執(zhí)行推理時(shí)，但幻覺仍然會發(fā)生?；糜X仍然是所有大型語言模型面臨的一大根本挑戰(zhàn)?！?/p>

盡管現(xiàn)在學(xué)術(shù)界已經(jīng)提出了各種各樣用來降低模型幻覺的方法，但目前尚未出現(xiàn)能徹底「根治」模型幻覺的良方。

那么，大模型究竟為什么會出現(xiàn)幻覺呢？今天，OpenAI罕見發(fā)表論文，系統(tǒng)性地揭示了幻覺的根源。

首先，定義幻覺。OpenAI給出的簡單定義是：「模型自信地生成不真實(shí)答案的情況。」

至于原因，簡單來說就是：標(biāo)準(zhǔn)的訓(xùn)練和評估程序更傾向于對猜測進(jìn)行獎勵，而不是在模型勇于承認(rèn)不確定時(shí)給予獎勵。

當(dāng)詢問他的生日時(shí)，它給出了三個(gè)不同的日期，同樣都是錯(cuò)誤的。

在準(zhǔn)確度方面，更早期的OpenAIo4-mini模型表現(xiàn)略好。然而，其錯(cuò)誤率（即幻覺率）明顯較高。在不確定的情況下進(jìn)行策略性猜測可以提高準(zhǔn)確度，但也會增加錯(cuò)誤和幻覺。

在對數(shù)十次評估的結(jié)果進(jìn)行平均時(shí)，大多數(shù)基準(zhǔn)測試都會剔除準(zhǔn)確度指標(biāo)，但這會導(dǎo)致對錯(cuò)之間的錯(cuò)誤二分法。

日韩在线一区二区三区_国产午夜福利短视频_av综合在线观看_国产夜夜操_国产一区二区观看_国产精品人人爽人人爽av_无码人妻啪啪一区二区_国产av麻豆天堂亚洲国产av刚刚碰_免费国产污网站在线观看_久色网址