小心,AI开始胡说八道

admin 2个月前 阅读:11 评论:0
2025年2月,如果不是长期从事(shì)人口研究的(de)中国人民大学教授李(lǐ)婷的(de)公开辟谣,很多人都真诚地相信了一组数据——“中国80后累计死亡率为5.20%”。 在(zài)社交媒体上,许多“80后”都曾因这组数据扼腕叹...

小心,AI开始胡说八道

2025年2月,如果不是长期从事(shì)人口研究的(de)中国人民大学教授李(lǐ)婷的(de)公开辟谣,很多人都真诚地相信了一组数据——“中国80后累计死亡率为5.20%”。

在(zài)社交媒体上,许多“80后”都曾因这组数据扼腕叹息(xī)。“截(jié)至2024年末,80后的(de)死亡率已经超过70后,相当于每20個(gè)80后中,就有1人已经去世。”自(zì)媒体传播道。

这一说法(fǎ)很快(kuài)露馅。李(lǐ)婷教授在(zài)受访时表示:“(死亡率5.2%)错误非常明显,因为专业统计数据中死亡率会用千分率表示,而不是百分率。”她指出,国家统计局并未公布2024年的(de)死亡率,也不会根据“80后”、“90后”等分段公布死亡人数,因此这一说法(fǎ)毫無(wú)数据支撑。

小心,AI开始胡说八道

虚假的(de)死亡率数据从何而来?李(lǐ)婷认为:很有可(kě)能来源于AI大模(mó)型出错。她曾尝试在(zài)AI大模(mó)型中输入問(wèn)题:“50后、60后、70后、80后,这几代人的(de)死亡率分别是多少”,大模(mó)型表示:“根据网络信息(xī),80后现存2.12亿,存活率94.8%,死亡率5.2%。”

AI無(wú)中生(shēng)有的(de)能力(lì)让人心颤。在(zài)AI业界,这類(lèi)“胡说八道”的(de)本领被称为“幻觉(hallucination)”,意思是,AI也像人产生(shēng)心理幻觉一样,在(zài)遇到自(zì)己(jǐ)不熟悉、不在(zài)知识范围的(de)問(wèn)题时,编造难以辨明真假的(de)细节,生(shēng)成与事(shì)实相悖的(de)答案。

展开全文(wén)

此事(shì)件中,让人畏惧的(de)是由技术蔓延出的(de)不可(kě)控。新浪新技术研发负责人张俊林告诉南风窗,随着各個(gè)领域都在(zài)加强对AI的(de)接入,AI幻觉成为了现阶段需要(yào)重视的(de)問(wèn)题。但(dàn)遗憾的(de)是,业界还没找到根除AI幻觉的(de)办法(fǎ)。

清华大学长聘副教授陈天昊也在(zài)受访时提(tí)到,对于学生(shēng)等特殊人群来说,大模(mó)型幻觉問(wèn)题带来的(de)风险性可(kě)能更(gèng)大。“比如,小(xiǎo)学生(shēng)可(kě)能和家长一起使用大模(mó)型学习知识,但(dàn)大模(mó)型产生(shēng)的(de)幻觉可(kě)能会产生(shēng)误导。在(zài)自(zì)身(shēn)缺乏辨别能力(lì)的(de)情况下,可(kě)能难以判断信息(xī)的(de)真假。”

2025年,人人都开始用AI,而AI还在(zài)持续发挥想(xiǎng)象力(lì),用幻觉与假信息(xī)误导更(gèng)多人。现在(zài)是时候一起面对AI这個(gè)巨大的(de)Bug(漏洞)了。

过度(dù)自(zì)信

“想(xiǎng)和大家说一件最近让我忧虑的(de)事(shì),是关于AI幻觉强度(dù)的(de)。”2月,知名科普作家河森堡在(zài)微博中表示。

他在(zài)近日使用ChatGPT,让它介绍文(wén)物“青铜利簋”。结果,ChatGPT将这件西周文(wén)物的(de)来历,编造成了商王帝乙祭祀父亲帝丁所铸。AI此后还标明了自(zì)己(jǐ)的(de)文(wén)献来源,源自(zì)《殷墟发掘报告》《商代青铜器铭文(wén)研究》等。

“看着是那么回事(shì),其实又在(zài)胡扯,”河森堡发现,“前一篇文(wén)献的(de)作者(zhě)是中国社会科学院考古研究所,AI说是中山大学考古学系,后一篇文(wén)献的(de)作者(zhě)是严志斌,AI说是李(lǐ)学勤……”

错漏百出的(de)生(shēng)成信息(xī)还不算什么,可(kě)怕的(de)是,AI还会自(zì)我“包裝(zhuāng)”,编造信息(xī)来源,让人误以为内容十分专业且可(kě)信度(dù)高。

在(zài)豆瓣,陀思妥耶夫斯基的(de)书迷,在(zài)使用AI的(de)“联网搜索”功能时,发现其不懂裝(zhuāng)懂、捏造细节。

例如,有书迷問(wèn)AI,“陀思妥耶夫斯基的(de)哪部小(xiǎo)说引用了涅克拉索夫的(de)诗歌?”在(zài)引用了11個(gè)参考网页后,AI生(shēng)成了大段的(de)、看似专业的(de)答案,论证了两者(zhě)是好(hǎo)友,作品之间存在(zài)相互影响的(de)关系。结论是,“陀并未在(zài)其小(xiǎo)说中直接引用涅克拉索夫的(de)诗。”

小心,AI开始胡说八道

而事(shì)实上,熟悉陀思妥耶夫斯基的(de)书迷很快(kuài)想(xiǎng)到,在(zài)《地下室手记》第二章开头,他引用诗歌:“当我用热情的(de)规劝/从迷雾的(de)黑暗中/救出一個(gè)堕落的(de)灵魂,你满怀深沉的(de)痛苦/痛心疾首地咒骂/那缠绕着你的(de)秽行。”这正是涅克拉索夫的(de)诗。

张俊林告诉南风窗,AI大模(mó)型非常容易“过度(dù)自(zì)信”。但(dàn)目前,AI生(shēng)成答案的(de)过程仍像一個(gè)黑箱,AI业界也不完全清楚AI的(de)自(zì)信从何而来。总之,在(zài)面对自(zì)己(jǐ)不懂的(de)专业問(wèn)题时,极少有AI会直接回答“不知道”;它们宁愿自(zì)信地、流畅地生(shēng)成一些不准确的(de)内容。

“DeepSeek幻觉有点太严重了,我受不了了。”法(fǎ)学硕士生(shēng)小(xiǎo)昭2月在(zài)写论文(wén)时感叹。她对南风窗承认,平时学习和写论文(wén)时,自(zì)己(jǐ)已经离不开DeepSeek、豆包、Kimi等AI工具。“因为(不用的(de)话)我更(gèng)写不出来。”

但(dàn)是小(xiǎo)昭逐渐发现,AI生(shēng)成的(de)内容,有很多是错误的(de)。一個(gè)重灾区是关于“深度(dù)伪造”的(de)法(fǎ)律問(wèn)题,她发现AI会生(shēng)成虚假的(de)法(fǎ)律条例和案例。

此外,她在(zài)用AI准备公务员面试时,AI很喜欢给她引用一些过于具体的(de)数据,“很多数据很明显是保密数据,一看就是AI编造的(de)。”

AI生(shēng)成的(de)内容看上去“过于专业”,小(xiǎo)昭说,这时反而是“唬人的(de)”,“内容根本没法(fǎ)用”。

一次,在(zài)写AI深度(dù)伪造法(fǎ)律论文(wén)时,DeepSeek告诉她,不同年龄段法(fǎ)官对技术行为的(de)评价呈现显著差异。它因此生(shēng)成了一张表格,把30岁以下、30-50岁、50岁以上的(de)法(fǎ)官对待技术的(de)裁判倾向分列其中。

最后,它甚至写道,代际的(de)差异在(zài)合议庭评议中会引发新的(de)冲突。2023年,我国某中级法(fǎ)院在(zài)一次审理深度(dù)伪造案件中,“80后”和“60后”法(fǎ)官曾出现了激烈争论。

小心,AI开始胡说八道

但(dàn)经过调查和搜索,小(xiǎo)昭发现,上述内容也全部是AI编造的(de)。面对AI,即使她此后给出了“减少对虚假案例的(de)引用,扩写分析部分”的(de)指令,AI仍止不住地出现幻觉,生(shēng)成虚假信息(xī)。

于是,在(zài)高频使用豆包、DeepSeek,以及OpenAI的(de)o1等AI工具后,小(xiǎo)昭的(de)发现是,豆包的(de)幻觉問(wèn)题不算明显,语言相对平实;OpenAI的(de)o1对中国国情不够熟悉,“国内素材没有那么充足”。而DeepSeek是其中最好(hǎo)用的(de)工具,语言专业又生(shēng)动,但(dàn)DeepSeek编造细节的(de)情况却是最严重的(de)。

“以至于每次看到DeepSeek引用的(de),我都要(yào)重新检索,确认下真实性。”小(xiǎo)昭说。

“张冠李(lǐ)戴”的(de)天性

小(xiǎo)昭等“AI原住民”的(de)感受并不虚妄。在(zài)Github上一個(gè)名为Vectara大模(mó)型幻觉测试排(pái)行榜中,2025年1月发布的(de)DeepSeek R1,幻觉率高达14.3%。这一数字远高于国际先(xiān)进大模(mó)型,例如,OpenAI的(de)GPT-4o幻觉率为1.5%,马斯克的(de)Grok幻觉率为4.6%。

小心,AI开始胡说八道

Vectara大模(mó)型幻觉测试排(pái)行榜(截(jié)至2025年2月28日)

为何DeepSeek的(de)幻觉率这么高?一個(gè)最直接的(de)原因是,张俊林说,DeepSeek生(shēng)成的(de)内容比一般的(de)AI应用更(gèng)长。AI生(shēng)成的(de)内容越多、文(wén)本越长,出错以及胡编乱造的(de)可(kě)能性随之更(gèng)大。

另一個(gè)可(kě)能性在(zài)于,DeepSeek在(zài)生(shēng)成答案时展现出了很强的(de)创造性,这与强调信息(xī)精确、降低幻觉率的(de)要(yào)求天然地相悖。张俊林提(tí)到,AI大模(mó)型有一個(gè)“温度(dù)系数”(Temperature),指的(de)是控制生(shēng)成内容随机性和多样性的(de)参数。

一般而言,高温度(dù)系数(如1.0或更(gèng)高)的(de)模(mó)型,生(shēng)成内容随机性更(gèng)高,可(kě)能会出现更(gèng)多新颖或意想(xiǎng)不到的(de)结果。代价便是,其更(gèng)容易出错、胡说八道。相反,低温度(dù)系数的(de)模(mó)型,生(shēng)成内容更(gèng)接近训练数据中的(de)模(mó)式,结果更(gèng)稳定,但(dàn)缺乏多样性。

幻觉率的(de)高低,关系到我们到底想(xiǎng)要(yào)什么样的(de)AI——究竟是更(gèng)能给予人灵感的(de),还是逻辑严密的(de)。而在(zài)业界,一個(gè)共识是,無(wú)论想(xiǎng)要(yào)什么样的(de)AI,幻觉問(wèn)题仍非常难消除。

小心,AI开始胡说八道

豆包AI制图,关键词:匹诺曹机器人

清华大学团队在(zài)2025年2月发布《DeepSeek与AI幻觉》报告,将AI幻觉分为两類(lèi),一類(lèi)是事(shì)实性幻觉,指生(shēng)成的(de)内容与可(kě)验证的(de)现实世界事(shì)实不一致。例如,模(mó)型错误地回答“糖尿病患者(zhě)可(kě)以通过吃蜂蜜代替糖”。

另一類(lèi)则是忠实性幻觉,指的(de)是AI生(shēng)成的(de)内容与用户的(de)指令、上下文(wén)或者(zhě)参考内容不一致。例如,《自(zì)然》杂志报道称,AI在(zài)参考文(wén)献方面出错的(de)情况极为普遍。2024年的(de)研究发现,各類(lèi)AI在(zài)提(tí)及参考文(wén)献时,出错率在(zài)30%~90%——它们至少会在(zài)论文(wén)标题、第一作者(zhě)或发表年份(fèn)上出现偏差。

2022年,香港科技大学团队曾发布对AI幻觉的(de)重磅研究。长达59页的(de)论文(wén)指出,导致AI幻觉的(de)原因有很多,例如数据源問(wèn)题、编码器设计問(wèn)题、解码器错误解码。

以数据源为例,由于AI大模(mó)型使用了大量互联网数据进行训练,数据集本身(shēn)可(kě)能存在(zài)错误、过时或缺失,导致幻觉出现。再加上不同数据集之间存在(zài)相互矛盾的(de)地方,“这可(kě)能会鼓励模(mó)型生(shēng)成不一定有依据,也不忠实于(固定)来源的(de)文(wén)本”。

不过,从AI大模(mó)型原理的(de)角度(dù)看,AI幻觉被业界认为是AI拥有智能的(de)体现。出门問(wèn)問(wèn)大模(mó)型团队前工程副总裁李(lǐ)维在(zài)受访时解释,幻觉的(de)本质是補(bǔ)白,是脑補(bǔ)。“白”就是某個(gè)具体事(shì)实,如果这個(gè)事(shì)实在(zài)训练数据中没有足够的(de)信息(xī)冗余度(dù),模(mó)型就记不住。接着,当用户問(wèn)起AI失去记忆的(de)内容,他便开始自(zì)动脑補(bǔ),一本正经地胡说八道。

小心,AI开始胡说八道

图源:unsplash

而且,AI的(de)脑補(bǔ)绝非空想(xiǎng)。李(lǐ)维解释,大模(mó)型的(de)知识学习过程(训练阶段)是一种信息(xī)压缩过程;大模(mó)型回答問(wèn)题,就是一個(gè)信息(xī)解码过程(推理阶段)。这就好(hǎo)比升维了又降维。当一個(gè)事(shì)实冗余度(dù)不够,AI生(shēng)成的(de)虚假事(shì)实需要(yào)与補(bǔ)白所要(yào)求的(de)value(价值)類(lèi)型匹配,即符合ontology/taxonomy(本体/分類(lèi)法(fǎ))相应的(de)上位节点概念。

因此,AI“補(bǔ)白”的(de)时候,即使不知道“狗”这類(lèi)哺乳动物,也会生(shēng)成哺乳动物“猫”,而不是像麻雀一样的(de)鸟類(lèi)。

“大模(mó)型是天生(shēng)的(de)艺术家,张冠李(lǐ)戴、指鹿为马等在(zài)大模(mó)型的(de)幻觉里非常自(zì)然,因为张和李(lǐ)是相似的(de),马和鹿也在(zài)同一条延长线上。”李(lǐ)维总结道。“它的(de)幻觉有内在(zài)的(de)合理性,但(dàn)同时也更(gèng)具有迷惑性。初接触大模(mó)型的(de)朋友,需要(yào)特别小(xiǎo)心,不能轻信。”

不要(yào)神化

与人類(lèi)有些相像的(de)地方是,幻觉的(de)出现,AI自(zì)己(jǐ)也表示“知道”。

“询問(wèn)”DeepSeek:“为什么你的(de)回答有时很准确,有时不太准确甚至在(zài)编造呢?”在(zài)深度(dù)思索模(mó)式下,DeepSeek列出了自(zì)己(jǐ)的(de)“反思”:

首先(xiān)是知识边界限制,“我的(de)训练数据截(jié)止2023年12月,無(wú)法(fǎ)获取最新信息(xī);知识库存在(zài)信息(xī)盲区(约10-15%的(de)领域覆盖不全)……”

它表示,生(shēng)成机制特性也导致了这一结果,因为AI并不真正理解语义与知识,而是“基于概率预测生(shēng)成(每個(gè)token选择概率前3候选词)”。再加上其采用流畅度(dù)优先(xiān)机制,生(shēng)成过程要(yào)先(xiān)确保流畅度(dù),而非保证事(shì)实。

小心,AI开始胡说八道

图源:unsplash

诚如DeepSeek所言,AI的(de)幻觉与其技术发展相伴相生(shēng),有时候,拥有幻觉本身(shēn),可(kě)能是AI感到骄傲的(de)。在(zài)科学界,AI的(de)幻觉正被很多科学家用于新分子的(de)发现等科研工作。

例如,在(zài)AI+生(shēng)物领域,麻省理工学院教授汤姆·克林斯(James Collins)在(zài)《自(zì)然》发布论文(wén)指出,AI的(de)幻觉加速了他对新型抗生(shēng)素的(de)研究进展。“我们得以成功让模(mó)型提(tí)出完全新颖的(de)分子。”

但(dàn)这并不意味着,解决或改善幻觉問(wèn)题对现有的(de)AI大模(mó)型不重要(yào)。原因也很简单,随着AI持续渗透人们的(de)生(shēng)活,AI幻觉所带来的(de)信息(xī)污染很可(kě)能进一步影响人们的(de)生(shēng)活与工作。

2月,美国知名律师事(shì)务所 Morgan & Morgan 向其 1000 多名律师发送紧急邮件,严正警告:AI 能编造虚假的(de)判例信息(xī),若律师在(zài)法(fǎ)庭文(wén)件中使用这類(lèi)虚构内容,极有可(kě)能面临被解雇的(de)严重后果。这一声明正是考虑到AI在(zài)法(fǎ)律界被滥用后可(kě)能造成的(de)不良后果。

据路透社报道,在(zài)过去两年间,美国多個(gè)法(fǎ)院已对至少七起案件中的(de)律师提(tí)出警告或处分,因其在(zài)法(fǎ)律文(wén)件中使用 AI 生(shēng)成的(de)虚假信息(xī)。

例如,曾经入狱的(de)前特朗普律师迈克尔·科恩在(zài)2024年承认,自(zì)己(jǐ)错误地使用了谷歌Bard生(shēng)成的(de)判例为自(zì)己(jǐ)申请缓刑。但(dàn)他提(tí)交的(de)文(wén)件中,由AI生(shēng)成的(de)至少三個(gè)案例,在(zài)现实中均不存在(zài)。

小心,AI开始胡说八道

《监视资本主义:智能陷阱》剧照

2024年11月,在(zài)美国德克萨斯州的(de)一场法(fǎ)律诉讼中,律师布兰登·蒙克引用了AI生(shēng)成的(de)虚假案例,被法(fǎ)院发现并罚款2000美元。他同时被要(yào)求参加关于法(fǎ)律领域生(shēng)成式AI的(de)课程。

意识到AI幻觉可(kě)能产生(shēng)的(de)巨大副作用,科技公司并非没有行动,例如,检索增强生(shēng)成技术(RAG)正被诸如李(lǐ)彦宏等科技大佬所提(tí)倡。RAG的(de)原理是,让AI在(zài)回复問(wèn)题前参考给定的(de)可(kě)信文(wén)本,从而确保回复内容的(de)真实性,以此减少“幻觉”的(de)产生(shēng)。

不过,这样的(de)方案也绝非一劳永逸。首先(xiān)因为,RAG会显著增大计算成本和内存,其次,专家知识库和数据集也不可(kě)避免地存在(zài)偏差和疏漏,难以覆盖所有领域的(de)問(wèn)题。

“尽管业界提(tí)出了很多办法(fǎ),例如RAG,但(dàn)没有一個(gè)办法(fǎ)能根除AI幻觉。”张俊林坦诚地告诉南风窗。“这是一個(gè)很重要(yào)的(de)、值得关注的(de)問(wèn)题,但(dàn)目前,我们确实还没有办法(fǎ)解决。”

小心,AI开始胡说八道

《监视资本主义:智能陷阱》剧照

如果AI幻觉無(wú)法(fǎ)彻底消除,那么,是否有更(gèng)多办法(fǎ)让人们意识到,AI大模(mó)型并非如看上去的(de)無(wú)所不能呢?

OpenAI华人科学家翁荔在(zài)一篇万字文(wén)章中写到,一個(gè)重要(yào)的(de)努力(lì)方向是,确保模(mó)型输出是事(shì)实性的(de)并可(kě)以通过外部世界知识进行验证。“同样重要(yào)的(de)是,当模(mó)型不了解某個(gè)事(shì)实时,它应该明确表示不知道。”

谷歌的(de)Gemini模(mó)型也曾做过很好(hǎo)的(de)尝试。该系统提(tí)供了“双重核查响应”功能:如果AI生(shēng)成的(de)内容突出显示为绿色,表示其已通过网络搜索验证;内容如果突出显示为棕色,则表示其为有争议或不确定的(de)内容。

这些努力(lì)都在(zài)预示着一個(gè)正确的(de)方向:当AI幻觉已经不可(kě)避免地出现时,人们要(yào)做的(de)首先(xiān)是告诉自(zì)己(jǐ):不要(yào)全然相信AI。

来源:南风窗

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 眼镜布(眼镜布什么材质的最好)

    眼镜布(眼镜布什么材质的最好)
    1、1柔软度眼镜布的柔软舒适是前提眼镜布,在擦拭眼镜时可充分与镜片接触,清洁效果好,且不易磨损镜片购买时可以用手触摸一下,感受一下眼镜布的柔软度,一定不要选择有粗糙感2看弹性优质的眼镜布还要厚实有弹性,可以从侧面观察对比多块眼镜布,以厚者为佳轻轻拉扯眼镜布,松手后眼镜布应无眼镜布;眼镜布真正的作用其实是用来包裹住眼镜的,这样放在眼镜盒里就可以减少镜片和镜盒之间的摩擦眼镜布了眼镜布怎么清洗 将眼睛布放入温水中浸泡用洗衣液或者丝绒清洗剂等倒在眼镜布上,轻轻揉搓尽量不要用洗衣粉,因...
  • 护胸(护胸护具)

    护胸(护胸护具)
    女人常吃大豆可以增加体内的雌激素,不仅能够保养卵巢美容护肤,同时还能够美胸护胸经常感觉乳房胀痛或不适的女性朋友可以每天吃一点大豆或喝豆浆,坚持一段时间可有效降低不适症状乳房保养还可以食用一些菌类和菇类食物,黑木耳银耳香菇蘑菇等,经常食用一点能够帮助女性降低乳腺癌科学家证明;1首先两根带子过双肩到背后,交叉,然后像系鞋带一样系好,但不要打结2好内部倒刺带,打好结,再年上外部倒刺带,盖住结就行3护胸前部盖住胸部和腹部,后部盖住腰上部位应该要注意的是,丹尼斯护胸在装的时候不要过松过...
  • 镜子(镜子里的自己和别人看到的一样么)

    镜子(镜子里的自己和别人看到的一样么)
    1、明确答案忌讳镜子是因为人们普遍认为镜子具有神秘和超自然的含义,可能会带来不安或不良后果这种信仰和习俗在不同的文化和传统中都有所体现详细解释1 神秘和超自然的含义在很多文化和故事中,镜子被赋予镜子了特殊的意义例如,某些文化认为镜子能够映照出人的灵魂或另一个世界的景象,这使其具有神。2、一镜子能够反射财运和正能量 镜子能够反射光线,从而改变室内的气场在风水布局中,合理利用镜子可以反射财运和正能量,提升家庭的财运和整体运势例如,将镜子放置在财位或门口,能够吸引财运进入家中二镜子...
  • 平衡车(平衡车电瓶充不进电怎么修复)

    平衡车(平衡车电瓶充不进电怎么修复)
         2月13日平衡车,山东省公安边防总队首次配发平衡车的电动智能平衡车在青岛支队市南大队上岗。记者在奥帆中心北港池码头上看见平衡车,燕儿岛边防派出所女子警务室的女警们已经踏着“风火轮”开始了巡逻。  记者昨在奥帆中心内看见,民警正在驾驶新型警用电动智能平衡车在北港池码头巡逻。这些双轮车高约1.4米,有一个控制前进、后退和左右转向的把手。记者了解到,首批三辆平衡车由山东省公安边防总队首次配发到青岛支队市南大队,将在市南区沿海一线启用。  船艇大队教导员娄铭告诉记者,这三辆...
  • 自行车架(自行车架子什么材质的好)

    自行车架(自行车架子什么材质的好)
      公司介绍 :深圳市深创威视科技有限公司座落于美丽自行车架的滨海城市深圳, 是一家专业生产航模电池,玩  具电池,植保机电池,电动工具电池,车模 船模电池,汽车启动电源,疝气灯电池,电动车等,储能电  池,工业电池各种要求定做,等高倍率电池欢迎前来洽谈, 本公司所有产品都采用A级电芯,我们的供应  商经过层层挑选,确保制造出来每一颗电芯合格率达99% 确保电压,容量,内阻都在正常合格范围内 我  们和各大知名企业有长期良好的合作关系 年出口500到4500万主要出口美国 欧...