对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?

admin 2个月前 阅读:10 评论:0
北京大(dà)学王选计算机研究所研究员、博士生导师 赵东岩 出品|搜狐科技 作者|张雅婷 随着DeepSeek的(de)爆火,公众对AI幻觉的(de)担忧也日益加剧。 比如,不(bù)少人通过DeepSeek辅助就医、撰写论文时发现,De...

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?

北京大(dà)学王选计算机研究所研究员、博士生导师 赵东岩

出品|搜狐科技

作者|张雅婷

随着DeepSeek的(de)爆火,公众对AI幻觉的(de)担忧也日益加剧。

比如,不(bù)少人通过DeepSeek辅助就医、撰写论文时发现,DeepSeek会“一本正经地胡说八道”,把一些专有名词“张冠李戴”,用户难以发现DeepSeek的(de)“幻觉陷阱”。

来自Vectara机器学习团队的(de)幻觉测试显示,DeepSeek-R1的(de)幻觉率高达14.3%,显著高于DeepSeek-V3的(de)3.9%,也远远超过行业的(de)其他推理模型(xíng),比如OpenAI-o1的(de)测试结果是2.4%。

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?

这种AI大(dà)模型(xíng)生成内容与真实数据不(bù)符,或偏离用户指令的(de)现象,会极大(dà)影响用户的(de)使用体验。在医疗、法律、金融等对准确性(xìng)要求高的(de)领域,AI幻觉则会为企业带来严重后果。

DeepSeek-R1幻觉率为何高于行业其它推理模型(xíng)?AI幻觉为何难以完全被消除?减少大(dà)模型(xíng)幻觉的(de)技术手段都有哪些?最近,搜狐科技与北京大(dà)学王选计算机研究所研究员、博士生导师赵东岩进行了深入交流。

展开全文

赵东岩告诉搜狐科技,Vectara公司设计的(de)是"忠实性(xìng)幻觉"评估,检测生成摘要与原始文本的(de)语义一致性(xìng),该测试主要测试模型(xíng)摘要能力和指令遵循能力。

他表示,DeepSeek-R1这种推理模型(xíng),是通过生成中(zhōng)间推理步骤来增强问题解决能力,目标是解决复杂的(de)推理任务。之所以在幻觉率方面的(de)表现不(bù)好,可(kě)能是模型(xíng)对齐做得不(bù)够。“我们在研究和使用过程中(zhōng),R1复杂问题推理能力强大(dà),往往比o3-mini好,但是有时instruction following的(de)能力没有o3-mini好。”

赵东岩强调,DeepSeek等大(dà)模型(xíng)的(de)幻觉来自于本身的(de)技术架构和基于统计的(de)机器学习范式,是大(dà)模型(xíng)的(de)内生性(xìng)缺陷。因此,可(kě)以说大(dà)模型(xíng)的(de)创造力与幻觉是相伴相生的(de)。

他认为,要从根本上减少大(dà)模型(xíng)幻觉,可(kě)以从让大(dà)模型(xíng)学习运用已有知识来实现受限推理,向可(kě)控生成的(de)方向进行突破。

以下为对话实录:

搜狐科技:来自Vectara机器学习团队的(de)幻觉测试显示,DeepSeek-R1的(de)幻觉率高达14.3%,显著高于V3的(de)3.9%,也超过行业平均水平,这個(gè)背后可(kě)能有哪些原因呢?

赵东岩:根据相关信息,Vectara公司设计的(de)是"忠实性(xìng)幻觉"评估,检测生成摘要与原始文本的(de)语义一致性(xìng)或者看短文回答问题,该测试主要测试模型(xíng)摘要能力和指令遵循能力。

推理模型(xíng),如 DeepSeek-R1 和 OpenAI 的(de) o3-mini,是通过生成中(zhōng)间推理步骤来增强问题解决能力,称为“长思维链”推理。这种方法目标是解决复杂的(de)推理任务。

摘要任务是一個(gè)相对“简单”的(de)任务,和推理能力并不(bù)对齐。R1在这個(gè)任务的(de)幻觉大(dà),我们推测主要是对齐这方面做得不(bù)够。我们在研究和使用过程中(zhōng),R1复杂问题推理能力强大(dà),往往比o3-mini好,但是有时instruction following的(de)能力没有o3-mini好。

推理模型(xíng)的(de)“幻觉”整体比基座模型(xíng)的(de)“幻觉”大(dà),一個(gè)原因可(kě)能是给定文本和模型(xíng)自有知识的(de)冲突。模型(xíng)自己能力强,可(kě)能不(bù)按给定上下文去回答。现实中(zhōng),说服一個(gè)聪明(míng)人更难些。

搜狐科技:在用户使用时发现,DeepSeek会编造专业文件,并且因为逻辑表达更好,幻觉很难识别出来,您觉得用户在使用时应该注意什么,来避免被大(dà)模型(xíng)的(de)幻觉“欺骗”?

赵东岩:这個(gè)只能多渠道验证信息来源。也可(kě)以使用多种语言询问,然后交叉验证。

搜狐科技:不(bù)少用户发现,DeepSeek在写作中(zhōng)展示出了惊人的(de)创造力,大(dà)模型(xíng)的(de)创造力是不(bù)是一定会带来幻觉?大(dà)模型(xíng)能做到既有创造力,又少幻觉吗?

赵东岩:简单来说,DeepSeek等大(dà)模型(xíng)的(de)幻觉来自于本身的(de)技术架构和基于统计的(de)机器学习范式,是大(dà)模型(xíng)的(de)内生性(xìng)缺陷。因此,可(kě)以说大(dà)模型(xíng)的(de)创造力与幻觉是相伴相生的(de)。

搜狐科技:大(dà)模型(xíng)能做到既有创造力,又少幻觉吗?

赵东岩:对于事实性(xìng)幻觉,如回答某事实性(xìng)问题出错,这個(gè)得看问题的(de)复杂程度。有部分原因是模型(xíng)输出的(de)随机性(xìng)导致的(de)(也是模型(xíng)有创造力的(de)源泉),这方面随着模型(xíng)能力的(de)增强,幻觉也会越来越小,但很难完全避免。

对于忠实性(xìng)幻觉,如给定文本做摘要,这個(gè)要增强模型(xíng)的(de)指令遵循能力,有极大(dà)可(kě)能的(de)缓解、甚至有条件消除(如可(kě)控生成)。这個(gè)过程并不(bù)会影响模型(xíng)的(de)创造力。一般来说,参数规模越大(dà)、模型(xíng)能力越强,消除忠实性(xìng)幻觉的(de)机会就越大(dà)。

搜狐科技:随着大(dà)模型(xíng)性(xìng)能的(de)发展,大(dà)模型(xíng)幻觉的(de)发展趋势是什么样的(de)?

赵东岩:从海量数据的(de)统计学习角度看,对同一個(gè)问题,有可(kě)能本身就有多种解答,或者共识不(bù)同(人类也没有在所有问题上达成共识),这些现象也会反映到模型(xíng)的(de)输出上。总体来看,模型(xíng)性(xìng)能越强,幻觉整体还是在减少,回答问题能力增强,也会生成更符合价值观的(de)回答。

搜狐科技:大(dà)模型(xíng)的(de)幻觉问题,是否会导致其在行业应用面临较大(dà)的(de)挑战?比如对准确率要求比较高的(de)教育、医疗、金融等行业?

赵东岩:是的(de),所以在这些关键领域,模型(xíng)的(de)对齐效果非常关键。实践中(zhōng),可(kě)以通过多次校验,对齐,RAG来改善大(dà)模型(xíng)的(de)幻觉问题。

搜狐科技:从技术上来说,常用减少大(dà)模型(xíng)幻觉的(de)手段有哪些呢?能否详细聊聊?

赵东岩:在输入层面,可(kě)以通过检索(suǒ)增强生成(RAG)的(de)方法,通过引入外部知识库,在生成过程中(zhōng)检索(suǒ)相关信息,确保生成内容的(de)准确性(xìng)和时效性(xìng)。 

此外,可(kě)以将结构化的(de)知识图谱集成到生成过程中(zhōng),提供明(míng)确的(de)事实支持,减少模型(xíng)生成不(bù)准确或虚构信息的(de)可(kě)能性(xìng)。结合视觉和语言信息,增强模型(xíng)对多种信息的(de)校验,增强对事物理解的(de)一致性(xìng),减少幻觉的(de)发生。

在模型(xíng)层面,可(kě)以精心设计输入提示,引导模型(xíng)生成更符合预期的(de)输出。如思维链引导模型(xíng)逐步推理,减少幻觉的(de)发生。在输出层面,可(kě)以通过投入更多的(de)计算资源,输出多個(gè)结果,然后互相校验内容。

個(gè)人认为,要根本上缓解大(dà)模型(xíng)幻觉,可(kě)以从如何让大(dà)模型(xíng)学习运用已有知识来实现受限推理,向可(kě)控生成的(de)方向实现突破。

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 眼镜布(眼镜布什么材质的最好)

    眼镜布(眼镜布什么材质的最好)
    1、1柔软度眼镜布的柔软舒适是前提眼镜布,在擦拭眼镜时可充分与镜片接触,清洁效果好,且不易磨损镜片购买时可以用手触摸一下,感受一下眼镜布的柔软度,一定不要选择有粗糙感2看弹性优质的眼镜布还要厚实有弹性,可以从侧面观察对比多块眼镜布,以厚者为佳轻轻拉扯眼镜布,松手后眼镜布应无眼镜布;眼镜布真正的作用其实是用来包裹住眼镜的,这样放在眼镜盒里就可以减少镜片和镜盒之间的摩擦眼镜布了眼镜布怎么清洗 将眼睛布放入温水中浸泡用洗衣液或者丝绒清洗剂等倒在眼镜布上,轻轻揉搓尽量不要用洗衣粉,因...
  • 护胸(护胸护具)

    护胸(护胸护具)
    女人常吃大豆可以增加体内的雌激素,不仅能够保养卵巢美容护肤,同时还能够美胸护胸经常感觉乳房胀痛或不适的女性朋友可以每天吃一点大豆或喝豆浆,坚持一段时间可有效降低不适症状乳房保养还可以食用一些菌类和菇类食物,黑木耳银耳香菇蘑菇等,经常食用一点能够帮助女性降低乳腺癌科学家证明;1首先两根带子过双肩到背后,交叉,然后像系鞋带一样系好,但不要打结2好内部倒刺带,打好结,再年上外部倒刺带,盖住结就行3护胸前部盖住胸部和腹部,后部盖住腰上部位应该要注意的是,丹尼斯护胸在装的时候不要过松过...
  • 镜子(镜子里的自己和别人看到的一样么)

    镜子(镜子里的自己和别人看到的一样么)
    1、明确答案忌讳镜子是因为人们普遍认为镜子具有神秘和超自然的含义,可能会带来不安或不良后果这种信仰和习俗在不同的文化和传统中都有所体现详细解释1 神秘和超自然的含义在很多文化和故事中,镜子被赋予镜子了特殊的意义例如,某些文化认为镜子能够映照出人的灵魂或另一个世界的景象,这使其具有神。2、一镜子能够反射财运和正能量 镜子能够反射光线,从而改变室内的气场在风水布局中,合理利用镜子可以反射财运和正能量,提升家庭的财运和整体运势例如,将镜子放置在财位或门口,能够吸引财运进入家中二镜子...
  • 平衡车(平衡车电瓶充不进电怎么修复)

    平衡车(平衡车电瓶充不进电怎么修复)
         2月13日平衡车,山东省公安边防总队首次配发平衡车的电动智能平衡车在青岛支队市南大队上岗。记者在奥帆中心北港池码头上看见平衡车,燕儿岛边防派出所女子警务室的女警们已经踏着“风火轮”开始了巡逻。  记者昨在奥帆中心内看见,民警正在驾驶新型警用电动智能平衡车在北港池码头巡逻。这些双轮车高约1.4米,有一个控制前进、后退和左右转向的把手。记者了解到,首批三辆平衡车由山东省公安边防总队首次配发到青岛支队市南大队,将在市南区沿海一线启用。  船艇大队教导员娄铭告诉记者,这三辆...
  • 自行车架(自行车架子什么材质的好)

    自行车架(自行车架子什么材质的好)
      公司介绍 :深圳市深创威视科技有限公司座落于美丽自行车架的滨海城市深圳, 是一家专业生产航模电池,玩  具电池,植保机电池,电动工具电池,车模 船模电池,汽车启动电源,疝气灯电池,电动车等,储能电  池,工业电池各种要求定做,等高倍率电池欢迎前来洽谈, 本公司所有产品都采用A级电芯,我们的供应  商经过层层挑选,确保制造出来每一颗电芯合格率达99% 确保电压,容量,内阻都在正常合格范围内 我  们和各大知名企业有长期良好的合作关系 年出口500到4500万主要出口美国 欧...