文 | 阑夕
文 | 阑夕
虽然DeepSeek-R1确实好用(yòng),但(dàn)它在爆火之后,成(chéng)了人(rén)手一个的(de)AI工具,也对中文互联网的(de)信息环境造成(chéng)了严重(zhòng)的(de)污染情况,这是(shì)一个固然难以避免但(dàn)也理应得到重(zhòng)视的(de)問(wèn)题。
最近一个星期以来,就我看到的(de)刷屏文章,至少有(yǒu)三例都是(shì)DeepSeek-R1生成(chéng)出来的(de)、充满了事实错误的(de)内容,却因其(qí)以假乱真的(de)迷惑性,让很多朋友信以为真,情绪激动的(de)分享传播(bō)。
第一例,是(shì)知乎的(de)这条高赞回答:
即使在我指出来之后,依然有(yǒu)人(rén)不可置信的(de)表示,看不出来其(qí)中的(de)「AI味」,所谓的(de)「AI味」,指的(de)是(shì)DeepSeek-R1创作文本时特有(yǒu)的(de)「极繁主义」,比如生造概念、堆叠名词、滥用(yòng)修辞等等。
而这条知乎回答,或因提示词喂得好,或因后期润色得力,在很大程度上消除了它的(de)「AI味」,但(dàn)从表达结构上,經(jīng)常和AI打(dǎ)交道的(de)用(yòng)户都能一眼看出痕迹,纯正的(de)DeepSeek-R1风格,当然普通人(rén)确实难以识别。
不过我也不是(shì)直接得到这个结论的(de),在看到朋友分享这条回答时,我原本也和他一样,是(shì)带着对于国产动画电影崛起的(de)兴奋全盘接受了如此言之有(yǒu)物的(de)论証(zhèng),直到一个致命的(de)纰漏让我察觉到了不对劲。
作者说哪吒电影裡(lǐ)的(de)敖丙变身镜头在法国昂西动画节上轰动业界,問(wèn)题是(shì),法国是(shì)有(yǒu)一个昂西动画节,哪吒的(de)电影也是(shì)送去参展(zhǎn)过,但(dàn)那是(shì)追光动画出品的(de)「哪吒重(zhòng)生」,而不是(shì)饺子导縯(yǎn)的(de)「哪吒」……
而且因为审核原因,这部送展(zhǎn)的(de)「哪吒重(zhòng)生」宣传片实际上是(shì)一部品牌概念片,内容是(shì)在一个现代都市裡(lǐ)的(de)赛车动作縯(yǎn)示,哪吒根本就没出现,更不存在敖丙的(de)变身……
展(zhǎn)开全文
继续查証(zhèng)也能發(fā)现,关于「哪吒」的(de)制片方给员工分成(chéng)都房子、攻克水下流体特效之類(lèi)的(de)描述,全都是(shì)DeepSeek-R1为了完成(chéng)这篇命题作文自己脑补的(de)。
第二个例子,就更离谱了,离谱到我不太能把完整截图發(fā)在这裡(lǐ),因为有(yǒu)些胆子够粗的(de)自媒体,已經(jīng)在拿DeepSeek去写涉军涉政的(de)东西了。
其(qí)中有(yǒu)一篇写军工打(dǎ)虎谭瑞松(sōng)的(de)选题,标题是(shì)《军工虎谭瑞松(sōng), 从“道德标兵”到“猎艳狂魔”,“国之重(zhòng)器”沦为私人(rén)金库》,原文现在已經(jīng)被删了,应该是(shì)被被转得太广作者害怕(pà)了,但(dàn)很多「金句」的(de)截图还在到处传,什么直升機(jī)的(de)设计图纸在暗网裡(lǐ)开价200比特币出售、收(shōu)受金条贿赂时要求熔成(chéng)發(fā)动機(jī)叶片形状、某总师离职时留言这裡(lǐ)不是(shì)造飞機(jī)的(de)地方而是(shì)造孽的(de)工厂等等,如果你能记得这些细节,就一定知道我说的(de)是(shì)哪篇文章。
不好意思,这也全都是(shì)DeepSeek-R1自己编的(de)。
为什么我能确信是(shì)DeepSeek-R1的(de)手笔呢?为什么不能是(shì)ChatGPT、Claude、文心一言?因为DeepSeek-R1是(shì)当前唯一能用(yòng)的(de)免费推理模型,且对中文的(de)支持度足够高,这本来是(shì)DeepSeek-R1的(de)优势,只是(shì)没被用(yòng)在正道上。
此时就需要补充一个推理模型的(de)特点了,那就是(shì)推理模型的(de)训练过程特别注重(zhòng)奖惩機(jī)制,通过思维链的(de)暴露我们也能看出它通常都会想得缜密、生怕(pà)自己没有(yǒu)摸清用(yòng)户意图,以致于經(jīng)常到了「谄媚」的(de)程度。
这种训练模式的(de)好处在于,可以让推理模型拥有(yǒu)举一反三的(de)能力,能够更加灵活和完善的(de)去完成(chéng)任务,但(dàn)是(shì)相对的(de),为了完成(chéng)任务,推理模型也会在「不自知」的(de)情况下,同时表现出欺骗性,当用(yòng)户要求它写一篇作文时,哪怕(pà)缺少论据,它也会为了不辜负用(yòng)户的(de)指令,去自行编造一些材料出来,以便于自圆其(qí)说。
这就是(shì)大模型行业至今仍在致力于解决的(de)「幻觉」现象。
上图就是(shì)一个經(jīng)典用(yòng)例,用(yòng)户为DeepSeek-R1设立了阿裡(lǐ)估值逻辑改变的(de)靶心,于是(shì)DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用(yòng)户,或是(shì)质疑阿裡(lǐ)的(de)估值逻辑到底变没变——于是(shì)就「情不得已」的(de)编造出了可以用(yòng)来証(zhèng)明用(yòng)户观点的(de)数据。
根据Vectara發(fā)布的(de)大模型幻觉排行榜,DeepSeek-R1的(de)幻觉率达到了14.3%,远高于Deepseek-V3的(de)3.9%,也在所有(yǒu)主流模型裡(lǐ)属于较差的(de)一档。
按理来说,R1是(shì)比V3更新、更强大的(de)模型版本,之所以反而表现得更加拉垮,还是(shì)因为推理模型比普通模型先天就更加具有(yǒu)「创造力」,其(qí)实在AI研究领域,幻觉本身并不是(shì)单纯的(de)缺点,甚至可以说,幻觉就是(shì)科学家们希望在AI身上看到的(de)所谓意识,只是(shì)我们还没有(yǒu)把AI调教得当,让它在该天马行空的(de)时候自由创作,在该遵守事实的(de)时候有(yǒu)理有(yǒu)据。
所以我的(de)这篇文章也不是(shì)在说DeepSeek-R1有(yǒu)問(wèn)题,而是(shì)滥用(yòng)它来批量化生成(chéng)真假难辨的(de)信息、并海量投放到公网的(de)这种行为,問(wèn)题很大。
越是(shì)公共讨论聚集的(de)地方,比如时政、历史、文化、娱乐等领域,越是(shì)重(zhòng)灾区,这和自媒体的(de)商业模式有(yǒu)关,有(yǒu)流量就有(yǒu)收(shōu)入,流量取决于内容的(de)吸引力,同时内容又受到生产成(chéng)本的(de)限制,而当DeepSeek-R1这种降维打(dǎ)击的(de)武器被交到了每一个人(rén)手裡(lǐ),失控就是(shì)不可避免的(de)了。
第二个例子裡(lǐ)的(de)作者大概是(shì)察觉到流量太高也容易出事,已經(jīng)会在新的(de)文章裡(lǐ)——依然都还是(shì)DeepSeek-R1写的(de)——加上一条下面这样的(de)声明,不过只能说聊胜于无,很少有(yǒu)人(rén)会注意到并理解这句话的(de)意思——上面的(de)内容有(yǒu)一半是(shì)我编的(de),但(dàn)我不告诉你们是(shì)哪一半。
事实上作者也确实不知道DeepSeek-R1交稿的(de)内容裡(lǐ)哪些是(shì)真哪些是(shì)假,他可能会提供一些参考资料,以及开放全网搜索的(de)权限,但(dàn)就像我说的(de),推理模型的(de)运作模式,决定了它不是(shì)简单的(de)洗稿,而是(shì)会自行完善故事的(de)骨架和细节,最后的(de)结果就是(shì)真假参杂,迷惑性反而更大了。
第三个例子,是(shì)历史博主知北遊的(de)豆瓣记录,简单来说,是(shì)有(yǒu)人(rén)拿虚构的(de)历史材料,布局七天来钓他上钩,如果不是(shì)他本身具有(yǒu)很强的(de)反诈意识,加上三次元有(yǒu)人(rén)脉关系进行証(zhèng)伪,他一定会继续沉迷在这个局裡(lǐ),这个局的(de)破绽在于AI搞错了两个历史人(rén)物的(de)死亡顺序,打(dǎ)破了他在發(fā)现新的(de)史料上如获珍(zhēn)宝的(de)兴奋感。
一直以来,文史圈都是(shì)AI污染的(de)重(zhòng)灾区,因为有(yǒu)大量的(de)文献材料还没有(yǒu)数字化,可用(yòng)的(de)网络资源有(yǒu)限,考据成(chéng)本很高,但(dàn)凡较真起来,都会陷入「造谣一张嘴、辟谣跑断腿」的(de)困境。
就,真的(de)很让人(rén)焦心,用(yòng)AI解决自己的(de)問(wèn)题是(shì)一码事,将AI杜撰的(de)信息混到公网裡(lǐ)又是(shì)另一码事了,当在这些言之凿凿的(de)内容成(chéng)为互联网信息库的(de)一部分之后,甚至又会被AI重(zhòng)新咀嚼回去训练,事实数据和生成(chéng)数据之间的(de)界限将会更加模糊,这绝对不是(shì)一件好事。
有(yǒu)人(rén)可能会問(wèn),在没有(yǒu)AI的(de)时候,人(rén)類(lèi)也会造谣,也会發(fā)到网上到处都是(shì),怎么没见到你这么痛心疾首?
其(qí)一,「抛开剂量谈毒性都是(shì)耍流氓」,AI的(de)工业化生产能力,和个体户的(de)伏案写作流程,在效率上是(shì)天差地别的(de),实际上在我写这篇文章以前,搜索引擎、线上文库、各類(lèi)网站上的(de)AI填充情况就已經(jīng)非常不堪(kān)了,在有(yǒu)了推理模型——精通于一本正經(jīng)的(de)胡说八道——之后,整个污染趋势会向深处蔓延,从相对次要的(de)资料层触及创作上游的(de)信源层,覆水难收(shōu);
其(qí)二,人(rén)類(lèi)造谣起来是(shì)有(yǒu)局限性的(de),比如他不可能出现在一个自己没理由出现的(de)场合,真要这么编造起来很容易露馅,但(dàn)AI则会脸不红心不跳的(de)直接生造,比如栩栩如生的(de)细节,或是(shì)身临其(qí)境的(de)描写,在说谎这件事情上,AI的(de)主观恶意或许不及人(rén)類(lèi),但(dàn)它的(de)發(fā)挥能力,却是(shì)独一档的(de);
其(qí)三,AI内容的(de)生产者一般都是(shì)营销号,而为内容背书的(de),则是(shì)传播(bō)者的(de)信誉,比如大V博主上钩后的(de)转發(fā)分享,通过这种扩散機(jī)制,实现从寄生到合理化的(de)存在目标,才是(shì)最可怕(pà)的(de),人(rén)会爱惜羽毛,会知道信誉下滑的(de)后果,但(dàn)营销号不在乎,只要避开敏感话题,有(yǒu)太多的(de)流量可以消费,尤其(qí)是(shì)在掌握了「创造」独家信息这个技术之后;
其(qí)四,AI的(de)便利性已經(jīng)把虚假信息的(de)泛滥推到了生活的(de)各个方向,有(yǒu)人(rén)拿着它推荐的(de)菜单去点菜结果發(fā)现店裡(lǐ)没这个菜,有(yǒu)人(rén)拿着旅游攻略發(fā)现当地根本没这个景点,經(jīng)我实测它还会捏造不属于「山海經(jīng)」的(de)古典异兽。
我想说的(de)是(shì),AIGC是(shì)技术發(fā)展(zhǎn)的(de)未来,DeepSeek也是(shì)国产模型的(de)翘楚,工具没有(yǒu)错,错的(de)是(shì)滥用(yòng)、恶用(yòng)工具的(de)行为,AI当然可以创造内容,但(dàn)前提一定要是(shì)注明它由AI生成(chéng),不能鱼目混珠,放任它以一种不可辨识的(de)方式成(chéng)为互联网的(de)原生信息,大模型厂商和内容平台也有(yǒu)义务把類(lèi)似数字水印那种兜底方案同步推进起来,每迟一天,治理成(chéng)本都会几何级的(de)变得更高。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。