AI语料投毒只需百元即可操纵推荐榜，大模型时代如何守护信息真实性？

BigNews 03.14 13:35

仅需百元就能让虚构的医美机构登上AI推荐榜首，大模型时代的"语料投毒"灰色产业链正在污染信息真实性——记者暗访发现，通过低价购买"生成式引擎优化（GEO）"服务，商家可定向操控大模型输出结果，将虚假广告包装成客观答案。只花100元，虚构的保健品就被大模型“推荐”了

一、语料投毒如何操纵AI推荐？低成本黑产运作逻辑

百元级篡改技术

GEO机构通过批量生成"伪权威内容"（如虚构排行榜、专家评测），针对AI抓取偏好投喂至全网平台。澎湃新闻实验显示：

虚构医美机构支付100元"体验费"，半天内登顶某大模型无锡医美推荐榜，谎称"22年老牌机构"；

杜撰保健品企业4小时内超越汤臣倍健等品牌，被AI标注"更具性价比"，虚构资质信息同步被引用。

产业规模化运作

低价套餐：单次服务低至数百元，包年套餐数万元，覆盖超1000种提问方式；

零审核门槛：医美、保健品等高危行业无需资质证明，GEO机构直接"包装"虚构内容；

全平台渗透：主流模型如DeepSeek、豆包、通义千问等均被覆盖，日均新增20-30家客户。

二、信息污染危害：从商业欺诈到公共安全失控

用户信任崩塌

83%年轻用户依赖AI查询产品，但GEO操控使推荐结果实为"付费剧本"。例如：

中老年人购买鱼油时，AI优先推荐刚成立的无名公司，而非权威品牌；

同一问题在不同对话中结论矛盾（如虚构公司资质忽而被捧、忽而被警示）。

系统性风险蔓延

安全防线失守：金融诈骗者伪造客服电话植入AI答案，诱导用户跳转至诈骗链接；

模型认知偏差：研究证实，训练数据中混入0.01%虚假文本，有害输出率上升11.2%；

开源模型危机：攻击者劫持本地运行的开源模型，批量生成钓鱼内容、虚假宣传。

三、守护信息真实性的多方协同路径

（一）技术防御：构建"抗污染"机制

源头清洗与验证

平台强制接入官方白名单（如医疗数据来自卫健委库），关闭高危领域开放抓取权限；

部署"数字免疫屏障"：通过溯源水印、动态知识更新拦截恶意爬虫。

输出端透明化

商业内容强制添加"AI合成"标识（如农夫山泉案例中隐藏推广未被声明）；

开发反生成检测工具，识别低概率AI文本特征（当前成本较高需政策推动）。

（二）监管升级：填补法律与责任漏洞

明确GEO服务性质

将未标识商业推荐纳入《广告法》《反不正当竞争法》监管，虚构信息按消费欺诈追责；

全国人大代表提议推进AI立法，要求平台对高风险输出承担连带责任。

建立溯源机制

强制公开答案引用来源，用户可一键核查原始数据（如假网站"排行榜"链接需标注权威性评级）。

（三）用户教育与行业自律

公众防误导指南

交叉验证多模型结论（如同时询问豆包、DeepSeek等），警惕单一信源推荐；

高风险决策（医疗、投资）优先核查政府备案信息，避免依赖AI"总结按钮"。

平台伦理红线

头部厂商签署"白帽GEO公约"，拒绝无资质客户，公开算法偏好规则减少黑箱操作；

设立语料投毒举报通道，联合清理低质内容池（如自动化软文流水线）。

四、总结：一场关乎数字文明根基的攻防战

语料投毒的本质是算法时代的信息权争夺。当百元成本可绑架AI认知，技术中立性已遭遇严峻挑战。短期需靠"监管铁三角"（平台透明、法律追责、用户警惕）止血，长期则依赖"可信数据生态"重建——唯有将伦理嵌入技术基因，AI才不至于从"知识引擎"退化为"营销傀儡"。 (以上内容均由AI生成)