偏见消融:大语言模型的识别效能与认知适配干预研究

  • A-
  • A+
2025/05/16 15:26

白麒钰  邝清华  夏雪  訚姝言  张石静怡

【摘要】为探讨大语言模型是否可以准确识别人类语言中的偏见,以及能否说服人类改变偏见,本研究基于启发式和系统式模型,通过 3 个实验予以考察。结果显示,大语言模型识别和分析人类描述性文本中偏见的能力较强,与人类评价一致性较高;其次,大语言模型基于事实性、纠正性信息的个性化干预能够有效说服人们减少对老年人的年龄偏见;最后,大语言模型基于人类不同认知风格调试的干预策略可以有效降低人们对老年人的年龄偏见。研究不仅证明了大语言模型识别偏见的能力,验证了传统的启发式和系统式模型在大语言模型上的应用效果,为发展说服理论提供了新的视角,也对训练大语言模型成为推动公平性和可持续发展的重要工具提供了可行性。

【关键词】大语言模型;说服;偏见;认知风格

一、引言

大语言模型(Large Language Model,简称 LLM)的快速发展正在深刻改变人类社会的各个层面。其影响已从工具性应用层面逐渐渗透至态度、观念乃至认知层面。随着人们对 LLM 的使用日益深入,人们与 LLM 的互动已从单纯的信息获取或任务执行拓展至内容创作、建议咨询和情感陪伴,进而演化为一种深层次的认知交互。在这一背景下,LLM 是否具备改变固有想法和观念的潜能,成为社会广泛关注的重要议题。偏见,作为深植于人类认知中的固有倾向,长久以来被认为是难以察觉且难以改变的。它不仅影响人类的判断、决策和行为,甚至潜移默化地塑造着社会结构和文化规范。因此,本研究旨在探索LLM 在减少人类偏见方面的潜在作用,并进一步分析其深刻影响人类认知结构的可能性。

LLM 技术的快速发展使其在文本理解和语义分析方面展现出显著优势,特别是经过提示词工程调试过的大语言模型,能够有效识别用户生成内容中的语义特征、情感与态度倾向。基于这些分析结果,LLM 能够主动调整回应方式,以适应不同的交互需求。具体而言,已有研究指出,ChatGPT-4 仅通过简单提示即可生成与人类判断高度一致的典型性评分,精确衡量文本与概念之间的语义相似度,且无须额外训练便可取得优于传统方法的准确率。此外,LLM还能通过分析用户的语言风格、词汇偏好及上下文语境,准确辨别出用户的政治立场或阴谋论倾向,并自适应地调整回应内容和策略。这些能力为 LLM在偏见检测及干预领域的深入应用奠定了重要基础。

综上所述,提出假设 1:LLM 能够准确识别用户文本内容中的偏见倾向。

LLM 凭借其大规模生成上下文关联和超个性化消息的能力,能够执行复杂且陌生的任务,在各种情境下的内容生成中取得了显著成功。因此,LLM 在说服效果方面与其他传播媒介相比具有以下几个特性。一是 LLM 能够接触到比任何单个人类作者所能处理的更广泛、更多样化的语言表达,并且能够获取涵盖众多主体的海量信息,将其庞大的相关“知识”整合到生成的个性化信息中。二是 LLM 具备前所未有的个性化特性和适应性,擅长根据个体信息、个人偏好和心理特征定制信息,创建能够与目标群体甚至特定个体产生共鸣的针对性内容。三是人类在创作说服性信息时容易受到自我中心偏见的影响,即提出的论点往往对自己有说服力,而非对他人有说服力,而算法则不受此类限制。总体而言,LLM 能通过模仿人类说服框架生成定制化说服文本,并结合用户认知风格调整提示词以增强输出信息的说服力。

LLM 的特点和优势为改变固有认知和态度提供了新的可能性。以往研究指出,LLM 已被用于政治、广告营销、公共卫生19、电子商务20和慈善捐赠等方面的说服,其生成的文本能灵活运用类比、权威引用、情感共鸣等说服策略。以麻省理工为代表的研究团队招募了 2000 多名相信阴谋论的被试进行说服实验,结果表明,与 GPT-4 Turbo 进行三轮简短但基于事实的、个性化的对话后,被试在各类阴谋论中的错误信念平均减少了 20%,且效果能够持续两个月以上。这些结果挑战了关于阴谋论信念的传统观念,表明即使是最根深蒂固的观点,也能通过基于事实和纠正性信息的大语言模型进行个性化干预,从而有效减少与阴谋论相关的错误信念。另有学者对比了人们对 GPT-3 生成的信息与疾病控制与预防中心(CDC)发布的人工撰写信息的看法,发现经过筛选的生成信息被认为比 CDC 的信息更有效、更具说服力,且能激发更积极的态度。类似的,来自洛桑联邦理工学院和布鲁诺·凯斯勒基金会的研究团队设计了一项随机对照实验,以探究 LLM 在对话中的说服能力。结果显示,个性化的 GPT-4 辩手在多个领域的一对一对话中展现出强大的说服能力,甚至超过了人类被试,个性化的说服能够显著增加被试在辩论后的立场转变,提升同意对方观点的几率达 81.2%......(本文为文章截选,完整版请搜索公众号:“教育传媒研究杂志社”。)

本文系国家自然科学基金项目“互联网中恐慌情绪下的信息传播与社会治理”(项目编号:72304018)、青年人才托举工程项目(项目编号:2023QNRC001)的阶段性成果。