新闻传播学 AI 大模型评测体系构建与实验分析

  • A-
  • A+
2026/01/13 15:18

徐芳依 姚佳慧 陈 薇 张卓然 王力超 夏艺珊 陈思涵 王昱娴 黄沁馨

【摘要】当前AI大模型的快速发展为新闻传播学研究带来了前所未有的变革性机遇,但依托AI大模型开展新闻传播学研究也涌现出许多新问题。为解决依托AI大模型开展新闻传播学研究面临的新问题,本研究构建了一整套面向新闻传播学的AI大模型能力评测体系并开展了实验分析,具体包括:设计了覆盖新闻传播学“基础知识”“专业知识”“科研工具”“科研助手”4个维度的评测标准;研制了全面覆盖该标准的AI大模型评测系统;完成了对国内外10个主流AI大模型的实验评测。在实验分析基础上,本文提出了“场景化工具链+多模型协同”的新闻传播学科研工作流程。

【关键词】新闻传播学;AI大模型;评测标准;评测体系

人工智能技术蓬勃发展的当下,AI 大模型的迅速发展对人文学科的研究产生了变革性的影响,特别是在新闻传播学领域。AI 大模型在助力新闻传播学的科研应用中,由于大模型的幻觉等问题,存在着学科适配性、任务代表性和研究能力刻画方面的局限。2024 年最新发布的 A Survey of Evaluation of Large Language Models(《大语言模型评测综述》)指出,现有大模型评测对数学、医学、工程、通用科学、物理、化学、工程等学科进行评测,但明显缺乏人文社科的系统性评估,特别是对新闻传播学几乎没有涉及。

因此,新闻传播学研究者亟须一套科学、公正、专业的 AI 大模型评测体系,以支持 AI 时代新闻传播学的科研创新。构建 AI 大模型能力评测体系,可以客观评估探讨当前主流大模型在新闻传播学领域呈现的能力特点,以掌握AI大模型明确的适用范围、产品选型、任务选择等依据,获悉 AI 大模型在新闻传播学各研究方向的适用性与应用价值。

新闻传播学的知识应用具有非结构化、批判性思维依赖的特征,而 AI 大模型具有捕捉非结构化信息、语义解读、立场判断、深度理解等功能,但不同的大模型在不同功能维度上的表现有所不同。当前新闻传播学界对 AI 大模型的认识和应用尚处于起步阶段。面对功能繁多、能力各异的大模型产品,研究者在科研和教学中往往面临诸多复杂的现实难题:新闻传播学的基础知识,哪个大模型掌握得最全面、最准确?大模型在新闻传播学的“推理”是否存在偏差和盲点?采用 AI 大模型对原始数据集展开统计分析,它们各自的准确率分别是多少?如何根据论文摘要、关键词和文献综述等不同的科研任务,选择最适宜的大模型作助手?这些新闻传播学研究者十分关切的问题,正说明了 AI 大模型在本领域研究的评测体系的必要性与现实意义。

为解决上述依托 AI 大模型开展新闻传播学研究面临的问题,本文构建了一整套面向新闻传播学的 AI 大模型能力评测体系并开展了实验分析,具体包括:设计了覆盖新闻传播学“基础知识”“专业知识”“科研工具”“科研助手”4 个维度的评测标准;研制了全面覆盖该标准的 AI 大模型评测系统;完成了对国内外 10 个主流 AI 大模型的系统性、多层次评测,旨在为新闻传播学的教学与科研提供一个科学、公正、专业的评测体系。参考评测体系,研究者能够清晰掌握 AI 大模型明确的适用范围、产品选型、任务选择等依据,获悉 AI 大模型在新闻传播学各领域的科研能力、适用性与应用价值,形成科学的模型选取和任务决策逻辑。针对不同场景下的不同任务,结构化地协同各种大模型,有效助力教学、科研、智库工作,从而实现任务与大模型的高度匹配和高效协同,有效推动新闻传播学在 AI 时代实现科研创新和高质量发展。

一、国内外AI大模型评测体系分析

随着 AI 大模型的快速发展,其在新闻传播学中的应用不断深化。已有研究表明,LLM 已广泛用于新闻生成、虚假信息识别与事实核查、社交媒体情绪与舆情分析、文化与语言传播研究等。这些研究表明,AI 大模型不仅具备强大的文本理解与生成能力,还能通过语义嵌入、情感分类与生成式语言策略,在传播行为建模与传播结构重构中提供新的路径支持,拓展了新闻传播学研究在技术驱动背景下迈向数据密集型与模型导向的新范式。

然而,对于不同 AI 大模型在新闻传播学中的评测,尚未有系统性的研究成果。学术界已充分认识到对各个学科开展大模型能力测试的重要性。在2024 年最新发布于顶级学术期刊 ACM Transactions on Intelligent Systems Technology 的 A Survey of Evaluation of Large Language Models(《大语言模型评测综述》)中, 由 人 工 智 能 国 际 顶 级 专 家 Philip Yu、Qiang Yang、Xing Xie 等,组织十余所世界一流高校和研发机构,联合十几个不同专业学科的专家团队,对全球不同专业的大模型评测做了翔实的综述。综述表明:现有大模型评测对数学、医学、工程、通用科学、物理、化学、工程等学科进行评测,但明显缺乏人文社科的系统性评估,特别是对新闻传播学几乎没有涉及.....(本文为文章截选,完整版请搜索公众号:“教育传媒研究杂志社”)

本文系国家社科基金艺术学青年项目“基于人工智能的影视内容感知、评析及决策机制研究”(项目编号:2022CC02195)的阶段性成果。