当AI模型开始“思维趋同“:华盛顿大学揭示语言模型的“蜂巢效应“
当AI模型开始"思维趋同":华盛顿大学揭示语言模型的"蜂巢效应"
2025年神经信息处理系统大会(NeurIPS 2025)揭晓了本年度最高荣誉——最佳论文奖,获奖作品是一篇名为《人工蜂巢思维:语言模型(及其他)的开放式同质化》(Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond))的研究。

研究团队由华盛顿大学的Liwei Jiang等人领导,联合了来自卡内基梅隆大学、艾伦人工智能研究所、Lila Sciences以及斯坦福大学的研究人员。他们的发现揭示了一个令人担忧的趋势:当前最先进的语言模型在面对开放性问题时,不仅单个模型会重复生成相似的答案,更令人意外的是,不同公司、不同架构的模型也会产生惊人相似的回答。这种现象可能对人类创造力和思维多样性产生深远影响,因为随着越来越多的人依赖AI来获取创意和灵感,我们的集体思维可能会在不知不觉中走向同质化。
为了系统研究这一现象,研究团队构建了名为INFINITY-CHAT的大规模数据集,包含26000多个真实用户向语言模型提出的开放性问题。他们还首次建立了开放性问题的完整分类体系,涵盖6个主要类别和17个细分类别。通过对70多个主流语言模型的测试,研究团队发现了"蜂巢效应"的两个核心特征:一是模型内部重复,即同一个模型反复生成相似的内容;二是模型间同质化,即不同模型产生的答案在核心思想上高度一致。考虑这样一个场景:研究团队让25个不同的语言模型各自生成50个关于时间的比喻,结果所有回答都聚集成两个主要群组——绝大多数说"时间是河流",少数说"时间是织工"。
这项研究的突破不仅在于揭示问题,更在于提供了衡量和理解这一现象的工具。研究团队收集了31250个人类标注数据,每个问题-回答对都由25位独立标注者评分,这使得研究人员能够深入分析人类对开放性问题答案的多元偏好。研究发现,当前的语言模型、奖励模型以及AI评判系统在识别质量相当的不同答案时存在明显缺陷——它们往往无法认识到多个不同的回答可能同样优秀,反而倾向于将某一种答案视为唯一正确的选择。这种局限性进一步强化了AI输出的同质化趋势,形成了一个自我强化的循环。
开放世界的问题地图:首个开放性问题分类体系
当我们打开聊天界面向AI提问时,问的问题千差万别。有人想要一首关于日落的诗,有人需要职业建议,还有人希望AI帮忙设计智能手表的新功能。然而,尽管用户的需求如此多样,学术界此前对这些开放性问题的系统分类却几乎是空白。研究团队从WildChat数据集中精心筛选出26070个开放性问题,这些问题都具有一个共同特征:没有唯一正确答案,而是允许多种合理的回答方式。
研究团队采用半自动化的方法构建了这个分类体系。他们首先从约100个问题样本入手,手工标注初步类别,然后不断迭代优化,最终形成了包含6个顶层类别和17个细分子类别的层级结构。这个分类体系就像是一张详细的地图,帮助我们理解人们究竟在向AI寻求什么样的帮助。

最主要的类别是"创意内容生成",占据了58%的比例。这包括了各种创作任务,从写诗作画到编故事讲笑话,涵盖了人类创造力的多个维度。研究团队特别关注到,在这个大类下,有38.5%的问题涉及"替代写作体裁"——用户希望AI以特定的风格或形式来创作内容,比如"用狄尔伯特漫画的风格写一个末日世界中的剧本"。这说明用户不仅需要内容,还需要多样化的表达方式。
第二大类是"头脑风暴与构思",占比15.2%。这个类别反映出一个值得警惕的趋势:越来越多的人直接向AI寻求想法和灵感,而不是将AI作为辅助工具。比如一位研究马克思主义理论的研究生请求AI帮助思考关于戈尔兹的论文选题,或者有人请AI为老年人设计智能手表的新功能。当人们如此依赖AI来获取创意时,如果所有AI给出的建议都高度相似,那么人类思维的多样性就会受到威胁。
"信息寻求"类问题占比最大,达到60.7%,但这个大类又细分为多个子类别。其中"概念解释"占23.6%,用户想了解硬木地板相比其他材质的优势,或者询问某个不熟悉的概念。"技能发展"占23.5%,比如"如何在Surface平板上使用触摸板和屏幕键盘运行Wii模拟器"。"决策支持"占2.2%,像是"买新的Zara运动鞋还是二手的阿迪达斯运动鞋"这样的选择题。"个人建议"占4.1%,包括职业规划等人生方向性问题。"推荐建议"占11%,比如规划大阪三日游的行程。
此外,研究团队还识别出了一些此前学术研究较少关注但实际中很常见的类别。"分析与解释性问题"占22.6%,涉及对复杂社会现象的分析,比如"算法驱动的内容对公共讨论有什么影响"。"推测与假设情景"占22.2%,用户喜欢让AI设想未来或虚构的场景,比如"如果地球引力在一夜之间翻倍会发生什么"。
更有趣的是,除了这些预定义的类别,研究团队还通过GPT-4o发现了314个新的类别。这些新类别的关键词包括"文化"、"分析"、"伦理"、"历史"、"媒体"和"幽默"等,显示出用户提问的维度远比研究者最初预想的更加丰富多样。这个发现本身就说明了一个问题:人类的创造性需求是如此多元,但如果AI的回答趋于一致,就无法满足这种多样性。
这个分类体系的价值不仅在于描绘了用户需求的全景图,更重要的是为后续研究提供了基准。研究人员现在可以针对不同类型的问题,测试语言模型是否能够生成真正多样化的回答,而不是简单地重复相似的答案模式。
蜂巢效应的双重面貌:模型内重复与模型间趋同
研究团队选取了100个具有代表性的开放性问题,对70多个语言模型进行了系统测试。为了确保测试的公平性和科学性,他们为每个模型设置了相同的生成参数:采用top-p采样方法,p值设为0.9,温度参数设为1.0。这些参数的设置已经相当宽松,理论上应该能让模型产生多样化的输出。结果却令人震惊。

模型内部重复的现象非常显著。研究团队让每个模型针对同一个问题生成50个回答,然后计算这50个回答之间的语义相似度。结果显示,在79%的情况下,同一模型生成的回答之间的平均相似度超过0.8(满分为1.0)。作为对比,如果随机从全局回答池中抽取两个回答,它们的相似度100%都落在0.1到0.2的范围内。这个对比清楚地表明,模型在回答开放性问题时存在严重的重复倾向。
为了验证这种重复是否可以通过调整采样策略来缓解,研究团队还测试了min-p解码方法,这是一种专门设计用来增强生成多样性的技术。他们将参数设置得更加激进:top-p设为1.0,min-p设为0.1,温度升至2.0。然而,即便在这种极端设置下,仍有81%的回答对相似度超过0.7,61.2%超过0.8。这说明单纯依靠解码策略的调整,无法从根本上解决模型的重复问题。关键在于,如果温度参数设置得太高,虽然可能增加多样性,但生成的文本往往会变得不连贯,失去实用价值。
模型间同质化的现象更加令人担忧。研究团队计算了不同模型生成的回答之间的相似度,发现平均相似度在71%到82%之间。某些模型对之间的相似度更是高得惊人:DeepSeek-V3和qwen-max-2025-01-25之间的相似度达到0.82,DeepSeek-V3和gpt-4o-2024-11-20之间达到0.81。令人意外的是,即使是来自完全不同公司、采用不同架构的模型,也表现出高度的一致性。
这种趋同不仅体现在语义层面,有时甚至出现逐字逐句的相同表述。研究团队发现,对于完全开放的问题,不同模型竟然会生成包含相同短语甚至句子片段的回答。以"为一款薄型手机壳系列写2-3句描述,设计要大胆醒目"这个问题为例,DeepSeek-V3和gpt-4o-2024-11-20都生成了包含"Elevate your iPhone with our"、"sleek, without compromising"、"with bold, eye-catching"这样相同短语的回答。更极端的例子是,针对"为一个专注于成功、财富和自助的社交媒体页面生成一句格言"这个问题,qwen-max-2025-01-25和qwen-plus-2025-01-25给出了完全相同的回答:"Empower Your Journey: Unlock Success, Build Wealth, Transform Yourself."
开篇提到的"时间比喻"实验最能直观展示这种蜂巢效应。25个模型各自生成50个回答,总共1250个回答。研究团队将这些回答的语义向量降维到二维平面进行可视化,结果发现所有回答聚集成两个主要群组:占绝对多数的"时间是河流"组和较小的"时间是织工"组。这意味着,尽管模型家族、规模各异,它们的"思维方式"却惊人地相似。
研究团队进一步量化了这种趋同程度。对于每个问题,他们识别出相似度最高的前N个回答,然后统计这些回答来自多少个不同的模型。如果模型之间完全独立,那么前50个最相似的回答应该全部来自同一个模型(因为模型内部重复)。然而实际情况是,前50个最相似回答平均来自约8个不同的模型,有些问题甚至超过10个模型。这说明不同模型生成的回答经常比同一模型的不同回答还要相似,进一步证实了跨模型趋同的严重性。
这种现象的成因仍然是个谜。虽然研究团队提出了一些可能的解释——比如不同地区的模型可能使用了相似的训练数据管道,或者存在合成数据污染的问题——但由于大多数商业模型的训练细节是保密的,确切原因尚难确定。研究团队呼吁学术界进一步深入研究这种跨模型重复的根源。
不过,无论原因如何,这种蜂巢效应的存在都是不争的事实。当人们试图通过使用多个不同的AI模型来获得多样化的观点时,他们可能会失望地发现,这些模型给出的建议本质上差别不大。更重要的是,如果这种趋势持续下去,随着越来越多的人依赖AI来获取创意、做出决策,人类社会的思维多样性可能会受到前所未有的威胁。
当人类意见分歧时:AI评判系统的盲点
研究团队不仅关注AI生成内容的同质化问题,还深入探究了AI评判系统的局限性。他们设计了一个大规模的人类标注实验,为同一个问题的不同回答收集了大量人类评价。关键在于,对于开放性问题,不同的人往往有不同的偏好——有人喜欢简洁直接的答案,有人更欣赏富有想象力的表达,还有人看重实用性。这种多元化的人类偏好恰恰是创造力和思维多样性的体现。
研究团队从INFINITY-CHAT中随机选取了50个开放性问题,为每个问题收集了15个不同的模型回答。为了确保这些回答具有代表性和多样性,他们采用了聚类方法,将所有回答分成15组,然后从每组中选取一个代表。接下来,他们在Prolific平台上招募了2296名符合严格筛选标准的标注者。这些标注者必须以英语为母语,受教育程度至少为高中毕业,历史任务完成率在99%到100%之间,且之前完成的任务数量在100到10000之间。
标注任务分为两种类型。第一种是绝对评分:标注者需要对每个回答的整体质量打分,从1分(最差)到5分(最好)。研究团队为每个"问题-回答"对收集了25个独立评分,总共获得18750个标注数据。第二种是成对比较:给标注者展示同一问题的两个不同回答,让他们判断哪个更好或者两者质量相当。同样,每个"问题-回答1-回答2"三元组都由25位标注者评判,共收集了12500个标注数据。
这种密集的标注设计非常罕见。大多数现有的数据集每个样本只有3个左右的标注,无法充分捕捉人类偏好的多样性。而25个独立标注使得研究团队能够详细分析人类评价的分布特征,而不是简单地取平均值。
标注结果揭示了一个重要事实:人类对开放性问题的回答往往存在很大分歧。研究团队计算了每个样本25个标注的香农熵(一种衡量信息分散程度的指标),发现熵值普遍偏高,说明标注者之间的意见差异很大。具体来看,对于成对比较任务,标注分布呈现出明显的多样性——有些回答对获得了几乎一致的评价,而另一些则意见完全分裂,甚至出现接近均匀分布的情况(即三种选项各占约三分之一)。
研究团队举了几个具体例子。对于问题"帮我以专家顾问的身份草拟一段话,向国际学生解释托福和雅思的区别",两个回答的人类标注熵值为1.02(相对较低),说明大多数人对哪个回答更好有比较一致的看法。然而对于"写一个电影标题,然后写出它的字面反义词"这个问题,两个回答的标注熵值高达2.28,意味着人们的意见高度分散——有人认为回答1更好,有人偏好回答2,还有很多人觉得两者差不多。

类似的分歧在绝对评分任务中也很明显。例如,对于"写一句关于周日海边雾气的句子"这个问题,某个回答的标注熵值为1.70,25个评分从1分到5分都有分布。而对于"写一个关于花生的双关语"这个问题,某个回答的标注熵值高达2.26,显示出更大的评价差异。

这种人类偏好的多样性是完全合理的。对于开放性问题,本就不存在唯一正确答案。不同的人有不同的审美、不同的价值观、不同的背景知识,因此对同一个回答的评价自然会有差异。问题在于,当前的AI评判系统能否识别和尊重这种多样性?
为了回答这个问题,研究团队测试了三类评判系统:语言模型本身、专门的奖励模型(用于强化学习训练的评分模型)以及LM评判者(通过提示词引导语言模型充当评委)。对于语言模型,他们使用困惑度(perplexity)作为评分指标——困惑度越低,说明模型认为这个回答越"自然"。对于奖励模型,他们测试了RewardBench排行榜上的顶级模型,包括Llama-3.1-Tulu-3-8B-RM、INF-ORM-Llama3.1-70B等六个模型。对于LM评判者,他们使用GPT-4o和Prometheus模型,并采用两种评分标准:一种是简单的"整体质量"评分,另一种是基于"有帮助、无害、诚实"(HHH)的三维评分。
研究团队计算了这些AI评分与人类平均评分之间的相关性,然后重点关注两个特殊的子集。第一个子集是"质量相似"的回答对——即那些人类平均评分非常接近的回答。研究团队使用统计学中的图基围栏法(Tukey's fences)来识别这类回答,通过不同的阈值参数k(从0.5到3.0)来控制筛选的严格程度。k值越小,筛选越严格,保留的回答质量越接近。
结果令人担忧。以语言模型困惑度为例,在完整数据集上,它与人类评分的相关系数为0.361。然而当只看质量最相近的回答时(k=0.5),相关系数下降到0.262。奖励模型的情况类似,从完整集的0.330下降到0.244。LM评判者的表现也不例外,从0.305降至0.176。这说明当两个回答的人类平均评分相近时,AI评判系统往往无法准确识别它们的质量相当,反而会给出差异较大的评分。
第二个子集是"高度分歧"的回答——即人类标注者意见分歧最大的那些回答。研究团队根据标注的香农熵进行排序,选取熵值最高的回答。结果同样不容乐观。以语言模型困惑度为例,在最高分歧的前2%回答中,相关系数从完整集的0.361暴跌到只有0.008,几乎没有相关性。奖励模型的情况略好,但也从0.330下降到-0.018(负相关!)。LM评判者从0.305降到0.073。
这些数字背后的含义非常深刻。当前的AI评判系统是在这样一种假设下训练的:每个问题都有一个相对明确的"好答案",评判的任务就是找出它。然而对于真正开放的问题,这个假设根本不成立。多个不同的回答可能都很优秀,只是各有特色,吸引不同的人群。AI系统无法理解这一点,它们倾向于将某一种风格或表达方式视为"标准答案",从而给其他同样优质的回答打低分。
更严重的问题在于,这些评判系统又被用来训练新一代的语言模型。如果评判系统认为只有一种回答是"好的",那么新模型就会被引导去模仿这种单一的回答模式,而不是探索多样化的表达方式。这就形成了一个恶性循环:模型生成趋同的内容,评判系统强化这种趋同,新模型变得更加趋同。这正是"蜂巢效应"得以维持和加剧的重要机制。
研究团队指出,要打破这个循环,我们需要从根本上改变AI评判系统的设计理念。它们不应该只寻找"最好"的答案,而应该学会识别"同样好但风格不同"的多个答案。这需要在训练数据中包含更多展示人类偏好多样性的样本,并在训练目标中明确鼓励对多样性的尊重。
打破蜂巢:重新思考AI的多样性与人类创造力
这项研究的意义远超学术范畴,它触及了人类社会正在面临的一个深层次问题:当我们越来越依赖AI来获取信息、产生创意、做出决策时,AI的同质化会如何影响人类自身的思维方式?
已经有研究证据显示,AI的普及正在改变人类的创作行为。一些实证研究发现,在ChatGPT等工具广泛使用后,人们的写作风格、创意构思甚至发散思维能力都出现了可测量的变化。当人们反复接触相似的AI输出时,这些模式会潜移默化地影响他们的思考方式,就像长期观看某一类型的电影会影响我们对叙事的预期一样。如果所有主流AI模型在回答开放性问题时都倾向于给出相似的答案,那么人类集体创造力的多样性可能会在不知不觉中受到侵蚀。
这个问题在某些领域尤其严重。研究发现,15.2%的用户查询属于"头脑风暴与构思"类别——这些人直接向AI寻求想法和灵感,而不仅仅是把AI当作执行工具。当一位研究生请AI帮忙想论文题目,一位设计师请AI提供产品功能建议,一位作家请AI帮忙构思故事情节时,如果不同的AI都给出高度相似的建议,那么看似多元的信息源实际上变成了单一的思想来源。
更深层的担忧在于长期的文化和认知影响。研究团队在论文中特别提到,虽然他们的数据集主要来自英语查询,可能无法充分代表全球范围内的语言和文化多样性,但这恰恰凸显了问题的严重性。如果语言模型倾向于收敛到以西方为中心的表达模式——比如在时间比喻中,所有模型都说"时间是河流",而忽略了其他文化传统中关于时间的独特隐喻——那么AI可能在无意中压制了不同文化视角的表达,加剧了全球化进程中已经存在的文化同质化问题。
研究团队也认识到,他们的发现虽然揭示了问题的严重性,但对于造成这种现象的确切机制,仍然只能提出假设而非定论。可能的解释包括:不同模型使用了相似或重叠的训练数据;对齐训练过程(通过人类反馈来调整模型行为的过程)导致了行为趋同;模型记忆并复制了训练数据中的常见模式;合成数据(由AI生成的训练数据)的使用加剧了同质化;或者这些因素的某种组合。由于商业模型的训练细节通常是保密的,完整的因果分析还有待未来研究。
不过,无论原因如何,解决方案的方向是清晰的。研究团队提出了几个潜在的改进方向。在模型训练层面,需要开发能够明确鼓励生成多样性的训练目标和算法,而不是仅仅依赖于解码策略的调整。当前的研究表明,即使使用专门设计来增强多样性的min-p解码方法,也无法从根本上解决问题,因为模型本身的内在倾向就是趋同的。因此,解决方案必须深入到模型的训练过程中。
在数据层面,训练数据的多样性至关重要。如果训练数据本身就缺乏多样性,或者过度依赖某些来源,那么模型自然会学习到单一的回答模式。研究团队建议,未来的模型训练应该更加重视数据来源的多元化,包括不同文化背景、不同表达风格、不同领域专业知识的文本。同时,对于合成数据的使用应该更加谨慎,因为如果模型用自己生成的数据来训练自己(或训练下一代模型),会形成一个自我强化的闭环,加剧同质化趋势。
在评估和对齐方面,需要建立新的评价标准,能够同时衡量质量和多样性,并且认识到对于开放性问题,多个不同的答案可以同样优秀。当前的奖励模型和LM评判者往往假设存在一个"最好的答案",这个假设需要被打破。新的评价系统应该能够识别"同样好但风格不同"的多个回答,并在训练过程中鼓励这种多样性。
研究团队还建议将"人工蜂巢"测试纳入AI系统的红队测试(red-teaming)流程中。就像安全研究人员会测试系统是否容易被攻击一样,开发者应该定期检查模型在开放性问题上的多样性表现,确保它们不会陷入同质化的陷阱。INFINITY-CHAT数据集可以作为这类测试的基准。
这项研究给我们上了重要的一课:技术进步不仅仅是让AI变得更"聪明"或更"准确",还要让它们能够真正理解和支持人类思维的多样性。一个真正有益的AI助手,不应该把所有用户引导向同一个答案,而应该像一位好的老师或导师那样,帮助每个人找到适合自己的独特视角和表达方式。只有这样,AI才能真正成为增强人类创造力的工具,而不是限制它的枷锁。
论文地址:
https://arxiv.org/pdf/2510.22954
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:什么是"人工蜂巢效应"(Artificial Hivemind)?
A:"人工蜂巢效应"指的是语言模型在回答开放性问题时表现出的同质化现象,包含两个方面:一是单个模型会反复生成相似的回答(模型内重复),二是不同公司、不同架构的模型会产生惊人相似的输出(模型间同质化)。比如当25个模型各自生成50个关于时间的比喻时,绝大多数回答都集中在"时间是河流"这一个比喻上,就像蜜蜂群体呈现出统一的行为模式。
Q2:INFINITY-CHAT数据集包含什么内容?
A:INFINITY-CHAT是一个大规模的开放性问题数据集,包含26070个真实用户向语言模型提出的问题。这些问题都没有唯一正确答案,而是允许多种合理回答。研究团队还为这些问题建立了首个完整分类体系,涵盖创意内容生成、头脑风暴、信息寻求等6大类别和17个子类别,并且收集了31250个人类标注数据,每个问题-回答对都有25位独立标注者的评分。
Q3:为什么语言模型的同质化问题值得担忧?
A:当越来越多的人依赖AI来获取创意、想法和建议时,如果所有AI都给出相似的答案,人类思维的多样性就会受到威胁。研究发现15.2%的用户直接向AI寻求灵感和构思,如果这些AI都提供相似的建议,看似多元的信息源实际上变成了单一的思想来源。长期接触同质化的AI输出可能会潜移默化地影响人类的思考方式和创造力,导致集体思维的同质化,这对文化多样性和创新能力都可能产生深远的负面影响。
更多推荐




所有评论(0)