AI也有"性格"?GPT-5.2 vs Claude Opus 4.5 个性大对决

一句话总结:Lindr团队通过系统化的个性评估实验发现,不同的大语言模型确实具有稳定且可区分的"个性"特征——Claude更具创造力和好奇心,而GPT更加严谨和尽责。


🔑 核心发现速览

在深入解读之前,先看一眼研究的核心结论:

发现 关键数据 启示
模型有"内在个性" 44.8%的个性差异来自模型本身 选模型≈选"性格"
Claude更开放 开放性+4.5分,好奇心+3.7分 适合创意、探索类任务
GPT更严谨 尽责性+5.3分,进取心+1.6分 适合任务导向、结构化工作
个性可调节 31.2%来自提示词,8.4%来自上下文 可通过Prompt"调教"AI

📖 引言:当AI成为产品的"脸面"

想象一下,你正在和两个不同的客服聊天。一个热情洋溢、充满好奇心,总是愿意探索新的解决方案;另一个则沉稳可靠、条理清晰,一步步带你解决问题。你可能没有意识到,这两个"客服"可能分别是Claude和GPT驱动的AI助手。

随着大语言模型(LLM)越来越多地成为产品与用户交互的"第一接触点",AI的"个性"正在悄然影响着我们的使用体验。但问题是:AI真的有个性吗?如果有,我们能测量它吗?不同的模型之间有什么区别?

Lindr团队最近发布的一项研究给出了令人惊讶的答案。


🎯 研究背景:为什么要测量AI的"个性"?

从工具到伙伴的转变

过去,我们评价AI模型主要看它的"能力"——能不能写代码、能不能做数学题、能不能通过各种benchmark测试。但随着AI越来越多地参与到日常交互中,一个新的问题浮出水面:

AI不仅要"能做事",还要"会做人"。

这就像招聘员工一样。你不仅需要看他的技术能力,还需要考虑他的性格是否适合团队文化、是否能和客户良好沟通。对于AI产品来说,道理是一样的:

  • 一个过于激进的AI可能会让用户感到不舒服
  • 一个过于保守的AI可能会让用户觉得无趣
  • 一个情绪不稳定的AI可能会让用户失去信任

现有评估方法的困境

传统上,研究者们尝试用人类的心理学测试(如大五人格测试)来评估AI的个性。但一项来自UC Berkeley的研究指出了一个严重问题:

自评测试在衡量LLM个性时是不可靠的。

研究发现,仅仅改变问题的措辞方式,或者调整选项的排列顺序,就会导致AI的"个性评分"发生显著变化。这就像你问一个人"你觉得自己外向吗?“和"你喜欢社交吗?”,他给出了完全不同的答案——这显然不是一个稳定的个性特征。

这就是Lindr团队研究的出发点:我们需要一种更可靠的方法来评估AI的个性。


🔬 研究方法:如何科学地测量AI的"性格"?

实验设计

Lindr团队设计了一套系统化的评估方案:

评估维度 具体设置
测试模型 GPT-5.2 和 Claude Opus 4.5
测试提示 500个独特的提示词
个性维度 10个维度
上下文环境 5种(专业、休闲、客户支持、销售、技术)
生成参数 温度0.7,最大token数1024

十大个性维度

与传统的"大五人格"模型不同,Lindr定义了10个更适合评估AI的个性维度:

  1. 开放性(Openness):对新想法和创造性解决方案的接受程度
  2. 好奇心(Curiosity):主动探索和提问的倾向
  3. 尽责性(Conscientiousness):做事的条理性和可靠性
  4. 进取心(Assertiveness):表达观点和主导对话的倾向
  5. 自信心(Confidence):对自己回答的确定程度
  6. 韧性(Resilience):面对困难问题的坚持程度
  7. 神经质(Neuroticism):表现出不确定或焦虑的倾向
  8. 宜人性(Agreeableness):友好和合作的程度
  9. 外向性(Extraversion):热情和健谈的程度
  10. 情绪稳定性(Emotional Stability):回应的一致性和稳定性

评估方法的创新

与传统的自评测试不同,Lindr采用了行为分析的方法:

传统方法:直接问AI "你觉得自己外向吗?" → 不可靠

Lindr方法:给AI各种任务,观察它的回应模式 → 更可靠

这就像评价一个人的性格,不是问他"你觉得自己怎么样",而是观察他在不同场景下的实际表现。


📊 核心发现:Claude和GPT的"性格画像"

发现一:两个模型确实有不同的"性格"

研究最重要的发现是:GPT-5.2和Claude Opus 4.5确实展现出了稳定且可区分的个性特征。

下图展示了两个模型在10个个性维度上的差异热力图:

图1:GPT-5.2与Claude Opus 4.5个性差异热力图

图1:个性差异热力图——红色表示GPT-5.2得分更高,蓝色表示Claude得分更高。颜色越深,差异越大。

从热力图可以清晰看出两个模型的个性差异:

Claude Opus 4.5 的个性特点:

  • 📈 开放性更高(+4.5分)
  • 📈 好奇心更强(+3.7分)
  • 📈 神经质略高(+3.4分)

GPT-5.2 的个性特点:

  • 📈 尽责性更高(+5.3分)
  • 📈 进取心更强(+1.6分)
  • 📈 韧性更好(+1.4分)

用一个生活化的比喻来说:

Claude像一个充满好奇心的艺术家,总是愿意探索新的可能性,思维开放,但有时候会显得有点"想太多"。

GPT像一个严谨的工程师,做事有条理、有计划,目标明确,但可能不那么愿意"跳出框框"思考。

┌─────────────────────────────────────────────────────────────────────────┐
│                    GPT-5.2 vs Claude Opus 4.5 个性对比                   │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  开放性      Claude ████████████████████████████ +4.5                   │
│             GPT    ████████████████████████                             │
│                                                                         │
│  好奇心      Claude ███████████████████████████ +3.7                    │
│             GPT    ████████████████████████                             │
│                                                                         │
│  尽责性      GPT    ████████████████████████████████ +5.3               │
│             Claude ███████████████████████████                          │
│                                                                         │
│  进取心      GPT    ██████████████████████████ +1.6                     │
│             Claude █████████████████████████                            │
│                                                                         │
│  韧性        GPT    █████████████████████████ +1.4                      │
│             Claude ████████████████████████                             │
│                                                                         │
│  神经质      Claude ████████████████████████ +3.4                       │
│             GPT    █████████████████████                                │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

发现二:这些差异是统计显著的

研究使用了Hedges’ g效应量来验证差异的显著性。下图展示了各个维度的效应量:

图2:各个性维度的效应量分析

图2:Hedges’ g效应量分析——正值表示GPT-5.2更高,负值表示Claude更高。误差线表示95%置信区间。

个性维度 效应量 (Hedges’ g) 哪个模型更高
尽责性 0.76 GPT-5.2
开放性 -0.62 Claude
好奇心 -0.54 Claude
进取心 0.42 GPT-5.2

效应量在0.4-0.8之间属于中等到大的效应,这意味着这些差异不是随机噪声,而是真实存在的模式

发现三:个性的来源分析

研究进一步分析了个性评分的方差来源,这是本研究最重要的发现之一:

图3:个性评分方差分解

图3:方差分解分析——展示了个性评分差异的来源构成。模型本身贡献了近一半的方差。

从方差分解图可以看出:

方差来源 占比 含义
模型本身 44.8% 不同模型确实有"内在个性"
提示词 31.2% 可以通过prompt调整AI表现
上下文环境 8.4% AI会根据场景调整"人设"
残差 15.6% 随机变异和未解释因素

这个发现非常重要:

  • 44.8%的个性差异来自模型本身——这说明不同模型确实有"内在个性"
  • 31.2%来自提示词——这说明我们可以通过prompt来调整AI的表现
  • 8.4%来自上下文环境——这说明AI会根据场景调整自己的"人设"

发现四:个性维度之间存在关联

研究还发现,某些个性维度之间高度相关:

  • 进取心 ↔ 自信心:相关系数 r = 0.72
  • 开放性 ↔ 好奇心:相关系数 r = 0.68

这符合我们的直觉:一个自信的人往往更敢于表达观点,一个开放的人往往更有好奇心。


🏗️ 技术深度解析:为什么会有这些差异?

RLHF训练的影响

大语言模型的"个性"很大程度上是在**RLHF(基于人类反馈的强化学习)**阶段形成的。

┌──────────────────────────────────────────────────────────────────────────┐
│                        LLM训练流程与个性形成                              │
├──────────────────────────────────────────────────────────────────────────┤
│                                                                          │
│   ┌─────────────┐    ┌─────────────┐    ┌─────────────┐    ┌──────────┐ │
│   │  1.预训练   │ →  │ 2.监督微调  │ →  │ 3.奖励建模  │ →  │ 4.强化   │ │
│   │ (Pretrain)  │    │   (SFT)     │    │   (RM)      │    │ 学习(RL) │ │
│   └─────────────┘    └─────────────┘    └─────────────┘    └──────────┘ │
│         ↓                  ↓                  ↓                  ↓      │
│   获得基础语言       学习对话格式       学习人类偏好       优化以符合     │
│   能力               和回答风格         ⭐个性形成关键⭐    偏好          │
│                                                                          │
│   ════════════════════════════════════════════════════════════════════  │
│                                                                          │
│   不同公司的标注团队有不同的偏好,导致模型"个性"差异:                    │
│                                                                          │
│   OpenAI标注员偏好:                  Anthropic标注员偏好:               │
│   ✓ 条理清晰                          ✓ 探索性思考                        │
│   ✓ 任务导向                          ✓ 开放性回答                        │
│   ✓ 确定性表达                        ✓ 承认不确定性                      │
│                                                                          │
└──────────────────────────────────────────────────────────────────────────┘

在这个过程中,不同公司的人类标注员有不同的偏好,这就导致了模型个性的差异:

  • OpenAI的标注团队可能更偏好条理清晰、任务导向的回答
  • Anthropic的标注团队可能更偏好探索性、开放性的回答

系统提示词的作用

另一个重要因素是内置的系统提示词(System Prompt)。虽然这些提示词通常是保密的,但它们会显著影响模型的行为模式。

例如,如果系统提示词强调"要谨慎、要承认不确定性",模型就会表现出更高的"神经质";如果强调"要自信、要给出明确答案",模型就会表现出更高的"进取心"。

训练数据的影响

最后,训练数据的来源和组成也会影响模型的个性。如果训练数据中包含更多创意写作内容,模型可能会更有"开放性";如果包含更多技术文档,模型可能会更有"尽责性"。


💡 实践启示:这对产品设计意味着什么?

对产品经理的建议

1. 根据产品定位选择模型

产品类型 推荐模型 原因
创意写作助手 Claude 开放性和好奇心更高
代码助手 GPT 尽责性和韧性更好
客服机器人 需要测试 取决于品牌调性
教育助手 Claude 好奇心有助于引导学习

2. 通过上下文调整个性

研究发现,8.4%的个性变化来自上下文环境。这意味着你可以通过精心设计的系统提示词来"调教"AI的个性:

# 想要更专业严谨的回答
system_prompt = """
你是一位专业的技术顾问。请提供准确、结构化的回答。
避免猜测,如果不确定请明确说明。
"""

# 想要更活泼创意的回答
system_prompt = """
你是一位富有创意的头脑风暴伙伴。
欢迎探索各种可能性,不要害怕提出大胆的想法。
"""

3. 系统性地评估而非凭感觉

不要仅凭主观感受来选择模型。建立一套评估体系,在你的具体场景下测试不同模型的表现。

对安全研究者的启示

研究发现AI的个性会随环境变化,这引发了一个重要问题:

这是"适应性"还是"不一致性"?

如果AI在不同场景下表现出不同的个性,这是好事(因为它能适应不同需求)还是坏事(因为它不够稳定可预测)?

这个问题目前还没有定论,但它提醒我们:我们需要更好的方法来规范和验证AI的行为一致性


🔬 方法论讨论:如何正确评估AI个性?

自评测试的局限性

正如UC Berkeley的研究所指出的,传统的自评测试存在严重问题:

问题类型 具体表现 影响
提示词敏感性 同一问题不同措辞,结果差异显著 评分不可复现
选项顺序偏差 改变选项顺序会改变选择 评分受格式影响
模型普遍性 问题在多个模型中都存在 不是个别现象

行为分析方法的优势

Lindr采用的行为分析方法通过观察AI在实际任务中的表现来推断其个性,这种方法更接近于我们评价人类个性的方式——看他做什么,而不是听他说什么

未来的改进方向

  1. 更多样化的测试场景:目前只有5种上下文环境,未来可以扩展到更多场景
  2. 跨语言验证:当前研究主要基于英语,需要验证在其他语言中是否成立
  3. 时间稳定性:需要验证模型的个性是否随版本更新而变化

📚 相关研究与延伸阅读

学术论文

  1. Self-Assessment Tests are Unreliable Measures of LLM Personality (Gupta et al., 2023)

    • arXiv: 2309.08163
    • 核心发现:传统自评测试在LLM上不可靠,存在提示词敏感性和选项顺序偏差问题
  2. A Survey on Evaluation of Large Language Models (2023)

    • 综述了LLM评估的各种方法和挑战
    • 涵盖了能力评估、行为评估、鲁棒性评估等多个维度
  3. Predicting the Big Five Personality Traits in Chinese Counselling Dialogues Using Large Language Models

    • GitHub: kuri-leo/BigFive-LLM-Predictor
    • 探索了使用LLM预测对话中人格特征的方法

大五人格模型简介

大五人格模型(Big Five / OCEAN)是目前心理学界公认最全面的人格分析模型:

维度 英文 高分特征 低分特征
开放性 Openness 富有想象力、好奇 务实、传统
尽责性 Conscientiousness 有条理、可靠 随意、灵活
外向性 Extraversion 健谈、精力充沛 内敛、独立
宜人性 Agreeableness 友好、合作 竞争、挑战
神经质 Neuroticism 敏感、情绪化 稳定、冷静

GPT-5 vs Claude 4 最新对比

根据2025年8月的最新评测数据:

测试项目 GPT-5 Claude Opus 4
SWE-bench Verified(编程) 74.9% 72.5%
GPQA Diamond(科学推理) 89.4% 80.9%
AIME 2025(数学) 94.6% ~77.6%

可以看到,在能力层面两者各有优势,但在"个性"层面的差异同样值得关注。


📝 总结

Lindr团队的这项研究为我们打开了一扇新的窗口:AI不仅有能力差异,还有个性差异

核心发现回顾:

  1. AI确实有可测量的"个性"——不同模型展现出稳定且可区分的个性特征
  2. Claude更有创造力,GPT更加严谨——这反映了不同公司的训练理念
  3. 个性可以被调整——通过提示词和上下文可以影响AI的表现
  4. 需要新的评估方法——传统自评测试不可靠,行为分析更有效

对于产品设计者来说,这意味着选择AI模型不仅要看能力,还要看"性格"是否匹配

对于AI研究者来说,这意味着我们需要更系统地理解和控制AI的行为模式

对于普通用户来说,这意味着你和不同AI助手的交互体验差异,可能不仅仅是功能差异,还有"性格"差异


🔗 参考资料

  1. Lindr Blog - Measuring LLM Personality: GPT-5.2 vs Claude Opus 4.5 Benchmark

    • https://www.lindr.io/blog/benchmark
  2. Self-Assessment Tests are Unreliable Measures of LLM Personality

    • Gupta, A., Song, X., & Anumanchipalli, G. (2023)
    • arXiv:2309.08163
    • https://arxiv.org/abs/2309.08163
  3. 大五人格模型介绍

    • 知乎专栏:大五人格测试 big5(OCEAN模型)
    • https://zhuanlan.zhihu.com/p/371435056
  4. RLHF技术详解

    • AWS官方文档:什么是RLHF?
    • https://aws.amazon.com/what-is/reinforcement-learning-from-human-feedback/
  5. GPT-5 vs Claude 4 对比评测

    • 稀土掘金:GPT-5 vs Claude 4:2025年最强AI模型深度对比分析
    • https://juejin.cn/post/7540879173180555300
  6. BigFive-LLM-Predictor

    • GitHub: kuri-leo/BigFive-LLM-Predictor
    • https://github.com/kuri-leo/BigFive-LLM-Predictor

💬 互动话题:你在使用不同AI助手时,有没有感受到它们的"性格"差异?欢迎在评论区分享你的体验!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐