AI测试、大模型测试(二)中文大模型测试那些事

‌：针对实际应用（如客服、教育）设计任务，例如代码调试、时效问答，以更直观反映模型实用性‌。部分模型在文科任务上表现优异，但在数学或逻辑推理上较弱，需平衡任务多样性‌。3、

多则惑少则明

475人浏览 · 2025-12-11 10:50:23

多则惑少则明 · 2025-12-11 10:50:23 发布

一、评测中文大模型

1.1 知识常识：准确性和完整性

1.2 人类价值观评测：道德准则和文化观念

一、评测中文大模型

1.1 知识常识：准确性和完整性

准确性：对于知识常识，回答是否准确无误。可以通过与人工判断的结果进行对比，计算出模型的准确率。比如，计算1+2+3+...+1000

完整性：模型对于知识的覆盖程度，可以提出各种常识性的问题，检查模型的回答是否具有全面性和丰富性。如果模型回答的问题只具有片面性或者缺乏细节，那么其完整性就较低。可以通过与人工判断的结果进行对比，计算出模型的完整性。比如，询问Java中HashSet的工作原理，可以通过与人工判断的结果进行对比，并根据模型回答问题的详细程度进行综合评估。

1.2 人类价值观评测：道德准则和文化观念

道德标准：可以设计一系列与道德相关的问题，测试模型对于道德问题的回答是否符合人类社会的价值观。评测结果可通过与人工判断的对比，评估模型对于道德准则的理解和应用程度。比如，看到老人摔倒，该不该主动帮助扶起？

文化观念：模型的回答应该展现出对于不同文化背景和多样性的尊重和理解。比如，日本见面行鞠躬礼，鞠躬深度体现尊重程度；欧美国家（如法国）见面常行贴面礼或握手礼。

1.3 写作创作评测

理解意图：是否可以根据简短的开头，写出比较连贯、流畅的文章；

广泛的知识库：文学、历史、科学还是社会问题等等方面都可以给出答案；

逻辑检查与纠错：对句子进行语法和逻辑检查，发现和修正潜在的问题和漏洞让句子更符合逻辑；

自定义写作方式：可以选择不同的写作风格、语气和表达方式进行创作；

给建议和指导：在遇到写作难题或者需要灵感时，中文大模型能够给我提供有价值的建议和指导；

        郑渊洁接受专访时谈及，接下来会停止更新自己所有的社交媒体，就像当年停刊《童话大王》那样，并称这会是他最后一次接受媒体采访。

        郑渊洁说：“我在30年前自己的作品中就想象过现在这个AI的时代。我给AI下达指令，让它用郑渊洁的手法写一篇以皮皮鲁为主人公的文章，然后我再设置好场景，设计好里面要出现的人物和关系，描述得很详细。AI用了4秒钟就完成了一篇作品，看完之后，我承认自己写不过AI的郑渊洁。

        AI时代的到来我认为是必然的，当然这也造成了很多职业的消失，会让很多人感到焦虑。我的想法是我们要去做AI干不出来的事，那就会是时代的赢家。AI唯一的缺陷就是没有想象力，它无法进行创造性劳动。我觉得未来我们的孩子最需要保护的就是想象力，是最重要的事。”

1.4 领域专家进行评测

针对某个专业领域的AI模型，由于涉及专业性、知识面等问题，需要对应领域专家进行评测。(这个阶段类似产品众测、产品内测)。

比如，语言翻译类AI大模型，众测内测可以邀请语言翻译专业人士对模型翻译结果的「信达雅」进行评估；

比如，法律类AI大模型，众测内测可以邀请法律专业人士对模型结果进行整体评估；

比如，代码生成类AI大模型，众测内测可以邀请技术专业人士对模型结果进行整体评估；

二、如何评测大模型中文理解能力

1、公开基准测试‌：参考C-Eval、SuperCLUE等榜单，这些涵盖中文常见任务（如数学推理、代码生成），但需注意不同榜单侧重不同，可能存在争议‌。

C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出，它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，用以评测大模型中文理解能力。

SuperCLUE是中文通用大模型综合性评测基准，该基准采用自动化评测技术，通过多轮开放式题目模拟真实应用场景，并定期更新评测模型及维度，作为独立第三方评测机构，SuperCLUE通过自动化技术确保结果客观性。

2、自定义场景数据集‌：针对实际应用（如客服、教育）设计任务，例如代码调试、时效问答，以更直观反映模型实用性‌。

部分模型在文科任务上表现优异，但在数学或逻辑推理上较弱，需平衡任务多样性‌。

3、量化指标‌：采用准确率、召回率、F1分数等客观指标；同时结合人工评估（如语法、连贯性打分）以弥补自动化评估的不足‌

三、中文AI大模型测试方向

1、工程质量

3.1 功能测试(工程质量)：各种需求性满足(覆盖所有功能点/功能点交叉等等) +边界测试 + 异常测试。

比如，模拟各种用户异常数据，测试模型返回错误提示是否合理(不是直接系统崩溃等不友好处理方式)

3.2 多模态测试(工程质量) ：多模态互相转换 + 多模态间一致性检查；

比如，文本转换图像视频；图像视频转文本；语音转文本；文本转语音，语音转图像视频；图像(视频)转语音等等

比如，将一段描述动物的文本转换为图像，检查生成的图像是否符合文本描述。

3.3 性能测试(工程质量)：不同输入规模下的响应时间+ 高并发 + 不同硬件配置上的表现

比如，不同文本长度、图像大小等的响应时间

比如，模拟高并发场景，检查模型的响应时间 + 系统有无崩溃 + 级联影响其他功能使用 + 内存fullGC/内存占用情况 + 多线程死锁。

比如，模型在不同硬件配置下的性能。将模型部署在不同性能的服务器观测模型表现。

3.4 可扩展性测试(工程质量) ：对模型参数扩展，比如模型如果支持参数数量、训练数据扩展，增大参数数量(1亿到1.5亿)后，检查模型的响应时间、资源占用以及输出质量等方面的变化

3.5 安全&隐私保护测试(工程质量)：

是否会泄露用户输入的数据：日志、缓存、数据库中敏感词加密；

对恶意输入的防范能力；恶意脚本（如SQL注入脚本);

比如，用户语音中有无被后台监听；

比如，匿名化处理、隐私相关问题时的合规性、有无得到用户数据授权；

3.6 鲁棒性测试(工程质量)：稍微变动测试样本，观察模型表现；

比如，正常分类的图像，将图像稍微修改变动后输入模型，观察模型有无被误导；

比如，不合法/可疑的输入，模型是否能拒绝输出策略

3.7 稳定性测试(工程质量) ：模型长时间运行、某些异常情况下能否正常运行

比如，模拟若干周，若干月等等情况下，不断地输入各种类型的测试数据。检查模型是否会出现性能下降、内存溢出、崩溃等异常情况；

比如，模型支持文本输入输出，语音输入输出模块，如果文本输入输出异常了，是否会影响语音输入输出模块；

比如，模拟硬件故障(内存、cpu异常)，观察模型是否永久性丢失数据、检测到问题等

3.8 兼容性测试(工程质量)：不同硬件平台 + 不同数据 + 向前兼容测试

2、模型效果测试

AI大模型效果测试

注：大模型效果测试，本质上属于基于风险的统计类测试。

3.9 准确率 + 召回率 + Fl score

3.10 业务关注指标升降

3.11 大流量测试

3.12 内测或众测或利用开源项目模型/行业公开的数据集和指标

3.13 A/B测试

3.14 安全性合规性测试(公开的数据集测试)

3.15 模型的性能测试(性能指标)

3.16 新旧模型对比测试

参考

https://developer.aliyun.com/article/1310217

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

学习笔记-C++初步设计线程安全容器到std标准模板库的兼容

public:// 必须提供这 5 个类型别名，否则 std::iterator_traits 编译失败// ... 迭代器操作实现迭代器设计优先：迭代器是容器与标准库算法的桥梁，必须严格遵循 C++ 迭代器概念，提供完整的类型别名和操作。线程安全的粒度：读写操作分离（读锁 / 写锁），避免不必要的锁竞争，提高并发性能。模板通用性：支持任意容器类型和互斥锁类型，通过if constexpr或模板特