目录

一、评测中文大模型

1.1 知识常识: 准确性和完整性

1.2 人类价值观评测:道德准则和文化观念

1.3 写作创作评测

1.4 领域专家进行评测

二、如何评测大模型中文理解能力

三、中文AI大模型测试方向

1、 工程质量

2、模型效果测试


一、评测中文大模型

1.1 知识常识: 准确性和完整性

准确性:对于知识常识,回答是否准确无误。可以通过与人工判断的结果进行对比,计算出模型的准确率。 比如,计算1+2+3+...+1000

完整性:模型对于知识的覆盖程度,可以提出各种常识性的问题,检查模型的回答是否具有全面性和丰富性。如果模型回答的问题只具有片面性或者缺乏细节,那么其完整性就较低。可以通过与人工判断的结果进行对比,计算出模型的完整性。比如,询问Java中HashSet的工作原理,可以通过与人工判断的结果进行对比,并根据模型回答问题的详细程度进行综合评估。

1.2 人类价值观评测:道德准则和文化观念

道德标准: 可以设计一系列与道德相关的问题,测试模型对于道德问题的回答是否符合人类社会的价值观。评测结果可通过与人工判断的对比,评估模型对于道德准则的理解和应用程度。比如,看到老人摔倒,该不该主动帮助扶起?

文化观念:模型的回答应该展现出对于不同文化背景和多样性的尊重和理解。 比如,日本见面行鞠躬礼,鞠躬深度体现尊重程度;欧美国家(如法国)见面常行贴面礼或握手礼。

1.3 写作创作评测

理解意图:是否可以根据简短的开头,写出比较 连贯、流畅的文章;

广泛的知识库:文学、历史、科学还是社会问题等等方面都可以给出答案;

逻辑检查与纠错:对句子进行语法和逻辑检查,发现和修正潜在的问题和漏洞让句子更符合逻辑;

自定义写作方式:可以选择不同的写作风格、语气和表达方式进行创作;

给建议和指导:在遇到写作难题或者需要灵感时,中文大模型能够给我提供有价值的建议和指导;

        郑渊洁接受专访时谈及,接下来会停止更新自己所有的社交媒体,就像当年停刊《童话大王》那样,并称这会是他最后一次接受媒体采访。

        郑渊洁说:“我在30年前自己的作品中就想象过现在这个AI的时代。我给AI下达指令,让它用郑渊洁的手法写一篇以皮皮鲁为主人公的文章,然后我再设置好场景,设计好里面要出现的人物和关系,描述得很详细。AI用了4秒钟就完成了一篇作品,看完之后,我承认自己写不过AI的郑渊洁。

        AI时代的到来我认为是必然的,当然这也造成了很多职业的消失,会让很多人感到焦虑。我的想法是我们要去做AI干不出来的事,那就会是时代的赢家。AI唯一的缺陷就是没有想象力,它无法进行创造性劳动。我觉得未来我们的孩子最需要保护的就是想象力,是最重要的事。”

1.4 领域专家进行评测

        针对某个专业领域的AI模型,由于涉及专业性、知识面等问题, 需要对应领域专家进行评测。(这个阶段类似产品众测、产品内测)。

比如, 语言翻译类AI大模型,众测内测可以邀请语言翻译专业人士对模型翻译结果的「信达雅」进行评估;

比如,法律类AI大模型,众测内测可以邀请法律专业人士对模型结果进行整体评估;

比如,代码生成类AI大模型,众测内测可以邀请技术专业人士对模型结果进行整体评估;

二、如何评测大模型中文理解能力

1、 公开基准测试‌:参考C-Eval、SuperCLUE等榜单,这些涵盖中文常见任务(如数学推理、代码生成),但需注意不同榜单侧重不同,可能存在争议‌。

C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。

SuperCLUE是中文通用大模型综合性评测基准,该基准采用自动化评测技术,通过多轮开放式题目模拟真实应用场景,并定期更新评测模型及维度,作为独立第三方评测机构,SuperCLUE通过自动化技术确保结果客观性。

2、自定义场景数据集‌:针对实际应用(如客服、教育)设计任务,例如代码调试、时效问答,以更直观反映模型实用性‌。

部分模型在文科任务上表现优异,但在数学或逻辑推理上较弱,需平衡任务多样性‌。

3、量化指标‌:采用准确率、召回率、F1分数等客观指标;同时结合人工评估(如语法、连贯性打分)以弥补自动化评估的不足‌

三、中文AI大模型测试方向

1、 工程质量

3.1 功能测试(工程质量):各种需求性满足(覆盖所有功能点/功能点交叉等等) +边界测试 + 异常测试。

比如, 模拟各种用户异常数据,测试模型返回错误提示是否合理(不是直接系统崩溃等不友好处理方式)

3.2 多模态测试(工程质量) :多模态互相转换 + 多模态间一致性检查;

比如,文本转换图像视频;图像视频转文本;语音转文本;文本转语音,语音转图像视频;图像(视频)转语音等等

比如,将一段描述动物的文本转换为图像,检查生成的图像是否符合文本描述。

3.3 性能测试(工程质量): 不同输入规模下的响应时间+ 高并发 + 不同硬件配置上的表现

比如,不同文本长度、图像大小等的响应时间

比如,模拟高并发场景,检查模型的响应时间 + 系统有无崩溃 + 级联影响其他功能使用 + 内存fullGC/内存占用情况 + 多线程死锁。 

比如,模型在不同硬件配置下的性能。将模型部署在不同性能的服务器观测模型表现。

3.4 可扩展性测试(工程质量) : 对模型参数扩展,比如 模型如果支持参数数量、 训练数据扩展,增大参数数量(1亿到1.5亿)后,检查模型的响应时间、资源占用以及输出质量等方面的变化

3.5 安全&隐私保护测试(工程质量): 

是否会泄露用户输入的数据: 日志、缓存、数据库中敏感词加密;

对恶意输入的防范能力;恶意脚本(SQL注入脚本);

比如,用户语音中有无被后台监听;

比如,匿名化处理、隐私相关问题时的合规性、有无得到用户数据授权;

3.6 鲁棒性测试(工程质量): 稍微变动测试样本,观察模型表现;

比如,正常分类的图像,将图像稍微修改变动后输入模型,观察模型有无被误导;

比如,不合法/可疑的输入,模型是否能拒绝输出策略

3.7 稳定性测试(工程质量) : 模型长时间运行、某些异常情况下能否正常运行

比如,模拟若干周,若干月等等情况下,不断地输入各种类型的测试数据。检查模型是否会出现性能下降、内存溢出、崩溃等异常情况;

比如,模型支持文本输入输出,语音输入输出模块,如果文本输入输出异常了,是否会影响语音输入输出模块;

比如,模拟硬件故障(内存、cpu异常),观察模型是否永久性丢失数据、 检测到问题等

3.8 兼容性测试(工程质量):  不同硬件平台 + 不同数据 + 向前兼容测试

2、模型效果测试

   AI大模型效果测试

注: 大模型效果测试,本质上属于基于风险的统计类测试。

3.9  准确率 + 召回率 + Fl score

3.10 业务关注指标升降

3.11 大流量测试

3.12  内测或众测或利用开源项目模型/行业公开的数据集和指标

3.13  A/B测试

3.14 安全性合规性测试(公开的数据集测试)

3.15 模型的性能测试(性能指标)

3.16 新旧模型对比测试

参考

https://developer.aliyun.com/article/1310217

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐