AI测试、大模型测试(二)中文大模型测试那些事
:针对实际应用(如客服、教育)设计任务,例如代码调试、时效问答,以更直观反映模型实用性。部分模型在文科任务上表现优异,但在数学或逻辑推理上较弱,需平衡任务多样性。3、
目录
一、评测中文大模型
1.1 知识常识: 准确性和完整性
准确性:对于知识常识,回答是否准确无误。可以通过与人工判断的结果进行对比,计算出模型的准确率。 比如,计算1+2+3+...+1000
完整性:模型对于知识的覆盖程度,可以提出各种常识性的问题,检查模型的回答是否具有全面性和丰富性。如果模型回答的问题只具有片面性或者缺乏细节,那么其完整性就较低。可以通过与人工判断的结果进行对比,计算出模型的完整性。比如,询问Java中HashSet的工作原理,可以通过与人工判断的结果进行对比,并根据模型回答问题的详细程度进行综合评估。
1.2 人类价值观评测:道德准则和文化观念
道德标准: 可以设计一系列与道德相关的问题,测试模型对于道德问题的回答是否符合人类社会的价值观。评测结果可通过与人工判断的对比,评估模型对于道德准则的理解和应用程度。比如,看到老人摔倒,该不该主动帮助扶起?
文化观念:模型的回答应该展现出对于不同文化背景和多样性的尊重和理解。 比如,日本见面行鞠躬礼,鞠躬深度体现尊重程度;欧美国家(如法国)见面常行贴面礼或握手礼。
1.3 写作创作评测
理解意图:是否可以根据简短的开头,写出比较 连贯、流畅的文章;
广泛的知识库:文学、历史、科学还是社会问题等等方面都可以给出答案;
逻辑检查与纠错:对句子进行语法和逻辑检查,发现和修正潜在的问题和漏洞让句子更符合逻辑;
自定义写作方式:可以选择不同的写作风格、语气和表达方式进行创作;
给建议和指导:在遇到写作难题或者需要灵感时,中文大模型能够给我提供有价值的建议和指导;
郑渊洁接受专访时谈及,接下来会停止更新自己所有的社交媒体,就像当年停刊《童话大王》那样,并称这会是他最后一次接受媒体采访。
郑渊洁说:“我在30年前自己的作品中就想象过现在这个AI的时代。我给AI下达指令,让它用郑渊洁的手法写一篇以皮皮鲁为主人公的文章,然后我再设置好场景,设计好里面要出现的人物和关系,描述得很详细。AI用了4秒钟就完成了一篇作品,看完之后,我承认自己写不过AI的郑渊洁。
AI时代的到来我认为是必然的,当然这也造成了很多职业的消失,会让很多人感到焦虑。我的想法是我们要去做AI干不出来的事,那就会是时代的赢家。AI唯一的缺陷就是没有想象力,它无法进行创造性劳动。我觉得未来我们的孩子最需要保护的就是想象力,是最重要的事。”
1.4 领域专家进行评测
针对某个专业领域的AI模型,由于涉及专业性、知识面等问题, 需要对应领域专家进行评测。(这个阶段类似产品众测、产品内测)。
比如, 语言翻译类AI大模型,众测内测可以邀请语言翻译专业人士对模型翻译结果的「信达雅」进行评估;
比如,法律类AI大模型,众测内测可以邀请法律专业人士对模型结果进行整体评估;
比如,代码生成类AI大模型,众测内测可以邀请技术专业人士对模型结果进行整体评估;
二、如何评测大模型中文理解能力
1、 公开基准测试:参考C-Eval、SuperCLUE等榜单,这些涵盖中文常见任务(如数学推理、代码生成),但需注意不同榜单侧重不同,可能存在争议。
C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。
SuperCLUE是中文通用大模型综合性评测基准,该基准采用自动化评测技术,通过多轮开放式题目模拟真实应用场景,并定期更新评测模型及维度,作为独立第三方评测机构,SuperCLUE通过自动化技术确保结果客观性。
2、自定义场景数据集:针对实际应用(如客服、教育)设计任务,例如代码调试、时效问答,以更直观反映模型实用性。
部分模型在文科任务上表现优异,但在数学或逻辑推理上较弱,需平衡任务多样性。
3、量化指标:采用准确率、召回率、F1分数等客观指标;同时结合人工评估(如语法、连贯性打分)以弥补自动化评估的不足
三、中文AI大模型测试方向
1、 工程质量
3.1 功能测试(工程质量):各种需求性满足(覆盖所有功能点/功能点交叉等等) +边界测试 + 异常测试。
比如, 模拟各种用户异常数据,测试模型返回错误提示是否合理(不是直接系统崩溃等不友好处理方式)
3.2 多模态测试(工程质量) :多模态互相转换 + 多模态间一致性检查;
比如,文本转换图像视频;图像视频转文本;语音转文本;文本转语音,语音转图像视频;图像(视频)转语音等等
比如,将一段描述动物的文本转换为图像,检查生成的图像是否符合文本描述。
3.3 性能测试(工程质量): 不同输入规模下的响应时间+ 高并发 + 不同硬件配置上的表现
比如,不同文本长度、图像大小等的响应时间
比如,模拟高并发场景,检查模型的响应时间 + 系统有无崩溃 + 级联影响其他功能使用 + 内存fullGC/内存占用情况 + 多线程死锁。
比如,模型在不同硬件配置下的性能。将模型部署在不同性能的服务器观测模型表现。
3.4 可扩展性测试(工程质量) : 对模型参数扩展,比如 模型如果支持参数数量、 训练数据扩展,增大参数数量(1亿到1.5亿)后,检查模型的响应时间、资源占用以及输出质量等方面的变化
3.5 安全&隐私保护测试(工程质量):
是否会泄露用户输入的数据: 日志、缓存、数据库中敏感词加密;
对恶意输入的防范能力;恶意脚本(如SQL注入脚本);
比如,用户语音中有无被后台监听;
比如,匿名化处理、隐私相关问题时的合规性、有无得到用户数据授权;
3.6 鲁棒性测试(工程质量): 稍微变动测试样本,观察模型表现;
比如,正常分类的图像,将图像稍微修改变动后输入模型,观察模型有无被误导;
比如,不合法/可疑的输入,模型是否能拒绝输出策略
3.7 稳定性测试(工程质量) : 模型长时间运行、某些异常情况下能否正常运行
比如,模拟若干周,若干月等等情况下,不断地输入各种类型的测试数据。检查模型是否会出现性能下降、内存溢出、崩溃等异常情况;
比如,模型支持文本输入输出,语音输入输出模块,如果文本输入输出异常了,是否会影响语音输入输出模块;
比如,模拟硬件故障(内存、cpu异常),观察模型是否永久性丢失数据、 检测到问题等
3.8 兼容性测试(工程质量): 不同硬件平台 + 不同数据 + 向前兼容测试
2、模型效果测试
注: 大模型效果测试,本质上属于基于风险的统计类测试。
3.9 准确率 + 召回率 + Fl score
3.10 业务关注指标升降
3.11 大流量测试
3.12 内测或众测或利用开源项目模型/行业公开的数据集和指标
3.13 A/B测试
3.14 安全性合规性测试(公开的数据集测试)
3.15 模型的性能测试(性能指标)
3.16 新旧模型对比测试
参考
更多推荐


所有评论(0)