登录社区云,与社区用户共同成长
邀请您加入社区
《程序员的自我修养》链接:https://pan.baidu.com/s/14rGjZnE9K99Vz6a7hlLZjw提取码:wcqp
《程序员的自我修养》 链接:https://pan.baidu.com/s/14rGjZnE9K99Vz6a7hlLZjw 提取码:wcqp
有“AI”的1024 = 2048,欢迎大家加入2048 AI社区
更多推荐
TongSIM:智能机器仿真通用平台
KIMI K2.5:视觉智体智能
LLM-as-a-Judge:把大模型评估变成一门工程能力
LLM-as-a-Judge(简称 LLM Judge)是一种评估范式:让一个能力更强或独立配置的大模型,充当“裁判”,去评估另一个模型的输出质量。它的目标不是替代人工,而是在可控成本下,逼近人工判断。自 GPT-4 之后,研究和实践都发现:强模型在很多开放任务上的评估结果,与人类偏好高度相关。在一些任务上,一致率可以达到 85%-95%。这使得 LLM-as-a-Judge 从研究实验,迅速进入
扫一扫分享内容
所有评论(0)