模型性能评估

eval-uncheatable

MMLU & MMLU PRO

评估模型在多学科知识的综合能力(MMLU PRO 难度比 MMLU 更高)。

benchmark-mmlu

GSM8K

评估模型在中学难度数学应用题的推理能力。

benchmark-gsm8k

MATH500

测试模型在更难数学问题的解题能力。

benchmark-math500

CEval

以多行业真实试题,评估模型中文理解和专业知识。

benchmark-ceval

模型实战

G0a3 模型加入更多数据,显著提升 vibe coding 能力。回顾上版模型:RWKV7-G0a2 7.2B 发布:纯 RNN 也能 vibe coding

代码推荐解码参数:Temperature=1,Top_P=0.3,Presence Penalty=1,Frequency Penalty=0.1,decay=0.99

我们使用上次测试的 prompt:请生成一个蓝紫色主题(主色调为 #6A5ACD,辅助色为白色)的现代用户卡片组件。卡片内必须包含:1. 用户头像(圆形占位符);2. 用户名;3. 一句签名(使用斜体字);4. 一个蓝色关注按钮;5. 整体 布局居中。

然后把输出放到 https://html.onlineviewer.net/ 看效果,显著更好:

vibe-card

上次的第二个 vibe coding prompt:请给前沿科技媒体机器之心设计一个前沿风格网页,要求置顶部分滚动播出实时AI新闻。在抽卡几次后,G0a3 成功实现了滚动文字。

vibe-web2

第三个 vibe coding prompt:请生成精美的HTML网页:鲁迅纪念馆

vibe-web3

尝试更详细的 prompt: 请生成一个主题为“鲁迅纪念馆”的精美 HTML 网页,要求:* 包含顶部导航、横幅、展览介绍、鲁迅生平时间线、代表作品、纪念照片墙、参观信息、页脚 * 网页整体要符合纪念馆庄重、文化的气质,G0a3 模型遵循了指令:

vibe-web4

所有生成的代码都在文末附录。我们会持续发布 vibe coding 能力显著更强的模型。

如前所述,RWKV 作为纯 RNN 模型,尤其适合大规模并行生成:RWKV-7 7B 单 5090 解码 10000+ tok/s 演示

我们提供了大规模并行生成网页的推理工具:

效果预览:

batch-web

小说和故事创作

创作任务推荐的解码参数:Temperature=0.6,Top_P=0.7,Presence Penalty=2,Frequency Penalty=0.2

我们在新模型主蒸 DeepSeek v3.1,可以看到它的显著风格:

story

模型下载

下载 RWKV7-G0a3 7.2B 模型(.pth 格式):

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐