测试报告:瑞芯微RK3588与爱芯元智AX650N芯片在QWen大模型下的性能对比分析
摘要:本报告对比了瑞芯微RK3588与爱芯元智AX650N芯片在运行Qwen系列大模型时的性能表现。测试显示,RK3588在较小模型(Qwen2.5-0.5B)上表现优异,输入/输出token分别达808.2/39.49每秒,但随着模型增大性能下降;AX650N整体性能较低,Qwen2.5-0.5B输入仅113.03token/秒。硬件对比表明RK3588适用于高性能计算场景,而AX650N更适合
·
测试报告:瑞芯微RK3588与爱芯元智AX650N芯片在QWen大模型下的性能对比分析
本次测试报告对不同模型在不同硬件环境下的输入输出性能进行了对比分析。测试内容包括输入和输出的Token数量(每秒),不同厂商的硬件配置(瑞芯微与爱芯元智)以及模型的大小与架构(Qwen系列)。以下为详细测试结果和分析:
测试提示词:
请简要说明 Transformer 在时间序列预测中的一个典型应用场景。请用中文回答问题,控制在 120~200 字之间。
测试数据表:
| 模型名称 | 输入内容 | 厂商 | 测试硬件 | 每秒输入token | 每秒输出token |
|---|---|---|---|---|---|
| Qwen2.5-0.5B-Instruct_W8A8_RK3588.rkllm | 文字 | 瑞芯微 | rk3588 | 808.2 | 39.49 |
| Qwen3-0.6B_W8A8_RK3588.rkllm | 文字 | 瑞芯微 | rk3588 | 521.68 | 30.78 |
| Qwen2.5-1.5B_W8A8_RK3588.rkllm | 文字 | 瑞芯微 | rk3588 | 288.72 | 16.43 |
| Qwen3-1.7B_W8A8_RK3588.rkllm | 文字 | 瑞芯微 | rk3588 | 270.19 | 14.67 |
| Qwen3-4B-Base_W8A8_RK3588.rkllm | 文字 | 瑞芯微 | rk3588 | 117.43 | 6.71 |
| Qwen2.5-0.5B-Instruct-GPTQ-Int4 | 文字 | 爱芯元智 | AX650N | 113.03 | 6.42 |
| Qwen2.5-1.5B-Instruct | 文字 | 爱芯元智 | AX650N | 64.83 | 4.64 |
| Qwen3-0.6B | 文字 | 爱芯元智 | AX650N | 73.97 | 4.55 |
| Qwen3_1.7b_int8 | 文字 | 爱芯元智 | AX650N | 62.84 | 3.63 |
| Qwen3_4b_int8 | 文字 | 爱芯元智 | AX650N | 32.87 | 2.31 |
测试结果分析:
- 输入和输出性能对比:
- **瑞芯微硬件(RK3588)**上的Qwen系列模型表现较为出色,尤其是在Qwen2.5-0.5B-Instruct模型上,每秒输入Token高达808.2,输出Token为39.49,表现明显优于其他型号。
- 随着模型规模的增大,特别是在Qwen3系列中,输入和输出Token数量都有所下降。例如,Qwen3-4B-Base在每秒输入Token仅为117.43,输出Token为6.71,性能显著下降。
- **爱芯元智硬件(AX650N)**上的表现:
- 与瑞芯微硬件相比,爱芯元智的AX650N硬件在处理相同规模的Qwen系列模型时,其性能有所下降。例如,Qwen2.5-0.5B-Instruct-GPTQ-Int4每秒输入Token为113.03,输出Token为6.42,远低于瑞芯微上的表现。
- Qwen3系列的表现也同样如此,尤其是在Qwen3_4b_int8模型中,每秒输入Token仅为32.87,输出Token仅为2.31。
- 模型规模与性能关系:
- 从表格中可以看到,较大的模型(如Qwen3-4B-Base和Qwen3_4b_int8)普遍表现较差,不论是输入Token还是输出Token的处理速度都较低。这表明,尽管更大的模型在某些任务中可能有更强的能力,但它们对硬件资源的要求更高,导致处理速度的降低。
RK3588与AX650N的硬件对比:
| 参数 | A650N | RK3588 |
|---|---|---|
| 处理器 | Octa-core Cortex-A55 @1.7GHz | 8核(4×Cortex-A76 + 4×Cortex-A55),最高3.2GHz |
| 内存 | 8GB LPDDR4x, 64bit | 最大16GB LPDDR4/LPDDR4x/DDR4, 最大带宽51.2GB/s |
| 存储 | 16MB Nor Flash | 支持eMMC 5.1, SD 3.0, NVMe 存储接口 |
| NPU性能 | 18TOPs (Int8) / 72TOPs (Int4) | 6TOPs |
| 视频编码 | H.264/H.265 16路 1080p @30fps 编码 | H.265 4K @60fps, H.264 1080p @60fps, VP9 4K @120fps |
| 视频解码 | H.264/H.265 32路 1080p @30fps 解码 | H.265 8K @60fps, VP9 4K @120fps, H.264 1080p @60fps |
| 图形处理 | 不提及 | Mali-G610 MP4 GPU, GPU核心频率850 MHz |
| 扩展与接口 | 支持 Intel、AMD、NXP、Xilinx、Raspberry Pi等 | PCIe 3.0, USB 2.0/3.0/3.1 Host/OTG, MIPI-CSI 4 |
| 操作系统支持 | Ubuntu, Debian, CentOS, Kylin, UOS | Ubuntu, Debian, CentOS 等 |
| 功耗 | ≤ 8W | ≤ 15W |
| 外形尺寸 | M.2 2280, M Key | 封装类型:BGA 27×27 mm, 引脚数520-pin |
| 工作电压 | 3.3V | 不明确,通常为3.3V |
| 最大分辨率 | 4K@60fps | 8K (7680×4320) |
| 多显示器支持 | 支持最多2个显示输出 | 支持最多4个显示输出 |
| 应用场景 | 边缘计算、AI终端、视频监控等 | 工业平板、智能终端、边缘AI、嵌入式开发板、高清视频播放等 |
综合结论:
-
RK3588适用场景:适合广泛的嵌入式开发、边缘计算和多媒体应用,特别是在需要较高计算能力和大内存的场景下表现优异。对于高吞吐量的应用,较小的模型(如Qwen2.5-0.5B-Instruct)能够在其硬件上获得更好的性能。
-
AX650N适用场景:专注于高效的AI推理和视频处理,特别适合低延迟和大规模的视频解码应用。由于其资源和计算能力的限制,AX650N不适合处理大规模的模型。
更多推荐



所有评论(0)