测试报告:瑞芯微RK3588与爱芯元智AX650N芯片在QWen大模型下的性能对比分析

本次测试报告对不同模型在不同硬件环境下的输入输出性能进行了对比分析。测试内容包括输入和输出的Token数量(每秒),不同厂商的硬件配置(瑞芯微与爱芯元智)以及模型的大小与架构(Qwen系列)。以下为详细测试结果和分析:

测试提示词:

请简要说明 Transformer 在时间序列预测中的一个典型应用场景。请用中文回答问题,控制在 120~200 字之间。

测试数据表:

模型名称 输入内容 厂商 测试硬件 每秒输入token 每秒输出token
Qwen2.5-0.5B-Instruct_W8A8_RK3588.rkllm 文字 瑞芯微 rk3588 808.2 39.49
Qwen3-0.6B_W8A8_RK3588.rkllm 文字 瑞芯微 rk3588 521.68 30.78
Qwen2.5-1.5B_W8A8_RK3588.rkllm 文字 瑞芯微 rk3588 288.72 16.43
Qwen3-1.7B_W8A8_RK3588.rkllm 文字 瑞芯微 rk3588 270.19 14.67
Qwen3-4B-Base_W8A8_RK3588.rkllm 文字 瑞芯微 rk3588 117.43 6.71
Qwen2.5-0.5B-Instruct-GPTQ-Int4 文字 爱芯元智 AX650N 113.03 6.42
Qwen2.5-1.5B-Instruct 文字 爱芯元智 AX650N 64.83 4.64
Qwen3-0.6B 文字 爱芯元智 AX650N 73.97 4.55
Qwen3_1.7b_int8 文字 爱芯元智 AX650N 62.84 3.63
Qwen3_4b_int8 文字 爱芯元智 AX650N 32.87 2.31

测试结果分析:

  1. 输入和输出性能对比
    • **瑞芯微硬件(RK3588)**上的Qwen系列模型表现较为出色,尤其是在Qwen2.5-0.5B-Instruct模型上,每秒输入Token高达808.2,输出Token为39.49,表现明显优于其他型号。
    • 随着模型规模的增大,特别是在Qwen3系列中,输入和输出Token数量都有所下降。例如,Qwen3-4B-Base在每秒输入Token仅为117.43,输出Token为6.71,性能显著下降。
  2. **爱芯元智硬件(AX650N)**上的表现:
    • 与瑞芯微硬件相比,爱芯元智的AX650N硬件在处理相同规模的Qwen系列模型时,其性能有所下降。例如,Qwen2.5-0.5B-Instruct-GPTQ-Int4每秒输入Token为113.03,输出Token为6.42,远低于瑞芯微上的表现。
    • Qwen3系列的表现也同样如此,尤其是在Qwen3_4b_int8模型中,每秒输入Token仅为32.87,输出Token仅为2.31。
  3. 模型规模与性能关系
    • 从表格中可以看到,较大的模型(如Qwen3-4B-Base和Qwen3_4b_int8)普遍表现较差,不论是输入Token还是输出Token的处理速度都较低。这表明,尽管更大的模型在某些任务中可能有更强的能力,但它们对硬件资源的要求更高,导致处理速度的降低。

RK3588与AX650N的硬件对比:

参数 A650N RK3588
处理器 Octa-core Cortex-A55 @1.7GHz 8核(4×Cortex-A76 + 4×Cortex-A55),最高3.2GHz
内存 8GB LPDDR4x, 64bit 最大16GB LPDDR4/LPDDR4x/DDR4, 最大带宽51.2GB/s
存储 16MB Nor Flash 支持eMMC 5.1, SD 3.0, NVMe 存储接口
NPU性能 18TOPs (Int8) / 72TOPs (Int4) 6TOPs
视频编码 H.264/H.265 16路 1080p @30fps 编码 H.265 4K @60fps, H.264 1080p @60fps, VP9 4K @120fps
视频解码 H.264/H.265 32路 1080p @30fps 解码 H.265 8K @60fps, VP9 4K @120fps, H.264 1080p @60fps
图形处理 不提及 Mali-G610 MP4 GPU, GPU核心频率850 MHz
扩展与接口 支持 Intel、AMD、NXP、Xilinx、Raspberry Pi等 PCIe 3.0, USB 2.0/3.0/3.1 Host/OTG, MIPI-CSI 4
操作系统支持 Ubuntu, Debian, CentOS, Kylin, UOS Ubuntu, Debian, CentOS 等
功耗 ≤ 8W ≤ 15W
外形尺寸 M.2 2280, M Key 封装类型:BGA 27×27 mm, 引脚数520-pin
工作电压 3.3V 不明确,通常为3.3V
最大分辨率 4K@60fps 8K (7680×4320)
多显示器支持 支持最多2个显示输出 支持最多4个显示输出
应用场景 边缘计算、AI终端、视频监控等 工业平板、智能终端、边缘AI、嵌入式开发板、高清视频播放等

综合结论:

  1. RK3588适用场景:适合广泛的嵌入式开发、边缘计算和多媒体应用,特别是在需要较高计算能力和大内存的场景下表现优异。对于高吞吐量的应用,较小的模型(如Qwen2.5-0.5B-Instruct)能够在其硬件上获得更好的性能。

  2. AX650N适用场景:专注于高效的AI推理和视频处理,特别适合低延迟和大规模的视频解码应用。由于其资源和计算能力的限制,AX650N不适合处理大规模的模型。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐