各家大模型对微信小程序的理解能力测评(2025-08-23)
为了验证合理的对比各个模型的能力,我选取了控制变量法同一个提示词,交给不同的模型,产出pages目录,在微信开发者工具下进行预览,比较效果。关闭联网,防止提示词变量。为什么选择微信小程序,而不是html?微信小程序文档更少,看模型在数据量少的情况下产出高质量的结果。有没有把充分的微信小程序的数据纳入训练文无第一,武无第二,我们很难说哪个模型好,哪个模型不好,但是在面对具体的任务的时候,是骡子是马一
为了验证合理的对比各个模型的能力,我选取了控制变量法
同一个提示词,交给不同的模型,产出pages目录,在微信开发者工具下进行预览,比较效果。
关闭联网,防止提示词变量。
为什么选择微信小程序,而不是html?
微信小程序文档更少,看模型在数据量少的情况下产出高质量的结果。
有没有把充分的微信小程序的数据纳入训练
统一的提示词:使用微信小程序实现一个http请求调试工具的pages,只需要实现httptool.wxml,httptool.wxss,httptool.js
文无第一,武无第二,我们很难说哪个模型好,哪个模型不好,但是在面对具体的任务的时候,是骡子是马一下子就明明白白了。
总结:各个模型对HTTP请求调试工具这个提示词都能理解,但是对于微信小程序的样式不太理解。
排名不分先后,测试了如下模型
- deepseek
- gml4.5
- qwen3
- kimi
- gemini
- chatgpt
- grok
- claude
deepseek 的表现
该有的都有了,但是布局有点丑
GLM-4.5
这个模型可以,第一样式能看,第二基本功能都有了
Qwen3-Coder
qwen3-coder的效果也可以,按钮样式有点瑕疵
扫码可以查看效果
kimi2的表现
很简单的实现,但headers的处理,说明kimi就没有想法
腾讯混元
别人家的模型做不好小程序可以理解,腾讯自己家的模型也不擅长小程序,可能说明了混元和小程序是两个体系。
功能倒是不缺,但是样式什么情况?
gemini 2.5
chatGPT
我本来带着很高的期待,有点失望,说明他对微信小程序的样式和交互了解的太少了
grok
claude sonnet 4
http 请求工具(html的实现)
请求方法
请求URL
请求参数
请求头
发送请求
响应结果
更多推荐
所有评论(0)