文章介绍了阿里千问大模型的两大新功能:视频模型Wan-2.5和图像模型Qwen-Image-Edit。Wan-2.5支持音画同步、角色一致性等功能,免费用户每日可生成10个视频;Qwen-Image-Edit无使用限制,支持多图融合、文字排版、真人换装等功能。作者通过实际案例展示了模型效果和应用场景,认为千问App更新有望成为手机里的新AI入口。


能看出来阿里做千问的决心了,

这两天视频模型Wan-2.5和图像模型Qwen-Image-Edit已经上线了,

Qwen-Image-Edit没有使用限制

Wan-2.5免费用户一天可以生成10个

所以这次我从Nano Banana Pro和Veo3.1各自选出了5种适合千问的玩法,包括影片空镜,角色一致性,互动场景,短视频,以及广告分镜;多图融合与编辑,文字排版与信息图,真人换装,IP****周边设计,以及肖像照风格转换。

🎹

一样是有打包好的提示语和生成效果,公众号后台发“千问”就好了

先说Wan2.5吧,

音画同步,10s时长1080P,支持上传参考图片,但自带的参考音频这次展示没有更新到千问App上

🌅

一个中年男子坐在温馨书房的木桌前,周围是书架和温暖的灯光。他打开一本旧书,用平静而深沉的声音朗读:"历史教给我们的不仅仅是事实……它向我们展示了我们是谁。"房间里有细微的背景音:翻书声、时钟微弱的滴答声,以及远处窗外的雨声。

生成的视频里中年男人的口型是跟这旁白走的,而且我刻意打的“……”在视频里面也是有停顿的表现。

再来看一个更难的。

一位自信美丽的年轻美国女性手持麦克风站在舞台上,背景是播放着抽象视觉效果的大型LED屏幕。她微笑着向观众们说道:“Good evening everyone. Tonight, I want to share three powerful lessons about leadership and innovation.” 她的口型与声音完美同步,说话时辅以富有表现力的手势动作。

这个Case主要测的是英文口型和肢体语言的协调性。Wan-2.5处理得非常自然,手势没有乱飞,口型也对上了。

除了音画同步,我还参考了Grok在X上目前排名最火的5个使用场景,来了一波横向测评。这五个场景分别是,影片空镜,角色一致性,互动场景,短视频,以及广告分镜。

第一种,影片空镜。这通常用于电影的故事续写,或者给视频做特效增强。

❤️

黄昏时分的未来城市景观,通过添加在摩天大楼间穿梭的飞行汽车来扩展场景,平滑过渡,电影感光照,4K 分辨率。

生成的画面里,光影的过渡非常丝滑,汽车飞过的喷气声是会从近到远的,在楼宇间穿梭的轨迹也很符合物理逻辑。接下来的角色一致性生成是经典case了,为的是保持多镜头对话和系统视频里面我们用的主角是一样的。

💡

一个有着银色长发和绿色长袍的年轻巫师在森林中施法,保持场景间形象一致,添加对话:‘Expecto Patronum!’,情绪表达:专注和坚定。

第三种互动场景也是高频使用了,通常是包含基本动作、互动和人物情绪的。

🐵

两个朋友在雨中跑过街道,笑着溅起水洼,包括跳过障碍物,快乐情绪,关键时刻慢动作,城市背景。

这里面涉及到了跑步、跳跃、水花飞溅,还有慢动作。千问生成的视频里,两个人手拉手一起运行也没有融合或者重叠,脚踩进水里的物理反馈也基本正确,那种快乐的情绪通过慢动作和音效传递得很到位。

排名第四的短视频,我第一时间想起来之前看到的红外监控系列,

一群可爱的兔子在卧室的床上跳跃,模仿红外监控摄像头风格,活泼而混乱,可循环 10 秒。

出来的效果有那种深夜监控实录的感觉,而且满足无限循环的特点,

兔子的动作过于活泼而显得有点鬼畜。。。

OK,来个广告分镜,这个场景不仅考画面,还考文字生成能力。

NBA 总决赛宣传视频:篮球运动员慢动作扣篮,观众欢呼,添加字幕’Champion’,配乐同步

这里比较难的是文字叠加和切换镜头。以前的AI视频里,字都是乱码。但这次Wan-2.5生成的画面里,Champion这几个字虽然还是有点AI味,但已经基本可读了,镜头切换也完成了提示语的要求,氛围感很强。

聊完视频,再来看看那个没有使用限制的Qwen-Image-Edit。

支持多图融合,还原生支持ControlNet,可通过关键点图改变人物姿势。最经典的例子就是相机角度控制,又可以叫快速切换视角。

Qwen-Image-Edit当然不止这些能力,所以我还用来挑战多图融合与编辑,文字排版与信息图,真人换装,IP周边设计,以及肖像照风格转换。某书上面最近在火的人物拆解图反而在X上没翻出多大水花。

先看多图融合,

🎁

将赛博朋克城市与宁静森林融合,边缘无缝衔接,为树木添加霓虹灯,高细节,8K 分辨率。

生成的图片里,霓虹灯缠绕在古树上,

科技与自然那种冲突又和谐的美感,被处理得很细腻,边缘没有明显的拼接痕迹。

再看文字排版。这个是我最想测的,Banana2这次我印象最深的几种效果就有写故事,

🎁

请为“采菊东篱下,悠然见南山。”这首诗配图。

Qwen-Image-Edit有中文生成能力,但实话实话还不能做到在一张图里面塞一整首诗。

接着是真人换装,本质上也是多元素组合,

🌰

将这张平铺的当季连衣裙变成一位穿着它在T台上走秀的亚洲女性,优雅姿势,真实光线,照片般逼真。

模特穿上了参考图里的裙子,皮鞋,袋子,丝巾等元素,避开了杂志图里面作为干扰项的墨镜。

然后是IP周边设计,

🎉

为哆啦 A 梦设计商品:T 恤,图案为角色手持道具,蓝色配色方案,可爱风格,包含中文文字’任意门’。

这其实是在考模型的世界知识,看看它知不知道哆啦 A 梦是什么,对于比较日常成熟的主题Qwen-Image-Edit是可以准确画出来的,但是复杂加倍的产品拆解图还是值得优化的空间。

最后是肖像照风格转换。

🌰

职业装年轻女性肖像,影棚灯光,逼真皮肤质感,添加微妙微笑,企业背景。

这个中景的皮肤细节,服装和背景的虚化,我觉得用来做脉脉头像,简历照片,甚至是工牌照,都可以用。

这次我用了不一样的case收集思路,

上面的提示语基本都是老外写的提示语翻译过来的,通过这些case可以看出来他们关注的重点,

反过来用来测试国产图像模型,挑战其实会更大。

记得上次我写千问的时候,

评论区里就有朋友催更Qwen-Image-Edit。我怀疑千问开发组天天看评论区上新。

这几年,Qwen开源了很多超好用的模型。

但说实话,对于普通用户来说,门槛还是太高了。

你得去HuggingFace,去GitHub,得会部署,得有显卡。很多好东西,因为没有一个简单的界面,导致很多人根本没用上。

千问App这次的更新,

属于是双向奔赴了。

真心希望能继续保持这个节奏,

把更多好玩好用的功能加进去,

变成我们手机里新的AI入口。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐