近期国内外AI大事
腾讯混元发布了最新生图模型‘混元图像2.1(HunyuanImage2.1)’,支持原生[2K分辨率]图像生成,具备强大的复杂语义理解和跨领域泛化能力,同时支持中英文输入和高质量文本生成。该模型已在Hugging Face和GitHub上开源,为视觉创作者提供了更高效的创作工具,并为未来[多模态图像生成]模型的研发奠定了基础。支持原生2K分辨率,提升图像生成质量与效率。具备强大的复杂语义理解能力,
国内AI近期大事
1、腾讯升级[混元生图模型]混元Image [2.1],支持写字、2k分辨率
网址:https://hunyuan.tencent.com/image
腾讯混元发布了最新生图模型‘混元图像2.1(HunyuanImage2.1)’,支持原生[2K分辨率]图像生成,具备强大的复杂语义理解和跨领域泛化能力,同时支持中英文输入和高质量文本生成。该模型已在Hugging Face和GitHub上开源,为视觉创作者提供了更高效的创作工具,并为未来[多模态图像生成]模型的研发奠定了基础。
主要亮点:
支持原生2K分辨率,提升图像生成质量与效率。
具备强大的复杂语义理解能力,支持高质量的文本生成。
开源模型已上线,开发者可基于其进行研究与开发。
2、Freepik 上线豆包 Seedream 4.0 图像模型,premium+会员可无限使用图片
在线体验:https://www.doubao.com/chat/create-image
Freepik正式上线了全新的豆包Seedream4.0图像模型,引起了设计师和创作者的广泛关注。该模型在技术上进行了显著提升,支持生成2K和4K高分辨率图像,并提供多种纵横比选择,满足不同设计需求。同时,Premium+和Pro会员可享受无限图像生成特权,进一步提升了用户体验。此外,火山引擎也推出了Seedream4.0的API,为大规模图像处理提供了便利。
主要亮点:
Seedream4.0支持生成2K和4K高分辨率图像,提升创作质量。
Premium+和Pro会员享受无限图像生成特权,增强使用体验。
火山引擎上线Seedream4.0 API,便于大规模图像处理。
3、80亿参数只用3亿!阿里千问新模型推理速度暴增10倍
阿里巴巴通义千问团队推出的Qwen3-Next-80B-A3B-Instruct模型,通过创新的MoE专家混合架构实现了高效率与高性能的结合。该模型在保持强大功能的同时,显著降低了计算成本和资源消耗,为AI开发者提供了前所未有的便利。
主要亮点:
采用MoE专家混合架构,实现高效推理与低资源消耗。
推理速度提升至Qwen3-32B的10倍以上,处理长上下文更高效。
训练成本大幅下降,推动更多机构参与大模型开发。
4、清华团队开源 GUAVA:0.1秒一张照片秒变 3D 数字人
清华团队开源 GUAVA:0.1秒一张照片秒变 3D 数字人,该技术通过创新的EHM模型和3D高斯泼溅技术,实现了快速且高质量的3D数字人生成,具有广泛的应用前景。
主要亮点:
GUAVA 技术能在0.1秒内通过一张照片生成3D 数字人,速度惊人。
其核心技术 EHM 模型和3D 高斯泼溅确保了高质量的表情还原和快速渲染。
GUAVA 广泛应用于自媒体、直播、电商和教育等多个领域,提升效率与用户体验。
详情链接:https://github.com/Pixel-Talk/GUAVA https://eastbeanzhang.github.io/GUAVA/
5、[生数科技]全球上线 [Vidu]参考生图:支持同时输入多达7张图片
生数科技推出 [Vidu]Q1 参考生图功能,支持多图输入、多主体一致性生成及自由创作,推动 AI [多模态创作]进入新阶段。
主要亮点:
支持同时输入多达7张参考图,增强创作可控性。
多主体、多场景生成能力更强,保持一致性。
用户可自由更换服装和背景,实现高自由度创作。
6、字节跳动发布 Seedream4.0:全新多模态图像创作模型
Seedream4.0是字节跳动Seed团队推出的新一代图像创作模型,具备多模态生成能力,支持文生图、图生图及多图编辑等多种模式。该模型在风格化美感和逻辑理解方面有显著提升,并且推理速度提高了10倍以上,为创作者提供了更高效和多样化的工具。
主要亮点:
Seedream4.0支持文生图、图生图及多图编辑等多模态玩法,满足多样化创作需求。
模型能够实现艺术风格的自由迁移,从巴洛克到赛博朋克,创造独特的视觉效果。
推理速度比前代模型快10倍以上,提升了用户体验和技术应用效率。
7、腾讯推出 AI CLI 工具 CodeBuddy, 国内首家支持全形态AI编程工具!
腾讯正式发布了其自研的 AI CLI 工具 CodeBuddy Code,成为国内首家同时支持插件、IDE 和 CLI 三种形态的 AI 编程工具厂商。这一创新工具的推出,旨在提升开发者的编程效率,编码时间缩短了40%,AI 生成代码的占比更是超过50%。
主要亮点:
支持自然语言指令,自动完成代码生成和部署。
同时支持插件、IDE 和 CLI,满足不同用户需求。
腾讯发布 AI CLI 工具 CodeBuddy Code,编码时间缩短40%。
详情链接:https://www.codebuddy.ai/
8、百度文心大模型X1.1发布:深度学习能力再升级
百度在WAVE SUMMIT深度学习开发者大会上正式发布了文心大模型X1.1,该模型在事实性、指令遵循和智能体表现上均有显著提升。个人用户可通过文心一言官网和文小言APP体验,企业客户及开发者也可通过百度智能云千帆平台使用,为AI应用开发提供强大支持。
主要亮点:
文心大模型X1.1在事实性、指令遵循和智能体表现上取得显著进步。
个人用户可通过文心一言官网和文小言APP体验该模型。
企业客户及开发者可借助百度智能云千帆平台全面使用该模型。
9、上海 AI 实验室发布 XTuner V1 训练引擎 大模型训练效率暴涨20%
上海AI实验室发布了XTuner V1训练引擎,该引擎在提升大模型训练效率和性能方面取得了显著进展,特别是在吞吐量和计算资源利用率上表现突出。实验室选择开源策略,旨在推动整个AI行业的技术进步。
主要亮点:
XTuner V1 提升了大模型训练效率,吞吐量提升超过5%。
XTuner V1 通过创新技术提升了计算资源利用率,MFU增长超20%。
上海AI实验室开源XTuner V1,推动AI行业技术进步。
国外AI近期大事
1、微软启动AI供应商多元化策略,将在Office 365中集成Anthropic技术
微软开始在Office 365中引入Anthropic的AI技术,标志着其与OpenAI合作关系的调整。这一举措反映了微软对AI供应链多样化的重视,并可能影响整个AI行业的合作模式。
主要亮点:
微软将Anthropic的AI技术整合到Office 365中,以增强功能表现。
微软与Anthropic的合作是基于技术性能考量,而非谈判策略。
微软正推进AI技术的自主研发,减少对外部供应商的依赖。
2、首款 AI Agent浏览器 Fellou CE发布,打造“无缝衔接”的体验
Fellou CE 是一款能够执行复杂任务的自主 AI 浏览器,旨在提升用户工作效率。它通过自然对话和无缝体验,帮助用户简化工作流程,增强创造力。同时,Fellou 正致力于构建一个开放的智能生态系统,以持续改进用户体验和保障隐私。
在线体验:https://fellou.ai/
主要亮点:
Fellou CE 是一款 AI 浏览器,能够执行复杂任务,提高用户的工作效率。
它通过自然语言交互和无缝体验,简化了用户的工作流程。
Fellou 致力于构建开放的智能生态系统,保障用户的隐私与数据安全。
3、Claude升级:一键生成Excel、PPT、PDF,办公文件秒变“现成品”
Claude助手新增了直接生成和编辑多种办公文件的功能,提升了用户的工作效率。该功能已向部分用户开放预览,并将在未来扩展至更多用户。
主要亮点:
Claude支持生成和编辑Excel、Word、PPT和PDF文件,实现快速成果转化。
功能面向Max、Team和Enterprise版本用户提供预览,Pro用户将陆续获得权限。
Claude作为数字合作者,能执行代码并处理文件,提升项目协作能力。
4、谷歌AI搜索模式重磅扩展!新增5种语言支持,全球用户迎来智能搜索新体验
谷歌宣布将AI驱动的搜索体验扩展至五种新语言,包括印地语、印度尼西亚语、日语、韩语和巴西葡萄牙语,标志着其在多语言AI搜索领域的重大进展。
主要亮点:
谷歌扩展AI搜索至五种新语言,提升全球用户体验。
AI模式采用定制Gemini 2.5模型,具备多模态和推理能力。
谷歌强调AI功能有助于用户发现内容,而非替代传统搜索结果。
5、OpenAI支持AI动画长片《Critterz》制作 计划2026年戛纳电影节首映
OpenAI正在支持一部名为《Critterz》的AI动画长片制作,旨在展示人工智能技术如何以更快速度和更低成本彻底改变好莱坞电影制作。这部电影将于2026年5月在戛纳电影节上首映,预算不到3000万美元,仅需30人团队完成,制作周期为9个月。制作过程将结合人工参与和AI技术,包括使用GPT-5等生成式AI工具。
主要亮点:
OpenAI支持AI动画长片《Critterz》制作,计划2026年戛纳电影节首映。
预算不到3000万美元,仅需30人团队完成,制作周期为9个月。
制作过程结合人工参与和AI技术,如GPT-5生成式AI工具。
更多推荐
所有评论(0)