AI日报:阿里千问最强模型来了;Kimi开源K2.5;DeepSeek开源OCR2;Clawdbot迫于压力更名Moltbot
近期国内AI领域迎来多项重要突破:阿里推出万亿参数推理模型Qwen3-Max-Thinking,性能媲美国际顶尖大模型;DeepSeek开源OCR 2,首创"因果流"视觉推理技术,文本识别准确率提升3.73%;月之暗面开源多模态模型Kimi K2.5,支持视觉输入和Agent集群协作;腾讯混元图像3.0开源,跻身全球最强开源图生图模型。同时,OpenAI发布科研协作平台Pris
文章目录
1.阿里千问旗舰推理模型Qwen3-Max-Thinking正式上线
1月26日深夜,阿里发布旗舰推理模型 Qwen3-Max-Thinking,并宣布AI助手千问已在PC端和网页端接入该模型,千问App也即将完成适配。
用户只需在模型选择栏中一键切换,即可体验更为强大的推理能力。

- 体验地址:https://chat.qwen.ai/
Qwen3-Max-Thinking 是目前阿里规模最大、能力最强的推理模型,总参数量超万亿(1T),预训练数据量高达 36T Tokens。
经过大规模强化学习训练,该模型在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐等 19 个公认的大模型基准测试中,刷新多项最佳表现纪录,整体性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro,成为目前最接近国际顶尖水平的国产大模型之一。

下表为更全面的评估分数:
2.DeepSeek开源OCR 2,首创「因果流」视觉推理,性能跃升3.73%
1月27日,DeepSeek又双叒叕更新了!
这次 DeepSeek 更新了十月份推出的 DeepSeek-OCR,即开源新一代OCR模型 DeepSeek-OCR 2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

- 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
- 模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

图:DeepSeek-OCR 2 架构
在 OmniDocBench v1.5 评测中,DeepSeek-OCR 2 综合得分达到 91.09%,较前代提升了 3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性——阅读顺序(R-order)误差降低33%(编辑距离从0.085降至0.057)。
生产环境中,在线日志和PDF处理的文本重复率分别下降 2.08% 和 0.81%。

DeepSeek-OCR 2 更适用于复杂文档(学术论文、报告)、表格/公式解析等高精度场景,且支持本地化部署。
3.Kimi开源K2.5,实现多模态能力的全面升级
1月27日中午,月之暗面创始人杨植麟首次出镜,开源 Kimi K2.5。
作为 Kimi 迄今最智能、全能的版本,K2.5 在Agent、代码、图像及视频等通用智能任务上达到开源 SOTA 水平,比如 HLE(人类最后考试)上拿到 50.2%,BrowseComp 拿到了 74.9%。

Kimi K2.5 是一个拥有 1 万亿参数(1 trillion)的 MoE 基础模型。该模型采用原生多模态架构,支持视觉与文本输入,显著降低了人机交互门槛,用户可通过拍照、截图或录屏直接与AI交互。
值得一提的是,Kimi K2.5 在多项评测中优于 GPT-5.2-xhigh 的同时,运行成本只有 GPT-5.2-xhigh 的几分之一。

K2.5 还首次引入「Agent Swarm(Agent 集群)」功能,可自主创建分身团队并行处理复杂任务,大幅提升效率。
此外,其代码能力在前端开发领域表现卓越,并正式推出集成多模态优势的编程工具 Kimi Code,旨在推动技术平权,赋能开发者与普通用户。

4.Vidu Q2参考生Pro全球上线
1月27日,生数科技与清华大学联合研发的Vidu Q2参考生Pro模型正式全球上线,推出行业首创的“万物可参考”视频生成技术。
5.Mistral AI推出 Vibe 2.0:终端编程助手步入“子代理”时代
1月27日,欧洲人工智能公司 Mistral AI 正式推出终端编程助手 Mistral Vibe 2.0,旨在挑战 GitHub Copilot 在AI辅助开发领域的统治地位。
该产品基于 Mistral 自研的 Devstral 2 模型,提供定制化功能,允许企业针对私有代码库进行微调,解决通用模型在处理内部框架和领域特定语言时的盲区。
核心升级包括多文件协同、子代理模式以及操作增强,进一步提升了开发效率和用户体验。
其订阅计划包括 Le Chat Pro(14.99美元/月)和 Team 版本。
Mistral 凭借更小、更高效的稠密架构模型,支持本地部署,主打数据安全与主权,吸引金融与国防等受监管行业客户,致力于成为欧洲对抗美国AI巨头的领军力量。
6.开源 AI 项目 Clawdbot 迫于压力更名 Moltbot
1月28日,开源AI代理 Clawdbot 更名为 Moltbot,因与 Claude 谐音存在商标冲突风险。更名后,旧账号被诈骗者抢注并发布虚假加密货币 $CLAWD,导致用户误信而买入,最终价格暴跌。开发者紧急澄清以防止更多用户受骗。

截止目前,Clawdbot(Moltbot)在Github的星数已经超过6万,收藏数超过7200。而对比Clawdbot(Moltbot)与Claude Code的谷歌数据可以发现,过去三四天里前者的搜索指数急速攀升,目前已经大幅度超过Anthropic旗下的终端AI编程助手Claude Code。

7.OpenAI 发布 Prism:基于 GPT-5.2 的科研协作新纪元
1月28日,OpenAI 发布了名为 Prism 的 AI 原生在线工作空间,专为科研人员设计,基于 GPT-5.2 模型,整合了多种科研工具,提升了科研协作效率。

这是一个基于云端、完全免费的 LaTeX 集成研究工作台,由 GPT-5.2 驱动。对于那些习惯了在 Overleaf 上管理付费订阅,或在复杂的公式与参考文献间焦头烂额的研究人员来说,Prism 的出现不仅仅是一个工具的更新,它更像是一个「科研伴侣」的诞生——它不仅是一个编辑器,更是一个不知疲倦的超级助手。
8.全球最强开源图生图!腾讯混元图像3.0正式开源
1月28日,腾讯混元团队正式开源了其最新混元图像3.0图生图模型(HunyuanImage 3.0-Instruct)。
该模型凭借强大的混合专家架构(800亿总参数规模,激活参数约13B)和多项核心技术突破,在最新全球权威大模型竞技场 LMArena 的Image Edit(图片编辑)榜单上,腾讯混元图像3.0图生图位列全球第七,跻身第一梯队,成为目前全球最强的开源图生图模型。
LMArena官方X祝贺混元图像3.0图生图模型:“图片编辑类别与Nano-Banana和Seedream-4.5等表现相当”。

混元图像3.0图生图支持多样化的图片编辑与多图融合能力,包括增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能,以及将多张照片中的元素提取出来合成新图片的能力。

- 官网体验:https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
更多推荐


所有评论(0)