AI一周资讯 250823-250829

知行力

689人浏览 · 2025-09-01 13:51:43

知行力 · 2025-09-01 13:51:43 发布

xAI: Grok-2开源：9050亿参数+128k上下文**

该模型 2024 年完成训练，体积超 500GB，总参数量 9050 亿、推理时激活 1360 亿参数，支持 128k token 上下文窗口，采用改进的混合专家架构，预训练数据截止 2024 年初，开源核心含模型权重与架构，商业用途限年收入低于 100 万美元者使用，可在 Hugging Face 下载并通过 SGLang 部署。马斯克预告 Grok-3 约 6 个月后开源，Grok 5 训练即将启动，还提及 xAI 孟菲斯巨像数据中心 122 天建成且 92 天内容量翻倍，计划 5 年内打造等效 5000 万块 H100 的超算，并称 xAI 很快将超越除谷歌外对手，未来也会超过谷歌；此外，Grok 4 发布会曾预告 8 月发编码模型、9 月发多模态智能体、10 月发视频生成模型。

huggingface: https://huggingface.co/xai-org/grok-2

腾讯：开会再也不用狂记笔记！腾讯会议 × 元宝打通 AI 纪要，抓重点、读氛围、导复盘全搞定

腾讯会议升级至 3.36.10 版本及以上，可限时免费体验与腾讯元宝打通的 “AI 纪要” 功能。该功能每 2 分钟推送实时总结，清晰呈现会议关键信息、结论与待办；还能感知会议氛围，捕捉发言者 “潜台词”；会后可一键将纪要导入元宝，追问细节、提炼结论或生成待办，甚至支持连麦游戏、闺蜜深聊、异地恋沟通等非会议场景的记录。此外，提供腾讯元宝 APP、电脑版及浏览器插件的下载路径。

下载地址：https://yuanbao.tencent.com/download

阿里：钉钉放大招！AI 秘书包办工作、硬件四合一，无招回应加班争议：要让打工人告别 “假装工作”

钉钉举办十周年暨 AI 钉钉 1.0 新品发布会，CEO “无招” 回归并回应加班争议。核心亮点包括：核心产品 “钉钉 ONE”，由消息、日程、审批、会议等专业 AI Agent 组成专属 AI 秘书，可自动处理排序工作事务；首款 AI 硬件 DingTalk A1（分 799 元旗舰版、499 元青春版），集录音笔、会议机等四功能于一体，支持 8 米拾音、45 小时续航及自动环境切换录制；AI 听记基于 1 亿小时音频训练，能识别 30 种方言、140 种语言及 200 + 行业术语；AI 搜问整合内外部搜索，按权限屏蔽信息并可调用多模型；AI 表格支持一句话搭建业务系统，含超 100 款字段 Agent；还预告下一代产品 DingTalk Real，旨在让 AI 更真实可触，助力打工人从无意义工作中解脱。

英伟达：全华人团队开挂！英伟达 Jet-Nemotron 爆了：4B 参数又快又准，吞吐量翻 53 倍**

英伟达发布由全华人团队打造的小模型系列 Jet-Nemotron（含 2B、4B 参数版本），核心创新为后神经架构搜索（PostNAS）与新型线性注意力模块 JetBlock。该模型在数学、代码、常识等多维度准确率超越 Qwen3、Gemma3 等主流开源模型，且在 H100 GPU 上推理吞吐量最高提升 53.6 倍，长上下文场景优势显著；还提及此前英伟达发布的 9B 参数 Nemotron Nano 2 模型，其复杂推理准确率比肩 Qwen3-8B，吞吐量达后者 6 倍。

论文：https://arxiv.org/pdf/2508.15884
github：https://github.com/NVlabs/Jet-Nemotron

面壁：8B 参数竟比 72B 还强？MiniCPM-V 4.5 成首个高刷视频多模态模型，推理快到飞起**

面壁科技发布多模态新旗舰模型 MiniCPM-V 4.5，仅 8B 参数却性能强劲，不仅是首个具备 “高刷” 视频理解能力的端侧多模态模型，还在细粒度视频理解（FavorBench）、长视频理解（LVBench 等）、单图理解（OpenCompass）及复杂文档识别（OmniDocBench）等榜单中表现优异，部分指标超越 Qwen2.5-VL 72B；同时端侧友好，推理时间仅为同级模型 1/10，支持可控混合推理，现于 Github、Hugging Face、魔搭社区开源。

Github：https://github.com/OpenBMB/MiniCPM-o
Hugging Face：https://huggingface.co/openbmb/MiniCPM-V-4_5

微软：VibeVoice-1.5B开创了语音界多个重大技术突破**

开源文本转语音模型 VibeVoice-1.5B，基于 1.5B 参数的 Qwen2.5 语言模型打造，结合声学与语义双分词器，以 7.5Hz 低帧率处理。能一次生成最长 90 分钟、最多 4 位不同说话者的自然语音，支持跨语言及歌声合成，在训练中扩展上下文长度，可模拟自然对话场景、支持流式模式生成长音频。但目前仅支持英语与中文，不支持语音重叠及生成背景音效、音乐，禁止用于声音冒充等非法用途，主要面向科研和开发者社区，适用于播客制作等领域，微软后续还将推出 7B 版本。

Hugging Face：https://huggingface.co/microsoft/VibeVoice-1.5B
在线demo：https://aka.ms/VibeVoice-Demo

谷歌：谷歌放大招！图像模型成本暴跌 95%，0.28 元生成高清图，角色一致性拉满

谷歌正式上线图像生成与编辑模型 gemini-2.5-flash-image-preview（曾用名 nano banana），支持 32k 上下文，具备 SOTA 级生成编辑能力、出色的角色一致性与快速响应速度，可免费在 Google AI Studio 和 Gemini API 预览，但暂不支持中文输入生成编辑。其单图生成成本约 0.28 元，比 OpenAI 便宜 95%，支持换装换场景、合成照片、多轮编辑等功能，生成图片含可见水印与隐形 SynthID 水印，在多个榜单中表现优异，如 Artificial Analysis 图像编辑榜排名第一，LM Arena 文生图与图像编辑榜均登顶。

官网介绍：https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

滴滴：滴滴 MCP 来了！应用接入就能查车型、叫车，个人版能取消订单，企业版可定制

滴滴开放打车能力并打包为 MCP 产品，接入后应用内可完成查看车型、预估价格、一键叫车全流程。MCP 分三个版本：Beta 版支持查价、跳端叫车；个人开发者 Pro 版可下单、取消订单、联系司机（如搭建语音指令打车智能体）；企业客户 Pro + 版支持全流程定制（如企业差旅平台自动化叫车与费用管理），接入需经注册账号、激活 MCP Key、拼装 URL、调用接口四步，官方文档可在指定网址查看。

滴滴MCP文档：https://mcp.didichuxing.com/api

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Java Web 线上约拍系统系统源码-SpringBoot2+微信小程序+MyBatis+MySQL8【含文档】

2048 AI社区

2025最新超详细FreeRTOS入门教程：第八章 FreeRTOS任务通知

2048 AI社区

为何说AI大数据是解决科创平台资源信息孤岛问题的关键？

摘要：我国科技成果转化面临信息孤岛问题，各创新主体数据割裂导致供需对接不畅。AI+技术转移模式通过构建智能化生态系统，整合多源数据，实现精准匹配。该系统包含专利价值评估、企业需求挖掘等功能模块，促进产学研协同创新。对科研机构可提升成果转化率，对企业可缩短技术获取周期，对政府可优化资源配置，最终实现学术与产业的双赢，为培育新质生产力提供支撑。