xAI: Grok-2开源:9050亿参数+128k上下文**

该模型 2024 年完成训练,体积超 500GB,总参数量 9050 亿、推理时激活 1360 亿参数,支持 128k token 上下文窗口,采用改进的混合专家架构,预训练数据截止 2024 年初,开源核心含模型权重与架构,商业用途限年收入低于 100 万美元者使用,可在 Hugging Face 下载并通过 SGLang 部署。马斯克预告 Grok-3 约 6 个月后开源,Grok 5 训练即将启动,还提及 xAI 孟菲斯巨像数据中心 122 天建成且 92 天内容量翻倍,计划 5 年内打造等效 5000 万块 H100 的超算,并称 xAI 很快将超越除谷歌外对手,未来也会超过谷歌;此外,Grok 4 发布会曾预告 8 月发编码模型、9 月发多模态智能体、10 月发视频生成模型。

  • huggingface: https://huggingface.co/xai-org/grok-2

腾讯:开会再也不用狂记笔记!腾讯会议 × 元宝打通 AI 纪要,抓重点、读氛围、导复盘全搞定

腾讯会议升级至 3.36.10 版本及以上,可限时免费体验与腾讯元宝打通的 “AI 纪要” 功能。该功能每 2 分钟推送实时总结,清晰呈现会议关键信息、结论与待办;还能感知会议氛围,捕捉发言者 “潜台词”;会后可一键将纪要导入元宝,追问细节、提炼结论或生成待办,甚至支持连麦游戏、闺蜜深聊、异地恋沟通等非会议场景的记录。此外,提供腾讯元宝 APP、电脑版及浏览器插件的下载路径。

  • 下载地址:https://yuanbao.tencent.com/download

阿里:钉钉放大招!AI 秘书包办工作、硬件四合一,无招回应加班争议:要让打工人告别 “假装工作”

钉钉举办十周年暨 AI 钉钉 1.0 新品发布会,CEO “无招” 回归并回应加班争议。核心亮点包括:核心产品 “钉钉 ONE”,由消息、日程、审批、会议等专业 AI Agent 组成专属 AI 秘书,可自动处理排序工作事务;首款 AI 硬件 DingTalk A1(分 799 元旗舰版、499 元青春版),集录音笔、会议机等四功能于一体,支持 8 米拾音、45 小时续航及自动环境切换录制;AI 听记基于 1 亿小时音频训练,能识别 30 种方言、140 种语言及 200 + 行业术语;AI 搜问整合内外部搜索,按权限屏蔽信息并可调用多模型;AI 表格支持一句话搭建业务系统,含超 100 款字段 Agent;还预告下一代产品 DingTalk Real,旨在让 AI 更真实可触,助力打工人从无意义工作中解脱。

英伟达:全华人团队开挂!英伟达 Jet-Nemotron 爆了:4B 参数又快又准,吞吐量翻 53 倍**

英伟达发布由全华人团队打造的小模型系列 Jet-Nemotron(含 2B、4B 参数版本),核心创新为后神经架构搜索(PostNAS)与新型线性注意力模块 JetBlock。该模型在数学、代码、常识等多维度准确率超越 Qwen3、Gemma3 等主流开源模型,且在 H100 GPU 上推理吞吐量最高提升 53.6 倍,长上下文场景优势显著;还提及此前英伟达发布的 9B 参数 Nemotron Nano 2 模型,其复杂推理准确率比肩 Qwen3-8B,吞吐量达后者 6 倍。

  • 论文:https://arxiv.org/pdf/2508.15884
  • github:https://github.com/NVlabs/Jet-Nemotron

面壁:8B 参数竟比 72B 还强?MiniCPM-V 4.5 成首个高刷视频多模态模型,推理快到飞起**

面壁科技发布多模态新旗舰模型 MiniCPM-V 4.5,仅 8B 参数却性能强劲,不仅是首个具备 “高刷” 视频理解能力的端侧多模态模型,还在细粒度视频理解(FavorBench)、长视频理解(LVBench 等)、单图理解(OpenCompass)及复杂文档识别(OmniDocBench)等榜单中表现优异,部分指标超越 Qwen2.5-VL 72B;同时端侧友好,推理时间仅为同级模型 1/10,支持可控混合推理,现于 Github、Hugging Face、魔搭社区开源。

  • Github:https://github.com/OpenBMB/MiniCPM-o
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5

微软:VibeVoice-1.5B开创了语音界多个重大技术突破**

开源文本转语音模型 VibeVoice-1.5B,基于 1.5B 参数的 Qwen2.5 语言模型打造,结合声学与语义双分词器,以 7.5Hz 低帧率处理。能一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,支持跨语言及歌声合成,在训练中扩展上下文长度,可模拟自然对话场景、支持流式模式生成长音频。但目前仅支持英语与中文,不支持语音重叠及生成背景音效、音乐,禁止用于声音冒充等非法用途,主要面向科研和开发者社区,适用于播客制作等领域,微软后续还将推出 7B 版本。

  • Hugging Face:https://huggingface.co/microsoft/VibeVoice-1.5B
  • 在线demo:https://aka.ms/VibeVoice-Demo

谷歌:谷歌放大招!图像模型成本暴跌 95%,0.28 元生成高清图,角色一致性拉满

谷歌正式上线图像生成与编辑模型 gemini-2.5-flash-image-preview(曾用名 nano banana),支持 32k 上下文,具备 SOTA 级生成编辑能力、出色的角色一致性与快速响应速度,可免费在 Google AI Studio 和 Gemini API 预览,但暂不支持中文输入生成编辑。其单图生成成本约 0.28 元,比 OpenAI 便宜 95%,支持换装换场景、合成照片、多轮编辑等功能,生成图片含可见水印与隐形 SynthID 水印,在多个榜单中表现优异,如 Artificial Analysis 图像编辑榜排名第一,LM Arena 文生图与图像编辑榜均登顶。

  • 官网介绍:https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

滴滴:滴滴 MCP 来了!应用接入就能查车型、叫车,个人版能取消订单,企业版可定制

滴滴开放打车能力并打包为 MCP 产品,接入后应用内可完成查看车型、预估价格、一键叫车全流程。MCP 分三个版本:Beta 版支持查价、跳端叫车;个人开发者 Pro 版可下单、取消订单、联系司机(如搭建语音指令打车智能体);企业客户 Pro + 版支持全流程定制(如企业差旅平台自动化叫车与费用管理),接入需经注册账号、激活 MCP Key、拼装 URL、调用接口四步,官方文档可在指定网址查看。

  • 滴滴MCP文档:https://mcp.didichuxing.com/api

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐