【AIGC】Gemini（Google）

是谷歌最初推出的人工智能聊天机器人，旨在与 OpenAI 的 GPT 系列竞争。是 Bard 的升级版本，标志着谷歌在人工智能领域的一次重大飞跃。戴密斯·哈萨比斯（Demis Hassabis），男，1976年7月27日出生，毕业于剑桥大学计算机科学专业，GoogleDeepMind首席执行官兼创始人谷歌首席科学家、Gemini的负责人Jeff Dean2012年，Geoffrey Hinton以

bryant_meng

368人浏览 · 2026-03-04 14:25:17

bryant_meng · 2026-03-04 14:25:17 发布

在这里插入图片描述

Bard 是谷歌最初推出的人工智能聊天机器人，旨在与 OpenAI 的 GPT 系列竞争。

Gemini 是 Bard 的升级版本，标志着谷歌在人工智能领域的一次重大飞跃。

戴密斯·哈萨比斯（Demis Hassabis），男，1976年7月27日出生，毕业于剑桥大学计算机科学专业，GoogleDeepMind首席执行官兼创始人

在这里插入图片描述

谷歌首席科学家、Gemini的负责人Jeff Dean

2012年，Geoffrey Hinton以64岁年龄作为实习生加入谷歌，Jeff Dean担任其导师。

在这里插入图片描述

2023

GPT-4大杀器谷歌Gemini来袭！26位研发大佬名单曝出，祭出类Midjourney生图能力（2023年08月18日）
- 据传，Gemini不仅能像GPT-4一样可以进行文本对话，还融合了Midjourney、Stable Diffusion的能力，能够生成图像。
- 为了对抗OpenAI，谷歌CEO劈柴在今年4月迈出了绝非寻常的一步，将拥有完全不同文化和代码的团队——谷歌大脑和DeepMind合并。
- 「王不见王」的两大部门居然合体了，这一举动也是让瓜众们惊掉了下巴。
- 2011年，谷歌创立了谷歌大脑（Google Brain），旨在构建起谷歌自己的AI，来优化搜索的结果、广告精准投放，以及在Gmail中的自动填充等功能。而位于伦敦的 DeepMind 则更多地致力于学术研究——2016年Alpha Go以4比1的成绩战胜了李世石，这项工作被人们视为通向通用人工智能（AGI）道路上的重要里程碑。谷歌除了会用 DeepMind 开发的软件提高数据中心的运行效率外，DeepMind 的工作并没有对其核心产品产生太大影响。
- 手握YouTube的优势根据The Information报道，谷歌对Gemini进行了大量YouTube视频的训练。
- 最终，DeepMind 决定放弃自己原先的努力，选择基于谷歌大脑的项目合作开发 Gemini。
- 谷歌为了对抗一枝独秀的ChatGPT，也为了重回人工智能赛道领航者的地位，在今年2月的时候匆忙发布了聊天机器人Bard。然而，发布会却因一个低级的事实性错误惨遭翻车，导致公司的市值在一夜之间蒸发了千亿美元。
Gemini上线首日：用户褒贬不一，演示被质疑「造假」，谷歌承认了（2023-12-08）
- Gemini 此次有三个版本，能力最强的 Gemini Ultra、多任务的 Gemini Pro、以及特定任务和端侧的 Gemini Nano。
- 也许 1.0 版的 Gemini 只是开了个头，我们还要保持耐心，等待大模型的进一步技术升级。

2024

谷歌2小时疯狂复仇，终极杀器硬刚GPT-4o！Gemini颠覆搜索，视频AI震破Sora（2024-05-15）
- 谷歌 I/O 2024 如期来了，眼花缭乱地发布了一堆更新。
- I/O 大会，名称 I/O 代表“输入/输出” (Input/Output) 或“开放式创新” (Innovation in the Open)
- Gemini 1.5 Pro，上下文长度将达到惊人的200万token。而这也意味着——你可以给模型输入 2 小时视频、22 小时音频、超过 6 万行代码或者 140 多万单词。
- 面对昨天OpenAI GPT-4o的挑衅，谷歌直接甩出大杀器 Project Astra，视觉识别和语音交互效果，跟GPT-4o不相上下。Project Astra 是 Google DeepMind 基于 Gemini 开发的研究原型，旨在探索未来通用人工智能助手的可能性。
- 谷歌祭出文生视频模型 Veo 硬刚Sora，效果酷炫，时长超过1分钟，打破Sora纪录。1080p超过60秒。Veo 的推出建立在DeepMind过去一年各种开创性成果的基础上，包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。
- Agent
- 总的来说，谷歌的理念就是：利用 Gemini 的多模态、超长上下文和智能体能力，把世界上的所有信息组织起来，让它们对每个人都可触达、可利用。
- 最强AI文生图 Imagen 3
- 在音乐方面，谷歌和Youtube一起构建了 Music AI Sandbox。
- 谷歌 DeepMind 自去年成立以来成绩斐然。而最近的大成就，就是几乎可以预测所有生命分子结构和相互作用的 AlphaFold 3了。
- 谷歌还推出了根据个人需求自定义的Gemini专家——Gems。
- 在Gemini的加持下，谷歌还会推出 Ask Photos 的新功能。比如，如果付停车费时忘了自己的车牌号，就可以直接询问自己的车牌照片是哪个，不需要翻阅手机里的大量照片了。
- Gemini 1.5 Flash：更小，更快，200 万 token
- 第六代 TPU Trillium，4.7 倍性能提升
- 最后，谷歌还发布了自家首个视觉-语言开源模型——PaliGemma，专门针对图像标注、视觉问答及其他图像标签化任务进行了优化。
Transformer核心作者重返谷歌，任Gemini联合技术负责人！联手Jeff Dean追赶竞敌（2024-08-23）
- 被谷歌买下的AI独角兽 Character.AI，已与团队深度融合。Transformer核心作者、创始人之一Noam Shazeer将担任Gemini联合技术负责人，与Jeff Dean和Oriol Vinyals平起平坐。
- 他曾在2021年离职，自立门户创办了这家AI独角兽。
谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态（2024-12-12）
- 继量子芯片之后，谷歌又来抢“OpenAI双12直播”的流量了！就在刚刚，谷歌新一代大模型Gemini 2.0 突然登场，再次由谷歌CEO皮猜亲自官宣。
- 新一代模型专为AI Agent而打造
- 谷歌还在 Gemini Advanced 中推出了一项名为深度研究（Deep Research）的智能体新功能。你可以把它当成以研究助理，围绕一个复杂主题生成研究报告。有点像是个科研版AI搜索。
- 另外一个Gemini 2.0的重点关键词是：多模态。2.0 Flash实验版除了支持图像、视频、音频多模态输入，还支持多模态输出。
- Project Astra

2025

1M长上下文，满血版Gemini 2.0又一次登上Chatbot Arena榜首（2025-01-22）
- 2024 年 12 月 20 日，横空出世的 Gemini 2.0 Flash Thinking，曾让 OpenAI 的十二连发黯然失色。
- 就在今天，谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版，并再次登顶 Chatbot Arena 排行榜。
- Gemini 2.0 Flash Thinking 的一大亮点是会明确展示其思考过程。
- Gemini 2.0 Flash Thinking 主推的亮点是超长的上下文窗口
谷歌终于登顶一次了！最强推理模型Gemini 2.5 Pro实测体验，真的有点东西（2025-03-25）
- 深夜悄悄搞事情的不只 OpenAI，抢在 OpenAI 开直播之前，谷歌上线了最强大的推理模型 Gemini 2.5 Pro。
- 谷歌 CEO「劈柴哥」甚至用：「这是谷歌有史以来最智能的 AI 模型。」为它站台。
- 谷歌称 Gemini 2.5 Pro 比较擅长在创建视觉效果精美的网页应用和操作智能体。
- Gemini 2.5 延续了 Gemini 系列模型的核心优势 —— 原生多模态能力和长上下文窗口。
- 不过，谷歌并未公开技术报告，我们只能从谷歌放出的博客中得知，他们的技术突破在于强化学习、思维链提示和后训练。
Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品（2025-04-28）
- 多模态大模型几何解题哪家强？首个从几何原理视角出发，全面评估多模态大模型几何解题能力的双语综合基准来了！GeoSense，系统评测多模态大模型在几何原理识别和应用中的表现，评测基准的数据和评测代码均已开源。
- 它构建了包含148个几何原理的5层知识架构，覆盖平面几何和立体几何的65个定义，47个定理和36个计算公式，多维度细粒度地评估模型面对几何问题时识别和应用知识的能力。
- GPI（几何原理识别评分）、GPA（几何原理应用评分）、ACC（答案准确性评分）
- Gemini-2.0-Pro-Flash在以几何原理为中心的解题能力评估中表现最佳，其次是Qwen2.5-VL-72B和QvQ-72B-Preview。
Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7（2025-05-07）
- 谷歌Gemini 2.5 Pro（I/O版）横空出世，强势登顶LMAreana，斩获文本、视觉、编码三连冠，甚至编程能力全面碾压Claude 3.7，地表最强编码模型诞生。
- 随手画个草图，Gemini 2.5 Pro即可将其变成一个绘画小程序。
- 我们在内部观察到，新模型在调用工具时的失败率显著降低，这一改进相信会让用户觉得 2.5 Pro 在 Cursor 中的表现比以前更加出色。
- 在谷歌DeepMind研究员Ali Eslami发布的另一个演示中，用Gemini 2.5 Pro「氛围编程」芝加哥艺术学院收藏品的3D导览。
- 网友Arthur Lee只用调整一次，就生成了一个3D太阳系，非常漂亮，而且能够随意交互。
全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%（2025-05-30）
- 多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。然而，当应用场景从静态图像拓展至动态视频时，即便是当前最先进的模型也面临着严峻的挑战。
- 高质量、大规模数据集：包含了1,464 个精选视频片段，覆盖不同的分辨率、时长与场景。
  构建了2,000 条高质量、经人工标注的问答对，确保评测的精确性。
- 即便是Gemini-2.5 Pro，其整体准确率也仅为73.7%，显示出当前MLLM在视频OCR领域的巨大挑战。
- 对18个主流MLLM的深度评测
- 模型处理单帧或短时序的文字信息相对较好，但在需要整合长时序信息、理解文字动态变化时，性能显著下降。
新版 Gemini 2.5 所有榜一，谷歌无敌了！一个月全面击败 o3，编程反超 Claude 4（2025-06-06）
- 谷歌深夜携全新 Gemini 2.5 Pro 强势归来，仅用一个月碾压旧版Gemini 2.5。数学、编程、推理全面封神，稳坐所有榜单第一。
- 在数学、编程、推理基准测试中，新版模型全部刷新SOTA，完全碾压o3、Claude 4、DeepSeek-R1。
谷歌Gemini 2.5全线爆发！勇战「濒死恐慌」，却被丝血宝可梦吓到当场宕机（2025-06-18）
- 今天，谷歌旗舰Gemini 2.5三箭齐发，首次亮相轻量版2.5 Flash-Lite。最新70页技术报告中，爆料了Gemini 2.5在玩宝可梦濒死时，惊现类人的恐慌，导致推理性能直线下降。
刚刚，Gemini 2.5 系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统（2025-06-19）
- 谷歌Gemini团队将这次更新，称之为「Gemini 2.X模型家族」。
- 毋庸置疑，Gemini 2.5 Pro是当前最强模型，在前沿编程、推理基准测试中，刷新了SOTA。它还具备了顶尖多模态能力，现可解析「长达3小时」的视频内容，具备了「长上下文+多模态+推理」三位一体的特点。
比修驴蹄还魔性！谷歌这7段纸片动画，看完焦虑没了，第2支直接封神（2025-06-24）
- ASMR，全称为「Autonomous Sensory Meridian Response」，通常翻译为自发性知觉经络反应。这是一种让人感到轻微愉悦、放松甚至「头皮发麻」的身体反应，通常从头皮开始，延伸到脊背和四肢。
- 而ta使用的就是谷歌的AI视频工具Veo 3。
- 现在，谷歌Gemini直接下场，推出了全新的ASMR解压视频新类型：纸艺动画。
前端开发者危!Gemini3内测结果一致好评，有史以来最强前端开发模型（2025-10-14）
- 谷歌下一代旗舰模型Gemini 3未发布便已悄然走红！
- 从曝光的这些案例来看，Gemini 3尤为擅长前端、SVG矢量图生成，而且多模态能力变得更强。
- 比如对于著名SVG测试——骑自行车的鹈鹕，Gemini 3.0 Pro的输出一整个令网友惊叹。
谷歌Gemini 3把GPT-5.1打成计量单位！马斯克奥特曼都服了（2025-11-19）
- 谷歌Gemini 3 Pro进步太大了，与上一代2.5 Pro之间差出一个GPT-5.1（狗头）。
- 谷歌官方用Gemini 3 Pro设计的游戏更是发布在了油管上可以直接玩，纯靠AI都能搭起一个4399小游戏网了你敢信？
- 还有一个更强Gemini 3 Deep Think深度思考模式，正在路上。
- Gemini系列的集大成者
- 比如说，给它看一段球赛的长视频，它就能总结打法，把球员技巧整理出来，然后顺便教你复现动作。
- 这次与旗舰模型Gemini 3 Pro同步推出的，还有Google Antigravity（反重力）实验性智能体开发平台。其核心理念是构建一个“智能体优先”（agent-first）的开发环境，将开发者从繁琐的编码工作中解放出来，转向更高层次、面向任务的架构师角色。
Gemini3的这个隐藏功能，比编程更香！你一定会爱上的！（2025-12-05）
- 打开Gemini的对话界面，这里有一个动态视图，我们把它给勾选上：
- 大家不管是写报告、做PPT，乃至做知识分享、内容创作，这都是一个非常称手的兵器。
- 我的观点很明确：AI取代不了老手，但会淘汰只会写 CRUD （create、read、update、delete）的工具人。
- 那些年我们踩过的坑、熬夜修过的Bug、对业务逻辑的深刻理解，并没有作废，而是转化成了给AI下指令时的直觉和判断力。
- AI是最强的燃料，但决定火箭飞向哪里的，依然是你脑子里的经验和认知。所以，别怕被AI取代，勇敢拥抱它，去成为那个最会驾驭AI的人吧。
Scaling Law没死！Gemini核心大佬爆料，谷歌已有颠覆性密钥（2025-12-20）
- 最近，Google DeepMind的Gemini预训练负责人Sebastian Borgeaud 在采访中给出重磅爆料——未来一年，大模型预训练领域将在「长上下文处理效率」和「上下文长度扩展」两大方向迎来重大技术创新。
- 未来的竞争焦点，将不再是「谁的数据中心更大」，而是「谁的学习算法更高效」、「谁的模型架构更优雅」、「谁能从有限数据中提取更多智慧」。
- 「我内心深处相信，长期的答案是以可微分的方式学习这种能力。」这意味着，未来模型可能将检索与推理更原生地结合，动态地从海量知识源中获取信息进行思考，而非依赖后期「嫁接」的搜索工具。
- 当Noam讨论推理时，他明显将重心从「能不能更强」移向了「能不能更稳定」。
- 而Noam和Jeff反复强调的，恰恰是后者：模型是否可靠、是否具备迁移能力、是否能在复杂任务中持续自我修正。这些能力，很难被压缩成一个漂亮的数字。
- 它更像是在对外强调：Google追求的不是昙花一现的成品，而是一套能反复使用、不断进化的智能工业体系。
谷歌 Gemini 3.0 功能汇总，附国内直接使用（2025-12-28）

2026

比豆包手机还狠！Gemini电视登场CES，谷歌打响客厅革命第一枪（2026-01-07）
- 每年一月，全球科技圈的目光都会聚焦同一个地方：拉斯维加斯 CES。
- 国际消费类电子产品展览会，International Consumer Electronics Show
- 在2026年CES上，谷歌进一步用Gemini提升Google TV的实用性：自然语言内容发现与推荐、教育深度学习、照片视频编辑、语音设置优化
- 如果你觉得这些功能虽然有趣，但不太「刚需」，那确实也说得通，电脑上用Gemini也可以做到。
- 不过，谷歌这次也为Gemini增强了实打实的语音控制能力，让它更像一个真正「懂你」的电视管家。
谷歌Gemini和苹果的顶级华人科学家离职创业，剑指AGI（2026-01-11）
- 谷歌 Gemini 数据联合负责人 Andrew Dai 联手苹果首席研究科学家 Yinfei Yang，隐身创办 AI 新秀 Elorian。首轮将融资 5000 万美元，剑指「视觉推理」这个下一代大模型的核心问题。
- 一位熟悉 Andrew Dai 的人士评价道：「他是语言模型的先驱之一，过去二十年一直专注于预训练相关的研究。他最擅长的，就是如何从海量、嘈杂的数据源中提炼出高质量的“知识”。」
- 在硅谷，每一个从巨头出走的顶级研究员，都怀揣着一个「反叛」的梦想：用更小的团队、更聚焦的资源，去颠覆老东家庞大而迟缓的官僚体系。
清华传奇姚顺宇立功！全新Gemini一夜血洗编程，全球仅7人能赢它（2026-02-13）
- 刚刚，谷歌 Gemini 3 Deep Think 原地进化！在Codeforces比赛中拿下全球第七，击败了人类选手。短短三个月，全方位刷爆SOTA。
- 它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图，并直接将其打印出来。
还在玩AI 3D手办？Gemini 3 Deep Think已能直出STL，可打印实物（2026-02-15）
- 它同时卡三件事：空间逻辑、结构正确性、细节遵从能力。
- STL（Stereolithography）文件是3D打印和数字化制造中最常用的三维模型交换格式之一，最初源于光固化快速成型技术。它通过大量三角面片近似描述物体表面几何形态，结构简单、兼容性强，因此被几乎所有3D打印切片软件支持。
Gemini 3.1 发布24小时，我给你整理了8种官方使用姿势！（2026-02-20）
- 今天，谷歌在发布了 Gemini 3.1 Pro，推理性能直接翻倍。
- NotebookLM：最牛的 AI 笔记神器。
- 你可以把几十篇论文、PDF、网页链接一股脑扔进去，NotebookLM 会自动提炼核心观点、找出逻辑关系、生成结构化知识库。
- 它有两个核心功能：Audio Overview（音频播客）：两个 AI 主播会把你上传的资料变成真人对话式的播客节目，有争论、有补充。Video Overview（视频讲解）：这是 AI 旁白配高级动态幻灯片的形式。
谷歌Gemini 3.1 Pro屠榜封神，清华姚顺宇出手！Claude和GPT被逼入死角（2026-02-20）
- 刚刚，下一代旗舰模型 Gemini 3.1 Pro 深夜炸场，直接刷爆全领域的SOTA，成为AI新王。
- 3.1 Pro甚至能用纯代码编写出极其复杂的3D椋鸟群舞特效，为你打造一整套沉浸式体验。在这套系统中，你可以通过手势追踪技术实时「指挥」鸟群，同时还能听到随着鸟群动态实时演变的生成式配乐
- 3.1 Pro生成的3D像素版宝可梦，可比3.0 Pro强太多了。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【云馨AI】需求是否真的做完了？COSMIC 一键生成「功能点对比清单」，AI自动帮你验收需求

2048 AI社区

我用 AI Agent 搭了一套多平台自动分发系统，踩了这些坑

这套系统的核心不是某个具体技术，而是分层的自动化策略有 API 用 API（最稳定、维护成本最低）没 API 用无头浏览器（Puppeteer + Stealth，适合大多数场景）反爬严格就复用真实浏览器会话（AppleScript 注入，兜底方案）每增加一个新平台，先评估它属于哪一层，再选择对应的技术方案。不要试图用一种方案覆盖所有平台——每个平台的反爬策略、编辑器实现、API 开放度都不同。-