在这里插入图片描述

在这里插入图片描述

文章目录


Bard 是谷歌最初推出的人工智能聊天机器人,旨在与 OpenAI 的 GPT 系列竞争。

Gemini 是 Bard 的升级版本,标志着谷歌在人工智能领域的一次重大飞跃。

戴密斯·哈萨比斯(Demis Hassabis),男,1976年7月27日出生,毕业于剑桥大学计算机科学专业,GoogleDeepMind首席执行官兼创始人

在这里插入图片描述

谷歌首席科学家、Gemini的负责人Jeff Dean

2012年,Geoffrey Hinton以64岁年龄作为实习生加入谷歌,Jeff Dean担任其导师。

在这里插入图片描述

2023

  1. GPT-4大杀器谷歌Gemini来袭!26位研发大佬名单曝出,祭出类Midjourney生图能力(2023年08月18日)

    • 据传,Gemini不仅能像GPT-4一样可以进行文本对话,还融合了Midjourney、Stable Diffusion的能力,能够生成图像。
    • 为了对抗OpenAI,谷歌CEO劈柴在今年4月迈出了绝非寻常的一步,将拥有完全不同文化和代码的团队——谷歌大脑和DeepMind合并。
    • 「王不见王」的两大部门居然合体了,这一举动也是让瓜众们惊掉了下巴。
    • 2011年,谷歌创立了谷歌大脑(Google Brain),旨在构建起谷歌自己的AI,来优化搜索的结果、广告精准投放,以及在Gmail中的自动填充等功能。而位于伦敦的 DeepMind 则更多地致力于学术研究——2016年Alpha Go以4比1的成绩战胜了李世石,这项工作被人们视为通向通用人工智能(AGI)道路上的重要里程碑。谷歌除了会用 DeepMind 开发的软件提高数据中心的运行效率外,DeepMind 的工作并没有对其核心产品产生太大影响。
    • 在这里插入图片描述
    • 手握YouTube的优势根据The Information报道,谷歌对Gemini进行了大量YouTube视频的训练。
    • 最终,DeepMind 决定放弃自己原先的努力,选择基于谷歌大脑的项目合作开发 Gemini。
    • 谷歌为了对抗一枝独秀的ChatGPT,也为了重回人工智能赛道领航者的地位,在今年2月的时候匆忙发布了聊天机器人Bard。然而,发布会却因一个低级的事实性错误惨遭翻车,导致公司的市值在一夜之间蒸发了千亿美元。
  2. Gemini上线首日:用户褒贬不一,演示被质疑「造假」,谷歌承认了(2023-12-08)

    • 在这里插入图片描述
    • Gemini 此次有三个版本,能力最强的 Gemini Ultra、多任务的 Gemini Pro、以及特定任务和端侧的 Gemini Nano。
    • 在这里插入图片描述
    • 也许 1.0 版的 Gemini 只是开了个头,我们还要保持耐心,等待大模型的进一步技术升级。

2024

  1. 谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora(2024-05-15)

    • 谷歌 I/O 2024 如期来了,眼花缭乱地发布了一堆更新。

    • I/O 大会,名称 I/O 代表“输入/输出” (Input/Output) 或“开放式创新” (Innovation in the Open)

    • Gemini 1.5 Pro,上下文长度将达到惊人的200万token。而这也意味着——你可以给模型输入 2 小时视频、22 小时音频、超过 6 万行代码或者 140 多万单词。

    • 面对昨天OpenAI GPT-4o的挑衅,谷歌直接甩出大杀器 Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。Project Astra 是 Google DeepMind 基于 Gemini 开发的研究原型,旨在探索未来通用人工智能助手的可能性。

    • 在这里插入图片描述

    • 谷歌祭出文生视频模型 Veo 硬刚Sora,效果酷炫,时长超过1分钟,打破Sora纪录。1080p超过60秒。Veo 的推出建立在DeepMind过去一年各种开创性成果的基础上,包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。

    • Agent

    • 在这里插入图片描述

    • 总的来说,谷歌的理念就是:利用 Gemini 的多模态、超长上下文和智能体能力,把世界上的所有信息组织起来,让它们对每个人都可触达、可利用。

    • 最强AI文生图 Imagen 3

    • 在音乐方面,谷歌和Youtube一起构建了 Music AI Sandbox

    • 谷歌 DeepMind 自去年成立以来成绩斐然。而最近的大成就,就是几乎可以预测所有生命分子结构和相互作用的 AlphaFold 3了。

    • 谷歌还推出了根据个人需求自定义的Gemini专家——Gems

    • 在这里插入图片描述

    • 在Gemini的加持下,谷歌还会推出 Ask Photos 的新功能。比如,如果付停车费时忘了自己的车牌号,就可以直接询问自己的车牌照片是哪个,不需要翻阅手机里的大量照片了。

    • Gemini 1.5 Flash:更小,更快,200 万 token

    • 第六代 TPU Trillium,4.7 倍性能提升

    • 最后,谷歌还发布了自家首个视觉-语言开源模型——PaliGemma,专门针对图像标注、视觉问答及其他图像标签化任务进行了优化。

    • 在这里插入图片描述

  2. Transformer核心作者重返谷歌,任Gemini联合技术负责人!联手Jeff Dean追赶竞敌(2024-08-23)

    • 被谷歌买下的AI独角兽 Character.AI,已与团队深度融合。Transformer核心作者、创始人之一Noam Shazeer将担任Gemini联合技术负责人,与Jeff Dean和Oriol Vinyals平起平坐。
    • 他曾在2021年离职,自立门户创办了这家AI独角兽。
    • 在这里插入图片描述
    • 在这里插入图片描述
  3. 谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态(2024-12-12)

    • 继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!就在刚刚,谷歌新一代大模型Gemini 2.0 突然登场,再次由谷歌CEO皮猜亲自官宣。
    • 新一代模型专为AI Agent而打造
    • 谷歌还在 Gemini Advanced 中推出了一项名为深度研究(Deep Research)的智能体新功能。你可以把它当成以研究助理,围绕一个复杂主题生成研究报告。有点像是个科研版AI搜索。
    • 另外一个Gemini 2.0的重点关键词是:多模态。2.0 Flash实验版除了支持图像、视频、音频多模态输入,还支持多模态输出。
    • Project Astra
    • 在这里插入图片描述

2025

  1. 1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首(2025-01-22)

    • 2024 年 12 月 20 日,横空出世的 Gemini 2.0 Flash Thinking,曾让 OpenAI 的十二连发黯然失色。
    • 就在今天,谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版,并再次登顶 Chatbot Arena 排行榜。
    • Gemini 2.0 Flash Thinking 的一大亮点是会明确展示其思考过程
    • Gemini 2.0 Flash Thinking 主推的亮点是超长的上下文窗口
  2. 谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西(2025-03-25)

    • 深夜悄悄搞事情的不只 OpenAI,抢在 OpenAI 开直播之前,谷歌上线了最强大的推理模型 Gemini 2.5 Pro
    • 谷歌 CEO「劈柴哥」甚至用:「这是谷歌有史以来最智能的 AI 模型。」为它站台。
    • 谷歌称 Gemini 2.5 Pro 比较擅长在创建视觉效果精美的网页应用和操作智能体。
    • Gemini 2.5 延续了 Gemini 系列模型的核心优势 —— 原生多模态能力和长上下文窗口。
    • 不过,谷歌并未公开技术报告,我们只能从谷歌放出的博客中得知,他们的技术突破在于强化学习、思维链提示和后训练。
  3. Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品(2025-04-28)

    • 多模态大模型几何解题哪家强?首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了!GeoSense,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码均已开源。
    • 它构建了包含148个几何原理的5层知识架构,覆盖平面几何和立体几何的65个定义,47个定理和36个计算公式,多维度细粒度地评估模型面对几何问题时识别和应用知识的能力。
    • GPI(几何原理识别评分)、GPA(几何原理应用评分)、ACC(答案准确性评分)
    • Gemini-2.0-Pro-Flash在以几何原理为中心的解题能力评估中表现最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。
    • 在这里插入图片描述
  4. Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7(2025-05-07)

    • 谷歌Gemini 2.5 Pro(I/O版)横空出世,强势登顶LMAreana,斩获文本、视觉、编码三连冠,甚至编程能力全面碾压Claude 3.7,地表最强编码模型诞生。
    • 随手画个草图,Gemini 2.5 Pro即可将其变成一个绘画小程序。
    • 我们在内部观察到,新模型在调用工具时的失败率显著降低,这一改进相信会让用户觉得 2.5 Pro 在 Cursor 中的表现比以前更加出色。
    • 在谷歌DeepMind研究员Ali Eslami发布的另一个演示中,用Gemini 2.5 Pro「氛围编程」芝加哥艺术学院收藏品的3D导览。
    • 在这里插入图片描述
    • 网友Arthur Lee只用调整一次,就生成了一个3D太阳系,非常漂亮,而且能够随意交互。
    • 在这里插入图片描述
  5. 全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%(2025-05-30)

    • 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。然而,当应用场景从静态图像拓展至动态视频时,即便是当前最先进的模型也面临着严峻的挑战。
    • 在这里插入图片描述
    • 高质量、大规模数据集:包含了1,464 个精选视频片段,覆盖不同的分辨率、时长与场景。
      构建了2,000 条高质量、经人工标注的问答对,确保评测的精确性。
    • 即便是Gemini-2.5 Pro,其整体准确率也仅为73.7%,显示出当前MLLM在视频OCR领域的巨大挑战。
    • 对18个主流MLLM的深度评测
    • 模型处理单帧或短时序的文字信息相对较好,但在需要整合长时序信息、理解文字动态变化时,性能显著下降。
    • 在这里插入图片描述
  6. 新版 Gemini 2.5 所有榜一,谷歌无敌了!一个月全面击败 o3,编程反超 Claude 4(2025-06-06)

    • 谷歌深夜携全新 Gemini 2.5 Pro 强势归来,仅用一个月碾压旧版Gemini 2.5。数学、编程、推理全面封神,稳坐所有榜单第一。
    • 在数学、编程、推理基准测试中,新版模型全部刷新SOTA,完全碾压o3、Claude 4、DeepSeek-R1。
  7. 谷歌Gemini 2.5全线爆发!勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机(2025-06-18)

    • 在这里插入图片描述
    • 今天,谷歌旗舰Gemini 2.5三箭齐发,首次亮相轻量版2.5 Flash-Lite。最新70页技术报告中,爆料了Gemini 2.5在玩宝可梦濒死时,惊现类人的恐慌,导致推理性能直线下降。
  8. 刚刚,Gemini 2.5 系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统(2025-06-19)

    • 在这里插入图片描述
    • 谷歌Gemini团队将这次更新,称之为「Gemini 2.X模型家族」。
    • 毋庸置疑,Gemini 2.5 Pro是当前最强模型,在前沿编程、推理基准测试中,刷新了SOTA。它还具备了顶尖多模态能力,现可解析「长达3小时」的视频内容,具备了「长上下文+多模态+推理」三位一体的特点。
    • 在这里插入图片描述
  9. 比修驴蹄还魔性!谷歌这7段纸片动画,看完焦虑没了,第2支直接封神(2025-06-24)

    • 在这里插入图片描述
    • ASMR,全称为「Autonomous Sensory Meridian Response」,通常翻译为自发性知觉经络反应。这是一种让人感到轻微愉悦、放松甚至「头皮发麻」的身体反应,通常从头皮开始,延伸到脊背和四肢。
    • 而ta使用的就是谷歌的AI视频工具Veo 3。
    • 现在,谷歌Gemini直接下场,推出了全新的ASMR解压视频新类型:纸艺动画。
    • 在这里插入图片描述
    • 在这里插入图片描述
  10. 前端开发者危!Gemini3内测结果一致好评,有史以来最强前端开发模型 (2025-10-14)

    • 谷歌下一代旗舰模型Gemini 3未发布便已悄然走红!
    • 从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。
    • 比如对于著名SVG测试——骑自行车的鹈鹕,Gemini 3.0 Pro的输出一整个令网友惊叹。
    • 在这里插入图片描述
  11. 谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了(2025-11-19)

    • 谷歌Gemini 3 Pro进步太大了,与上一代2.5 Pro之间差出一个GPT-5.1(狗头)。
    • 在这里插入图片描述
    • 谷歌官方用Gemini 3 Pro设计的游戏更是发布在了油管上可以直接玩,纯靠AI都能搭起一个4399小游戏网了你敢信?
    • 还有一个更强Gemini 3 Deep Think深度思考模式,正在路上。
    • Gemini系列的集大成者
    • 在这里插入图片描述
    • 比如说,给它看一段球赛的长视频,它就能总结打法,把球员技巧整理出来,然后顺便教你复现动作。
    • 这次与旗舰模型Gemini 3 Pro同步推出的,还有Google Antigravity(反重力)实验性智能体开发平台。其核心理念是构建一个“智能体优先”(agent-first)的开发环境,将开发者从繁琐的编码工作中解放出来,转向更高层次、面向任务的架构师角色。
  12. Gemini3的这个隐藏功能,比编程更香!你一定会爱上的!(2025-12-05)

    • 打开Gemini的对话界面,这里有一个动态视图,我们把它给勾选上:

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 大家不管是写报告、做PPT,乃至做知识分享、内容创作,这都是一个非常称手的兵器。

    • 我的观点很明确:AI取代不了老手,但会淘汰只会写 CRUD (create、read、update、delete)的工具人。

    • 那些年我们踩过的坑、熬夜修过的Bug、对业务逻辑的深刻理解,并没有作废,而是转化成了给AI下指令时的直觉和判断力。

    • AI是最强的燃料,但决定火箭飞向哪里的,依然是你脑子里的经验和认知。所以,别怕被AI取代,勇敢拥抱它,去成为那个最会驾驭AI的人吧。

  13. Scaling Law没死!Gemini核心大佬爆料,谷歌已有颠覆性密钥(2025-12-20)

    • 最近,Google DeepMind的Gemini预训练负责人Sebastian Borgeaud 在采访中给出重磅爆料——未来一年,大模型预训练领域将在「长上下文处理效率」和「上下文长度扩展」 两大方向迎来重大技术创新。
    • 未来的竞争焦点,将不再是「谁的数据中心更大」,而是「谁的学习算法更高效」、「谁的模型架构更优雅」、「谁能从有限数据中提取更多智慧」。
    • 「我内心深处相信,长期的答案是以可微分的方式学习这种能力。」这意味着,未来模型可能将检索与推理更原生地结合,动态地从海量知识源中获取信息进行思考,而非依赖后期「嫁接」的搜索工具。
    • 当Noam讨论推理时,他明显将重心从「能不能更强」移向了「能不能更稳定」。
    • 而Noam和Jeff反复强调的,恰恰是后者:模型是否可靠、是否具备迁移能力、是否能在复杂任务中持续自我修正。这些能力,很难被压缩成一个漂亮的数字。
    • 它更像是在对外强调:Google追求的不是昙花一现的成品,而是一套能反复使用、不断进化的智能工业体系。
  14. 谷歌 Gemini 3.0 功能汇总,附国内直接使用(2025-12-28)

2026

  1. 比豆包手机还狠!Gemini电视登场CES,谷歌打响客厅革命第一枪(2026-01-07)

    • 每年一月,全球科技圈的目光都会聚焦同一个地方:拉斯维加斯 CES。
    • 国际消费类电子产品展览会,International Consumer Electronics Show
    • 在2026年CES上,谷歌进一步用Gemini提升Google TV的实用性:自然语言内容发现与推荐、教育深度学习、照片视频编辑、语音设置优化
    • 如果你觉得这些功能虽然有趣,但不太「刚需」,那确实也说得通,电脑上用Gemini也可以做到。
    • 不过,谷歌这次也为Gemini增强了实打实的语音控制能力,让它更像一个真正「懂你」的电视管家。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  2. 谷歌Gemini和苹果的顶级华人科学家离职创业,剑指AGI(2026-01-11)

    • 谷歌 Gemini 数据联合负责人 Andrew Dai 联手苹果首席研究科学家 Yinfei Yang,隐身创办 AI 新秀 Elorian。首轮将融资 5000 万美元,剑指「视觉推理」这个下一代大模型的核心问题。
    • 一位熟悉 Andrew Dai 的人士评价道:「他是语言模型的先驱之一,过去二十年一直专注于预训练相关的研究。他最擅长的,就是如何从海量、嘈杂的数据源中提炼出高质量的“知识”。」
    • 在硅谷,每一个从巨头出走的顶级研究员,都怀揣着一个「反叛」的梦想:用更小的团队、更聚焦的资源,去颠覆老东家庞大而迟缓的官僚体系。
  3. 清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它(2026-02-13)

    • 刚刚,谷歌 Gemini 3 Deep Think 原地进化!在Codeforces比赛中拿下全球第七,击败了人类选手。短短三个月,全方位刷爆SOTA。
    • 它可以将草图渲染成一个高保真、实用的3D笔记本电脑支架图,并直接将其打印出来。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
  4. 还在玩AI 3D手办?Gemini 3 Deep Think已能直出STL,可打印实物(2026-02-15)

    • 它同时卡三件事:空间逻辑、结构正确性、细节遵从能力。

    • 在这里插入图片描述

    • 在这里插入图片描述

    • 在这里插入图片描述

    • STL(Stereolithography)文件是3D打印和数字化制造中最常用的三维模型交换格式之一,最初源于光固化快速成型技术。它通过大量三角面片近似描述物体表面几何形态,结构简单、兼容性强,因此被几乎所有3D打印切片软件支持。

  5. Gemini 3.1 发布24小时,我给你整理了8种官方使用姿势!(2026-02-20)

    • 今天,谷歌在发布了 Gemini 3.1 Pro,推理性能直接翻倍。
    • NotebookLM:最牛的 AI 笔记神器。
    • 在这里插入图片描述
    • 你可以把几十篇论文、PDF、网页链接一股脑扔进去,NotebookLM 会自动提炼核心观点、找出逻辑关系、生成结构化知识库。
    • 它有两个核心功能:Audio Overview(音频播客):两个 AI 主播会把你上传的资料变成真人对话式的播客节目,有争论、有补充。Video Overview(视频讲解):这是 AI 旁白配高级动态幻灯片的形式。
  6. 谷歌Gemini 3.1 Pro屠榜封神,清华姚顺宇出手!Claude和GPT被逼入死角(2026-02-20)

    • 刚刚,下一代旗舰模型 Gemini 3.1 Pro 深夜炸场,直接刷爆全领域的SOTA,成为AI新王。
    • 3.1 Pro甚至能用纯代码编写出极其复杂的3D椋鸟群舞特效,为你打造一整套沉浸式体验。在这套系统中,你可以通过手势追踪技术实时「指挥」鸟群,同时还能听到随着鸟群动态实时演变的生成式配乐
    • 在这里插入图片描述
    • 3.1 Pro生成的3D像素版宝可梦,可比3.0 Pro强太多了。
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐