高级Gemini深度思考版正式达到国际数学奥林匹克竞赛金牌标准

国际数学奥林匹克竞赛(IMO)是世界上最具声望的青年数学家竞赛,自1959年起每年举办。参赛各国派出六名精英预科数学家,角逐解决代数、组合数学、几何和数论领域的六道超高难度题目。前半数参赛者将获得奖牌,其中约8%获得金牌。

近年来,IMO也成为人工智能系统展现高级数学问题解决与推理能力的理想测试平台。去年,某机构结合AlphaProof和AlphaGeometry 2系统达到银牌标准,解决了六道题目中的四道,获得28分。通过专业形式化语言的运用,这一突破表明人工智能开始接近人类精英的数学推理水平。

今年,该机构成为首批接受IMO协调员官方评分的团队,评分标准与学生解答完全相同。在认可本届学生参赛者卓越成就的同时,现正式分享Gemini的突破性表现。

2025年IMO突破性表现:Gemini深度思考版

高级Gemini深度思考版完美解决了六道IMO题目中的五道,总分35分,达到金牌级表现。完整解题方案可在线查阅。

IMO主席Gregor Dolinar教授确认:“我们可以确认某机构已达到期待已久的里程碑,获得42分满分中的35分——金牌得分。他们的解决方案在多方面令人惊叹,IMO评卷人认为其清晰、精确且大多易于理解。”

这一成就较去年突破性结果有显著提升。2024年IMO期间,AlphaGeometry和AlphaProof需要专家先将自然语言问题转化为Lean等领域特定语言,证明过程也需反向转换,且需两到三天的计算时间。今年,高级Gemini模型端到端使用自然语言操作,直接从官方题目描述生成严谨数学证明——全部在4.5小时竞赛时限内完成。

深度思考模式的技术实现

通过高级Gemini深度思考版实现今年成果,这是一种针对复杂问题的增强推理模式,融合了包括并行思考在内的最新研究技术。该设置使模型能够在给出最终答案前同时探索并组合多种可能解决方案,而非遵循单一线性思维链。

为最大化深度思考的推理能力,该版本Gemini还接受了新颖强化学习技术训练,可利用更多多步推理、问题解决和定理证明数据。同时为模型提供了精选的高质量数学问题解决方案语料库,并在指令中添加了应对IMO问题的一般提示与技巧。

该深度思考模型版本将先向包括数学家在内的可信测试者开放,随后推向某AI Ultra订阅用户。

AI与数学的未来前景

某机构与数学界持续合作,但人工智能助力数学研究的潜力仍处于起步阶段。通过教导系统更灵活、直观地推理,正在逐步构建能解决更复杂高级数学问题的人工智能。

虽然今年方法完全基于Gemini的自然语言处理,但在形式化系统AlphaGeometry和AlphaProof方面也持续取得进展。相信结合自然语言流畅性与严谨推理(包括形式化语言中的验证推理)的智能体,将成为数学家、科学家、工程师和研究人员的宝贵工具,助力在通往AGI的道路上推动人类知识进步。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐