原文链接:https://mp.weixin.qq.com/s/Y0_zHuobor7rcRaj5oIMrA

在2026年的人工智能国际大会(AAAI)上,邀请了物理学家Daniel Whiteson做了主题演讲。这里给大家献上本次演讲的全文实录。

先介绍一下午演讲者:

 

丹尼尔・怀特森(Daniel Whiteson)。1975 年 6 月 17 日出生。是美国实验粒子物理学家,同时担任加州大学欧文分校(UCI)物理学与天文学教授。

他于 1997 年在莱斯大学取得物理学与计算机科学学士学位,2003 年在加州大学伯克利分校获物理学博士学位。2007 年,怀特森加入欧洲核子研究中心大型强子对撞机的 ATLAS 实验项目,也是美国物理学会会士。

怀特森还是美国公共广播电视公司儿童频道的科普动画《埃莉诺想知道为什么》的联合创作者,同时与生物学家凯利・韦纳史密斯共同主持播客节目《丹尼尔与凯利的奇妙宇宙》。

演讲主题《基础物理与机器学习的关联》

演讲正文:

感谢大家来参加这场分享。今天我要和大家探讨的是机器学习与基础物理学。年少时选择理科方向,让我对基础物理学心生向往的原因,是它始终在探讨终极大问题。

物理学最吸引我的地方在于,它有一系列终极问题,比如宇宙万物由何构成?宇宙的起源是什么?这些是科学问题,是有答案可循、我们能够逐步探索清楚的问题。终有一天,人类会找到这些问题的答案,不必再在宿舍的深夜里凭空揣测。我毕生的研究都围绕着这一个核心:宇宙的本质是什么?

这是一个最基础的问题。我想知道,人类由何构成?宇宙这套复杂的系统如何运转?世间万物如何相互联结,才造就了我们身处的这个瑰丽又神奇的宇宙?我认为,这不仅是一个基础的科学问题,更是一个古老的问题—— 从人类开始思考的那一刻起,就从未停止过对它的追问。哪怕你只有两块石头,把它们相撞,你也会忍不住思考:会撞出更小的石头吗?它们会变成其他东西吗?宇宙中存在最微小的 “石头” 吗?对于宇宙中保有好奇心的人来说,这些都是最本能的问题,人类也因此追问了千百年。

面对这样一个宏大的问题,你该如何寻找答案?你或许会从最简单的事做起:先把宇宙中能看到的所有事物列一个清单,做一个分类目录。如果你是一位原始人科学家,你的清单可能会从这些开始:我存在于宇宙中,你也在,这里有一块石头,那里还有一块石头。但随着清单的不断完善,你会发现宇宙中有各种各样的石头,清单的篇幅会变得无比漫长,直到你罗列完宇宙中所有已知的石头种类。

但这一研究策略的问题也随之显现:我们要找的,从来都不是一份宇宙万物的“目录清单”。“宇宙由何构成” 的答案,绝不会是把所有事物简单罗列 —— 这毫无意义。如果你去问神谕、上帝、高级外星文明,或是人工智能这个问题,它却只告诉你宇宙里有什么,你绝不会觉得这是你想要的答案。相反,粒子物理学(particle physics)的核心目标,是通过还原论解释宇宙万物 —— 即证明宇宙的一切复杂事物,其实都是由一小部分基础粒子构成的,这些基础粒子的不同组合,造就了世间的所有复杂形态。

而最令人惊叹的是,人类真的做到了:我、石头、你今天的早餐,古往今来人类吃过、触碰过的一切事物,全都是由少数几种基础粒子构成的。这太不可思议了!宇宙的运行逻辑,竟是让复杂的形态源于微小粒子的不同排列。我们都知道,元素周期表中有近百种基础元素,但这并非终点。面对这百余种元素,我们不会只做简单罗列—— 罗列从来不是答案。我们会对其进行整理、分类,寻找其中的规律,这才有了元素周期表。而如今我们知道,元素周期表中的所有规律,同样源于更微小粒子的排列组合。元素周期表看似复杂,但其背后的逻辑却极为简单:仅靠三种粒子,就能构成一切。顶夸克(up quarks)和底夸克(down quarks)结合形成质子和中子,再加上电子,人类触碰过、吃过、扔向同伴的所有东西,都能由这三种粒子构成。

这一发现,已然揭示了宇宙的一个深层真相:构成一个事物的核心,是粒子的排列方式,而非粒子本身。一公斤岩浆和一公斤小猫的本质区别,只是粒子的排列不同,它们的“原料” 完全一致。如果让粒子物理学家写一本 “宇宙食谱”,那么每一道 “菜品” 的原料都完全相同,配比也基本一致。物理学早已告诉我们这个宇宙的基本法则:排列决定一切,而非基质本身。

但这并非问题的全部答案,宇宙中还存在更多未知的粒子。通过对撞机让粒子高速相撞,我们发现了顶夸克的“伙伴”—— 顶夸克和粲夸克,也发现了底夸克的“伙伴”—— 底夸克和奇夸克,电子也有两个相伴的轻子。如今,我们有了一张新的 “周期表”—— 这张表代表着人类当前的知识前沿,是基础粒子周期表。我们能从这张表中看到清晰的规律和极具吸引力的结构,这意味着,如果这些规律成立,那么这些基础粒子,或许还是由更微小、更基础的粒子排列构成的。但这一点,我们目前尚无法证实。

这就是人类当前的知识前沿:我们对这些基础粒子的诸多基本问题,仍一无所知。比如,为什么宇宙中会存在这些“额外的粒子”?顶夸克和底夸克能在恒星内部形成铁元素,造就世间万物,那我们为何还需要粲夸克和顶夸克?为什么会有三种中微子?宇宙中为何存在这么多粒子?为何有些粒子质量极大,有些却轻到几乎可以忽略?它们为何会带有+ 2/3 这样怪异的电荷?人类从未听说过这样的电荷数值,这背后的原因是什么?我们对基础粒子的认知,还有太多空白。而这,甚至还不是物理学最大的未解之谜。

我们耗费数百年研究、已然理解的这一切,仅仅是宇宙的冰山一角:宇宙中只有5% 的能量密度由原子构成 —— 也就是你、我、生日蛋糕这类常规物质;剩下的 95%,人类几乎一无所知。其中 25% 是暗物质(dark matter),这是我们目前能探测到其存在的未知物质。我们能观测到暗物质在宇宙中的作用:星系在高速旋转,试想一下,如果你把乒乓球放在旋转的旋转木马上,乒乓球会立刻飞出去。星系由恒星构成,也在高速旋转,那为什么恒星不会飞进星际空间?答案是引力—— 引力束缚着星系的结构。但当我们测量恒星的运行速度,并将其与恒星自身产生的引力做对比时,结果却完全不符:恒星的运行速度太快了,仅凭恒星自身的引力,根本无法解释为何星系没有分崩离析,恒星没有四散飞离。为了解释这一现象,我们提出了 “暗物质” 的概念。宇宙中的暗物质,远比常规物质多得多。

人类对物质基本属性的探索,才刚刚开始。我们研究原子、元素、夸克的历史,短则数百年,长则可追溯至古希腊时期。但如今我们才意识到,此前的研究,不过是触及了“冰山的一角”,宇宙的故事,远不止于此。人类的惯性思维,总是从已知推导未知 —— 我们会下意识地认为,暗物质或许和常规物质相似。但这就像摸到大象的尾巴,就认为大象的全身都是由尾巴构成的一样,事实绝非如此。大象的其他部位,是与尾巴完全不同的全新结构。这就是基础物理学当下的处境:我们知道,自己正站在新发现的边缘,这些发现将彻底改写人类对宇宙本质的认知。而我们甚至还没谈到宇宙中占比最大的部分:5% 是原子物质,25% 是暗物质 —— 我们基本确定它是一种物质,却不知其构成和运行原理;剩下的 70%,是宇宙能量的主体,我们称之为暗能量(dark energy)。暗物质和暗能量的关联,目前仅存在于 “名称都带有‘暗’字” 这一点上,二者是完全不同的概念。暗能量是推动宇宙加速膨胀的关键,但目前人类完全不清楚暗能量的本质,也不知道它与暗物质是否存在联系,在座的各位,乃至全球的物理学家,都无法回答这些问题。但我们有足够的时间去探索,而探索的核心策略,就是抓住宇宙中的未解之谜,顺着线索深入研究。

你永远不知道,一个看似不起眼的小实验,或是一个偶然的发现,会彻底颠覆人类对宇宙的认知。回顾历史,光电效应、紫外灾变这些看似微小的实验和理论难题,都彻底改变了人类的科学认知进程。我目前在瑞士日内瓦郊外的大型强子对撞机开展研究,这是欧洲核子研究中心(CERN)的核心设施,也是全球粒子物理学的研究总部。在这里,我们实现了13 太电子伏特(13 TeV)的质子对撞,这是单个质子所能承载的能量的 13 万亿倍,是目前人类能实现的最高能量可控粒子对撞。宇宙中无时无刻不在产生能量远高于此的粒子,但这已是人类当前的技术极限。

大型强子对撞机最令人激动的地方,并非让粒子相撞并观察爆炸,而是我们无法预知这些碰撞会产生什么。而我们也无需提前预知:当两个粒子高速相撞时,它们的能量会相互湮灭,形成一个微小的能量球,这个能量球又会转化为其他未知的粒子。粒子对撞和化学反应完全不同:化学反应中,反应物的原子只是重新排列,生成物的原子都能从反应物中溯源,你能追踪到每一个氧分子从反应开始到结束的轨迹;但粒子对撞中,初始粒子会完全湮灭、消失,宇宙会利用这些湮灭产生的能量,创造出全新的粒子。这一点意义非凡,它意味着你无需提前知道某种粒子的存在,也能发现它。只要让粒子足够频繁地相撞,宇宙就会创造出所有它“能创造” 的粒子。因为这些碰撞遵循量子力学规律:在完全相同的条件下,两次粒子对撞可能产生完全不同的结果,这是一个随机过程,而我们正是在通过对撞,从宇宙的能量密度中采样。这太奇妙了:有时粒子相撞,会产生电子、中微子这类我们已知的粒子;但有时,相撞会产生人类从未见过的全新粒子。

再次强调,你甚至无需预知这种粒子的存在,就能实现发现—— 这正是科学探索的乐趣所在。让我们说得更具体一点:我们通过对撞产生各种粒子,但如何判断自己发现了一种新粒子?你可能会想,用显微镜放大观察就好,但这些基础粒子的尺寸,远小于任何可用于探测的光的波长,因此我们无法用传统的成像方式观察它们。

欧洲核子研究中心,地处阿尔卑斯山脉之间,周围是成片的向日葵田,风景十分优美。这是ATLAS 实验装置(ATLAS experiment),也是我工作的地方,它位于地下约 100 米处,乘坐只有 “0 层” 和 “-1 层” 两个按钮的电梯就能到达。这个装置在粒子对撞点周围,铺设了一层又一层的探测器(detectors),用于捕捉对撞后产生的各类粒子信号。

整个实验装置的唯一目的,就是“拍摄” 粒子对撞的过程。我们永远无法直接看到对撞产生的粒子,只能通过它们在探测器中留下的轨迹(traces)来分析。粒子相撞后,会向各个方向飞散,探测器会捕捉到它们的运动轨迹、测量其能量等参数。我们要做的,就是通过这些 “轨迹图像”,还原这次对撞的全过程:产生的是电子吗?还是某种未知的全新粒子?拥有这些前沿的探测设备固然很棒,但为什么我们需要机器学习来发现这些粒子?机器学习在其中扮演了什么角色?

在过去,我们并不需要机器学习:比如,安德森发现正电子时,仅凭一个实验案例就实现了突破。左侧这张图,就是单个正电子的轨迹,通过它在磁场中的运动方式,就能判断出这是正电子。一张图像、一个粒子、一项诺贝尔奖—— 这曾是粒子物理学家的梦想。老一辈科学家似乎已经把所有 “简单的发现” 都做完了,而如今的科研背景早已不同:过去的发现,就像在森林里找到一只独角兽 —— 或许寻找的过程很难,但一旦找到并带回镇上,所有人都能认出这是独角兽;而如今的科学发现,却变得极为间接。

希格斯玻色子的发现就是典型:我们没有任何一张希格斯玻色子的直接图像,它的发现过程是这样的:让两个质子相撞,质子内部的夸克相互融合,会瞬间产生希格斯玻色子—— 它的存在时间仅有 10 的 - 23 次方秒,随后就会衰变成其他粒子,比如两个底夸克。而我们能在 ATLAS 装置中探测到底夸克的轨迹,却永远无法直接观测到希格斯玻色子。

你可能会想,那只要探测到两个底夸克,就等于发现了希格斯玻色子?但遗憾的是,产生底夸克的方式有很多种—— 底夸克其实是粒子对撞中最常见的产物之一,无需通过希格斯玻色子衰变,仅凭胶子的相互作用,就能产生底夸克。当你探测到两个底夸克时,你根本无法判断,它们是否来自希格斯玻色子的衰变。我们无法通过单次粒子对撞,判断是否产生了希格斯玻色子。这意味着,如今所有的粒子物理发现,都基于统计学分析。希格斯玻色子的发现,就是如此:我无法给大家展示任何一个直接的发现案例,它的存在,只是体现在统计图上的一个微小峰值。这个峰值意味着希格斯玻色子的存在 —— 如果没有这个峰值,就说明希格斯玻色子并不存在。

如今的科学发现,全都是统计学层面的突破。幸运的是,统计学家为我们提供了强大的工具,让这些发现成为可能,其中最核心的是假设检验(hypothesis testing),它基于皮尔逊似然比检验(Pearson likelihood ratio test)。这个方法的逻辑很简单:如果你想确认自己发现了某种粒子,只需计算似然比—— 即 “如果该粒子存在,观测到当前实验数据的概率”,与 “如果该粒子不存在,观测到当前实验数据的概率” 的比值,计算出结果,就能做出判断。看似简单的方法,却是统计学领域的一次巨大飞跃。

尽管这一方法诞生已有百年,我们如今仍在使用,原因在于:分析实验数据的方法有很多种,而似然比是全局最优解 —— 在所有分析方法中,它是最适合粒子发现的。这是一套成熟的统计理论,看似我们万事俱备了。但问题来了:作为粒子物理学家,你们设计实验、搭建装置、开展对撞,为什么连 “希格斯玻色子存在时,观测到当前数据的概率” 都无法直接计算?这正是实验设计的难点所在。粒子物理学的研究过程,充满了难以量化的复杂因素。

我刚才给大家讲的,只是简化后的模型,而实际的粒子对撞过程,要复杂得多:粒子之间会相互作用,它们周围的其他粒子也会发生相互作用,这些粒子撞击探测器时,还会引发粒子簇射,产生数万亿的次级粒子。我们根本无法用解析方法,写出“希格斯玻色子存在时,探测器产生某一响应的概率”—— 这是完全不可能的。如果我们能做到这一点,就根本不需要机器学习了;如果我们能直接表达实验数据的似然性,这项研究就早已完成,我也不会站在这场会议上,粒子物理学领域的任何人,都不会用到人工智能。

但我们做不到,不过我们有另一种方法:虽然无法通过理论直接计算概率,但我们可以进行模拟。我们拥有高保真度的模拟系统(high fidelity simulation),能一步步还原粒子对撞的过程,最终生成一个实验案例的模拟数据。并非只有粒子物理学领域会用到模拟:比如预测飓风路径时,你会先计算可能的轨迹,再根据实际情况调整。其核心逻辑,都是通过大量模拟生成案例,再从这些案例中提取概率密度。比如,你无法直接计算飓风袭击阿拉巴马州的概率,但你可以运行 100 万次模拟,然后告诉你,其中有 1000 次模拟中飓风袭击了该地区 —— 通过模拟,就能实现概率推断。

但问题在于:模拟能产生数据,却难以在高维空间中推断概率密度。在一维空间中,或许1000 个模拟案例就足够了;二维空间中,需要 1000 的平方个;而在 n 维空间中,需要 1000 的 n 次方个。那我们的实验数据,维度是多少?约 1 亿维。有人能拥有足够的计算能力,生成 1000 的 1 亿次方次模拟吗?这个数字,比可观测宇宙中的粒子总数还要大。如此看来,这条路似乎走不通了。

再次强调:如果我们能直接表达实验数据的似然性,或拥有无限的计算资源、无限快的模拟系统,就根本不需要机器学习。但现实是,我们都做不到。那我们实际是怎么做的?我们不会处理完整的原始数据,而是对其进行层层压缩和筛选。原始实验数据的维度约为10 的 7 次方,首先,我们只聚焦于探测器中产生粒子信号的区域,将维度降至 10 的 3 次方;接着,我们对轨迹进行聚类,将属于同一个粒子的轨迹合并为一个特征,维度降至 10 的 2 次方;然后,筛选出我们关注的特征,维度再减半;最终,将所有信息浓缩为一个数值。耗费数十亿美元搭建的装置、极高的对撞能量、极其复杂的实验过程,最终将 1 亿维的原始数据,浓缩成了一个数值。

我们不得不这么做,因为这是我们目前唯一能处理的尺度。我之前给大家看的希格斯玻色子发现的统计图,就是每个对撞案例对应一个数值—— 这是我们能进行模拟和计算的尺度。总结来说,只要满足以下任一条件,我们就无需机器学习:

1. 能直接计算探测器的响应结果;

2. 拥有无限快的模拟系统;

3. 能将所有实验信息完美浓缩为一个数值。

但这三个条件,我们一个都无法满足。在数据压缩的过程中,信息的丢失是必然的。其实,在2012 年深度学习革命到来之前,粒子物理学领域就已经开始使用机器学习了,只是彼时的应用极为基础:我们的数据分析系统,基本只能处理单个特征,如果要加入多个特征,就必须将其融合为一个数值 —— 这就是我们当时使用机器学习的目的。

这是1997 年的一篇论文,首次提出用机器学习,将单次粒子对撞的多个信息特征融合为一个数值。随后,我们对两种假设(粒子存在 / 不存在)进行模拟并绘制直方图,还原概率密度,再与实际实验数据对比,就能得到宇宙给我们的答案。这一方法非常有效,对于我们这些 “老研究者” 来说,我们在机器学习成为热门领域前,就已经开始应用它了。

这是我在2007 年和弟弟合著的论文,距今已有近 20 年 —— 我弟弟当时是牛津大学的人工智能研究员,这也是该领域第一篇融入相关 AI 技术的论文,对我来说意义非凡。但在当时,我们使用的是浅层网络(shallow networks),并非深度训练的网络。当时有一篇经典论文提出:只需一个隐藏层,就能拟合任意函数。但所有人引用这篇论文时,都忽略了一个重要前提:这个隐藏层的神经元数量,可能需要是无限的,才能实现完整的函数表达。我们当时总用这篇论文自我安慰,认为 “一个隐藏层就足够了”,但我们也清楚,这远远不够。从函数空间搜索的角度来说,似然比是最优的分析方法,而浅层网络只能捕捉到函数空间的一小部分,我们所能找到的 “浅层最优解”,与真正的全局最优解相去甚远。

多年来,我们一直清楚这一点:彼时的神经网络还很“笨拙”,将数据输入后,效果往往很差,必须先进行特征工程,才能提升效果。但我们不禁会想:神经网络本应自主捕捉数据中的信息,我们不该在输入数据前手动做特征工程 —— 而不得不做的事实,恰恰说明当时的神经网络还不够智能,无法覆盖整个函数空间,也无法拟合我们所需的高度非线性关系。这种情况,直到 2012 年才被改变。

深度学习(deep learning)的出现,让我们能训练深度神经网络,通过多层网络结构,实现远优于浅层网络的函数表达能力。而神经网络的训练过程,也变得更加灵活高效。显然,这一发现的意义重大,这是里程碑式的突破,令人无比激动。如今,深度学习已渗透到粒子物理学的各个领域:我们用它对实验数据进行分类,也将其应用于其他诸多场景,比如生成模拟数据。

我之前提到的、还原数万亿粒子运动的模拟系统,占据了欧洲核子研究中心绝大部分的计算资源。要知道,该中心的计算预算本就极为庞大,而这类模拟的成本高、速度慢。但现在,我们只需训练一个神经网络,就能生成模拟数据:向网络输入隐空间的随机噪声,它就能将其映射为高度逼真的实验数据。如今,我们能在一瞬间生成模拟数据,而非耗费数千小时的CPU 运算时间。这是生成式人工智能在该领域的一项变革性应用。我们的研究也不止于将数值输入网络:我们还会使用结构化数据,稍后我会详细讲解这一点;我们无需为神经网络提供完美的标注数据,而是采用 弱监督学习的方式,将不同比例的混合样本输入网络,以更精细的方式提取数据信息。

最后,我们也对机器学习在实验优化方面的应用充满期待。机器学习的作用,不仅是在实验建成后,以最高效的方式分析数据,更能优化实验本身的设计。试想一下,新的粒子对撞机和探测器有无数种配置方案,哪种尺寸、哪种结构,最适合实现新粒子的发现?如果能对这些参数进行计算和求导,就能在配置空间中搜索到最优解。因此,自动求导工具如今在未来物理实验装置的设计优化中,发挥着至关重要的作用。我们甚至将机器学习应用于粒子物理理论研究:不仅用它分析粒子对撞的实验数据,还将其用于探索粒子物理理论的高维参数空间。

大家应该听说过超对称理论(supersymmetry),这一理论认为宇宙存在数百个参数,这意味着其参数空间的搜索难度极高 —— 而机器学习,恰恰擅长高维空间的搜索,目前该领域已有大量相关研究。但我还期待着更重大的突破:我希望机器学习不仅能提升我们的数据分析能力,更能让那些我们曾认为完全不可能的发现,成为现实。还记得我之前提到的 “单次事件发现” 吗?安德森发现正电子,就是一次这样的突破的一个案例,一项诺贝尔奖。如今,我们也一直渴望实现这样的发现,但当前实验面临的一大挑战是:对撞频率极高,而我们要寻找的是极为罕见的粒子。

我们的对撞机,每25 纳秒就会发生一次粒子对撞。在过去,我们依靠人工通过计算机观察探测器图像,用人类的大脑去识别粒子的轨迹 —— 但面对如今的数据海啸,这种方式实在太慢了。因此,我们必须转向自动化、数字化的粒子追踪。而粒子追踪,本身就是一个极具挑战性的问题:粒子会在探测器的多层结构中留下轨迹,我们需要做的,是还原这些轨迹,判断哪些轨迹属于同一个粒子。在一次对撞中,探测器中会产生数千个粒子、数万个轨迹,我们的任务,是将这些轨迹分配给对应的粒子 —— 这其中的组合复杂度是极高的。数万个轨迹,有多少种分配方式?用暴力枚举法完全不可能实现。

因此,人们不得不简化问题,做出一些假设:首先,假设粒子都产生于对撞点—— 因为绝大多数粒子确实在对撞点产生,这是一个合理的假设;其次,假设粒子遵循特定的运动轨迹—— 根据电动力学,带有电荷的粒子在磁场中,会以螺旋线(helix)的轨迹运动,这也是一个合理的假设。这些假设简化了研究难度,但同时也限制了我们发现违反这些假设的新粒子的能力。在过去 10 年,粒子物理学领域已经意识到了这一点:粒子并非只能在对撞点产生,比如,某些质量极大的粒子可能会先运动一段距离,再发生衰变,产生大量次级粒子。

我们必须以开放的心态,去寻找这类粒子—— 如今,研究者们正致力于长寿命粒子(long lived particles)和衰变粒子(decayed particles)的研究,这些都是极具价值的项目。但我更关注另一个假设:粒子必须以螺旋线运动。这一假设,已深度融入我们当前的粒子追踪算法,比如卡尔曼滤波器(Kalman filter)的应用:我们先假设粒子的运动轨迹形式,找到几个候选的粒子信号点,将轨迹拟合到这些点上,再通过拟合的轨迹,向前 / 向后搜索其他信号点。这一方法非常高效 —— 如果你知道粒子的大致运动方向,就无需在探测器的其他区域盲目搜索信号点,能将搜索范围大幅缩小。

但这也意味着,我们提前假设了粒子的运动方向和轨迹,假设它一定以螺旋线运动。如果粒子的运动轨迹并非螺旋线呢?我希望能找到那些非螺旋线运动的粒子—— 我们的实验数据中,可能正隐藏着这种极具突破性的新粒子,它们的运动轨迹与我们的预期完全不同,一旦发现,就是全新的重大突破。这正是我们所有粒子物理学家渴望的发现,但当前的算法,根本无法识别这类粒子。它们可能就藏在我们的实验数据中,而我们在处理数据时,却因为不知道如何寻找,直接将其判定为 “无有效信号” 并丢弃。

那我们该如何实现这类发现?这正是我目前最热衷的研究方向—— 我投身基础物理学,并非为了做出微小的、渐进式的发现,我的梦想,是找到一种新粒子,当我把发现告诉理论物理学家时,他们会惊呼:这不可能!这种粒子根本不可能存在,我们早已证明它不存在!只有这样的发现,才能彻底颠覆人类对宇宙的认知,引发物理学的革命。机器学习能帮我们解决这个问题吗?能帮我们找到那些运动轨迹怪异的粒子吗?答案是可以。

基于图神经网络(GNN)的粒子追踪技术,就能实现这一目标 —— 而这项技术的发明,最初却是为了一个完全不同的目的。在大型强子对撞机的后续运行中,粒子对撞的过程会变得更加复杂、更密集,为了应对这种高强度的实验环境,研究者开发了这套基于图神经网络的粒子追踪系统,其效果极为出色。而我发现,这套系统做了一个至关重要的设计:将 “轨迹寻找(判断哪些信号点属于同一个粒子)” 和 “轨迹拟合(将轨迹拟合为某种特定的函数形式)” 分离开来。在整个过程中,它从未假设粒子的轨迹是螺旋线—— 它只是通过大量螺旋线轨迹的样本,训练网络自主学习识别螺旋线。这是一种非常巧妙的策略,我不展开赘述细节,其核心逻辑是:网络学习将物理空间中的信号点,映射到隐空间;在隐空间中,属于同一个粒子的信号点会彼此靠近,不属于同一个粒子的信号点则相距甚远,从而让粒子追踪的难度大幅降低。

再次强调,这套系统从未隐含“粒子轨迹为螺旋线” 的假设。那么,机器学习能否让粒子追踪实现泛化,找到那些非螺旋线运动的全新粒子?答案是肯定的,这类粒子的存在,并不违反物理定律。粒子在电磁场中以螺旋线运动,是因为它们带有电磁荷,但宇宙中还可能存在其他类型的电荷:比如带有磁单极荷的粒子,其运动轨迹就并非螺旋线;还有一种理论上的夸克球粒子(cotton quarks),科学家假设这类粒子之间存在一种全新的 “暗力”,当它们在探测器中产生时,会发生振荡,留下如幻灯片中所示的奇特轨迹。这是模拟的轨迹图像,但如果我们在实际的粒子对撞中发现了这类轨迹,那当天就能拿到前往斯德哥尔摩(诺贝尔奖颁奖地)的机票。这是能直接斩获诺贝尔奖的单次事件发现。

我们开展了一个研究项目,用这套基于机器学习的粒子追踪系统,不再以标准模型的螺旋线轨迹为训练样本,而是以这类怪异的非螺旋线轨迹为样本,训练后,它能识别出这类轨迹吗?答案是可以。大家看到的这些,都是模拟数据—— 我并非在宣布发现了新粒子,但实验证明,这套基于机器学习的追踪系统,确实能找到非螺旋线运动的全新粒子。这一发现极具启发性,我们去年已就此发表了论文。但我们的真正目标,并非寻找夸克球 —— 因为针对夸克球,人们总能开发出专用的追踪系统。我们的目标,是找到那些全新的、怪异的、完全超出我们预期的粒子,而非加州某个聪明的理论物理学家预测的粒子。因此,我们提出了一个新问题:能否让系统识别出任意形式的平滑轨迹?即所有在空间中运动、轨迹连续且导数也连续的粒子。从数学角度,我们可以在傅里叶空间(fourier space)中描述这类轨迹:通过限制高频模式的振幅,就能得到平滑的轨迹,这一方法被称为最短函数法(shortest function)—— 这并非我的研究生或我提出的方法,是已有理论。我们利用这一方法,生成了大量并非源于任何特定粒子理论的怪异轨迹,这些轨迹只是粒子在空间中的随机平滑运动;随后,我们模拟了这些轨迹在 ATLAS 装置中的信号,再用基于机器学习的粒子追踪系统进行训练,让它识别这类轨迹。

大家可以看到,系统成功实现了识别:绿色的圆圈是系统找到的信号点。尽管它并非完美—— 无法识别出粒子的完整轨迹,但识别出的部分,已足够让我们实现发现。如果我在真实的粒子对撞中看到这样的轨迹,我会立刻给瑞典皇家科学院打电话,订上去斯德哥尔摩的机票。

以上就是我今天的科研分享部分:基于机器学习的粒子追踪技术,已是一项极具威力的工具,深度学习彻底革新了物理学。它渗透到了粒子物理学的所有研究环节,其威力不仅在于优化我们的发现过程,更在于让全新类型的发现成为可能。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐