造芯片的还有高手?

刚刚推出的一款最新芯片,直接冲上硅谷热榜。

峰值推理速度高达每秒17000个token

什么概念呢?当前公认最强的Cerebras,速度约为2000 token/s。

速度直接快10倍,同时成本骤减20倍、功耗降低10倍。

这就意味着,LLM真正来到了亚毫秒级的即时响应速度。实机效果be like:

但这块一夜之间刷屏硅谷的芯片,并非出自英伟达、AMD之手,而是一家成立仅两年、团队仅有24人的初创公司——Taalas。

芯片代号HC1,也是公司的首款产品。

不同于所有竞争对手,Taalas选择了迄今为止最极端的技术方案——

模型不再加载到内存里,而是直接刻在硅片上。换言之,芯片即模型。

结果显而易见,Taalas撬动了芯片算力护城河:H100买不到,试试HC1又何妨?


正好我的文章讲到这个话题,顺便回答一下。


柳比沙·巴季奇(Ljubisa Bajic)

柳比沙·巴季奇(Ljubisa Bajic)曾经是黄仁勋 手下的员工。这个来自塞尔维亚的青年,是个芯片设计奇才,在英伟达的短暂旅程,却并没有引起黄仁勋的注意,反而在AMD,受到了芯片之神吉姆·凯勒(Jim Keller)的青睐。

吉姆·凯勒(Jim Keller)

在漫长的芯片战争中,有几场经典的战役是无法忽视的。这其中有AMD和Intel在CPU阶段的大战,有苹果反击高通的A4芯片之役,还有马斯克在FSD上面的去英伟达化之战,这三场战役的领军人物都是吉姆。吉姆是两次将AMD从生死边缘拉回来的功臣,也是两次推翻芯片垄断霸权的革命领袖。不夸张的说,他在芯片设计领域里的迈尔克乔丹,也是目前地球上最受尊敬的活着的微处理器架构神级宗师。

在科技圈,高管跳槽是家常便饭,但只有吉姆的跳槽,能直接引发华尔街几十亿甚至上百亿美元的市值波动。因为历史已经无数次证明:他去哪家公司,哪家公司就能在几年后完成不可思议的绝地大反击。他的地位来源于他的“第一性原理”:他根本不迷信什么指令集,他只看透晶体管、内存总线和数据流动的物理本质。这让他在整个硬件圈拥有了无可辩驳的话语权,连傲慢的黄仁勋和马斯克在提到他时,都必须保持绝对的尊敬。他对皮衣教主,也是丝毫不惯着。黄仁勋赖以生存的CUDA ,被他认为并非护城河,而是一片沼泽。他认为:“CUDA 并不优美(CUDA is not beautiful),它是一件件乱七八糟的东西堆砌起来的。”对于黄仁勋的另外一个大招NVLink ,他则认为纯粹是黄仁勋花了冤枉钱。他多次公开讲道:“如果英伟达愿意放下身段,使用全行业开源通用的以太网标准(比如 Ultra Ethernet)把这些 GPU 连起来,他们不仅能省下 90 亿美元的研发费,还能避免让客户陷入供应商锁定的深渊。”

这等于将黄仁勋的底层战略彻底曝光在世人的面前。而事实证明,硅谷的巨头们已经听懂了这位大神的暗示。由 Intel、AMD、微软等巨头联合组建的“超以太网联盟 (UEC)”和“UALink ”已经开始在数据中心层面试图绞杀NVLink了。在CUDA层面上,吉姆认为:“计算机科学中的任何问题,都可以通过增加一个间接层来解决。”所以,CUDA这样的屎山代码集,早晚会被填平或者绕过。

从吉姆和黄仁勋的对线可以看出,这个家伙并非什么温和的导师辅助型人格,而是个极其骄傲和挑剔的斗士。但就是这样一位上古大神,居然加入了原来手下巴季奇的创业公司,当时还在多伦多地下室的Tenstorrent ,不仅作为天使投资人真金白银的放了钱,还亲自担任他们公司的CTO,赌上了自己的一世英名。那么作为创始人的巴季奇,到底拥有什么样的魅力呢?

在巴季奇身上,吉姆看到了能够“从物理学底层颠覆英伟达 GPU 霸权”的终极密码。

在半导体行业,分工极其细化。懂底层晶体管物理和漏电控制的人,通常不懂上层的 AI 神经网络算法;懂怎么写大模型代码的人,连怎么画芯片逻辑门都不知道。吉姆明确的表示,巴季奇是他见过的极少数能够“在脑子里把高维的数学算法,直接映射成底层物理电路”的天才。遇到巴季奇这样一个能从软件顶层一眼看穿到硅片底层的全栈架构师,吉姆仿佛看到了年轻时的自己。

除了英雄之间的惺惺相惜,吉姆和巴季奇在价值观上还有着非常一致的共识。他们都认为,GPU 本质上是一台“暴力推土机”(密集矩阵乘法)。当它在计算大模型时,哪怕矩阵里有大量的“0”(无用数据),GPU 也会老老实实地把所有的 0 都乘一遍。这不仅浪费了大量的算力,还白白烧掉了极高的电能。巴季奇在创立Tenstorrent时,提出了一个极具颠覆性的概念——“条件计算”和“动态稀疏性”。它的芯片架构能够在硬件层面上“聪明地识别”哪些数据是不重要的。如果是 0,或者是不影响结果的微小权重,芯片会直接“跳过”不算。这就像是从“无差别地毯式轰炸”变成了“精准狙击”,大幅降低了功耗,极大地提高了有效算力。吉姆一眼就看出了这种架构在未来的绝对优势。

吉姆曾经有过一个非常著名的言论,“计算是免费的,移动数据才是昂贵的。”英伟达为了解决这个问题,搞出了极其昂贵的 NVLink 和 NVSwitch,试图强行拓宽马路。巴季奇彻底重构了芯片内的网络。Tenstorrent 的芯片内部直接采用了 2D Torus的二维环形网络。每个 AI 核心都可以像蜂巢一样直接和周围的核心交换数据,完全不需要经过复杂的外部路由器。当吉姆看到这个设计时,他知道这就是他苦苦寻找的完美拓扑结构。只要把成千上万个这种芯片连在一起,软件层面看到的就像是一块“无限大的芯片”,彻底消灭了跨节点数据搬运的痛苦。

所以吉姆果断的加盟了之前手下的创业公司,并心甘情愿的上演了“神级大佬给昔日小弟打工”的戏码。随着 Tenstorrent 规模迅速膨胀,达到了近 300 人,巴季奇发现自己被繁杂的商业谈判、融资和公司管理牵扯了太多精力,无法专注于技术;而管理大团队、统筹宏大战略恰恰是吉姆的强项。 于是,在 2023 年 1 月,两人极其痛快地“互换了身份”吉姆升任 CEO,掌管公司全局;而创始人巴季奇退居 CTO,回去安安静静地搞底层软件和架构研发。

吉姆不仅继承了巴季奇的 AI 架构,还把自己的终极野心注入了Tenstorrent。他在这里极其激进地引入了RISC-V 。他把极简的 RISC-V CPU 核心,和巴季奇设计的 AI 核心(Tensix)完美地揉合在同一块硅片上。他想要向全世界证明,不需要交巨额的 ARM 专利费,不需要忍受英伟达封闭的 CUDA 生态,用全开源的 RISC-V 架构,依然能造出地表最强的 AI 计算节点。

但是正是在他们共同看到了AI计算的最大死穴“内存墙”的时候,他们两个关于底层逻辑的分歧出现了。他们两个的解题思路完全不同。

吉姆认为,应该“拥抱通用性,打造开源的计算大底座”。他认为,AI 算法依然在快速迭代。因此,芯片必须是可编程的。所以他的解法是异构大一统,把极其灵活的开源 CPU 架构(RISC-V)和 AI 加速器缝合在一起。他希望 Tenstorrent 不仅能跑大模型,还能跑传统的操作系统和科学计算。他要在灵活性和性能之间寻找最优解,试图成为下一个可以替代英伟达和 ARM 的“通用算力帝国”。

巴季奇则是另外一种思路。他对Transformer有着无比巨大的信心。他认为,既然全世界都在跑同一种神经网络架构,我们为什么还要在芯片里保留那些没用的“灵活性”?在巴季奇看来,通用 GPU(包括 Tenstorrent 自己的芯片)为了保持“什么都能算”的灵活性,内部充满了庞杂的指令提取器、缓存控制器和外部显存接口。这些东西不仅贵,而且白白烧掉了 90% 的电能。所以他有个非常大胆的想法,把权重直接刻进硅片。但是这个想法无法说服吉姆,所以他干脆离开了Tenstorrent,只保留了董事和顾问的位置,自己二次创业去了。

他新成立的公司名字叫Taalas ,在这个新团队中,他提出了一个颠覆性的概念:彻底抛弃可编程性。 他不再把芯片当成一台“接收指令并执行的计算机”,而是直接把大模型,比如一个 Llama 或 Transformer 模型的数学结构和权重,像印电路板一样,物理硬连线到晶体管上。

2026年2月,Taalas首次向外界展示了最新的初代物理硬连线 AI 芯片——HC1 (Hard Coded Inference 1)。巴季奇拿出的第一颗测试芯片,没有跑什么虚无缥缈的跑分软件,而是直接把 Meta 开源的 Llama 3.1 8B 大模型,彻彻底底地“物理烧录”到了这颗台积电 6nm 制程的芯片上。

这颗芯片完全没有外接任何 HBM 显存。Taalas 发明了一种叫 “Mask ROM (掩膜只读存储器)召回结构” 的技术。大模型的静态权重(Weights)被当成不可更改的物理电路,直接印在硅片底层,而用来处理动态对话上下文的 KV Cache,则完全由片上的 SRAM高速处理。

这颗极度偏执的芯片,跑出了让英伟达、Cerebras 甚至 Groq 都感到背后发凉的数据:在单用户并发下,HC1 能达到极其恐怖的 16,000 Tokens/秒。这意味着它生成几十页的论文,或者成百上千行的代码,对人类的体感来说就是“零延迟”的瞬间弹出,它的延迟低于 1 毫秒。在成本上,相比于目前主流的 GPU 方案,HC1 的制造成本降低了20 倍,功耗降低了10 倍。一张插满 HC1 芯片的 PCIe 加速卡只要 200 瓦,而同等推理能力的 GPU 服务器大概要烧掉几千瓦的电。

这颗芯片最大的问题来自于其专用性。换句话说,当模型产生变动时,这颗芯片将无法兼容它的变化,而必须重新制造。所以问题变成了,在当下的智能水准和推理成本面前,你将如何选择?巴季奇对这种变化,也做了一些准备。他借用了结构化 ASIC的设计理念。Taalas 在台积电预先生产了大量已经做好了底层晶体管,这些包含 530 亿个晶体管的半成品硅片的底层逻辑是通用的。当客户需要部署一个全新的模型时,Taalas 不需要重新设计整个芯片,他们只需要在台积电的工厂里,对这块半成品晶圆最顶端的两层金属布线层进行重新光刻,用来改变连线方式,从而注入新的模型权重。巴季奇的生意经是,花几百万美元和两个月时间把大模型做成专属的物理芯片,并在推理阶段省下数亿电费,这笔账怎么算怎么划算。

但是这个生意经成立的关键在于模型的规模,如果只是8B这样的规模,HC1可以说是鸡肋,但如果这个规模是GPT4级别的,则将会非常的有价值。但是在这种设计下,芯片的天花板就变成了晶圆的尺寸。858平方毫米是这个母体硅片的最大面积,在这上面,即使是台积电,也只能做下30B 到 50B 参数的模型,所以巴季奇规划的支持 200 亿参数推理模型的第二代芯片是可信的,而他说宣称的直接把“前沿级(Frontier-level)超级大模型”硬连线到硅片上则还需要其它的技术突破。

此时,我们可以看一下吉姆的操作。2025 年 7 月,Tenstorrent 极其果断地收购了模拟混合信号 IP 领域的顶尖初创公司 Blue Cheetah Analog Design。这家公司拥有极其先进的 Die-to-Die(裸片到裸片)互联技术。结合巴季奇的HC1所遇到的物理限制和他在Tenstorrent的董事身份,我们有理由相信,巴季奇对未来的大规模参数的物理硬连线,也做好了准备。

在吉姆和巴季奇的脑海中,或许未来AI计算设备的图景是:在英伟达的显卡上训练好的成熟大模型,被成批的送进台积电的工厂做成HC-X的芯片,再部署进千百台边缘计算设备进行推理。

不知这样一枚用极端专用打造成的回旋镖,黄仁勋会作何感想?他是否接得住呢?


本文来自专栏的第十九章:

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐