2026年7月第一周,三条消息从不同方向同时涌向英伟达。
第一,SemiAnalysis披露,英伟达原版四芯片Rubin Ultra在GTC 2026发布仅三个月后即遭取消。新版性能减半。
第二,AMD正式展示机架级AI平台Helios,配备31TB HBM4内存,直接对标英伟达NVL72。2026年内供货。
第三,哈佛辍学生创办的Etched宣布累计融资8亿美元,估值50亿美元,签下10亿美元订单。Sohu芯片推理Llama-3 70B的速度是英伟达H100的20倍。
三件事同时发生,不是巧合。
英伟达的麻烦,从来不是一个点。是产品、战略、架构三条线同时在响。
一、一块基板,毁了一颗芯片
四芯片Rubin Ultra的取消,根子在封装。
英伟达与台积电原计划用CoWoS-L封装,将四颗接近光罩尺寸上限的大芯片集成在一起。但在四芯片(2+2排列)的配置下,封装基板出现严重翘曲。基板向多个方向弯曲,计算芯片无法与底层基板完全接触,信号传输失效。
这不是设计问题,是物理极限。芯片越做越大,封装越来越复杂,良率越来越低。台积电的CoWoS-L封装已经是最先进的技术,但四颗大芯片拼在一起,基板就是会翘。台积电有个备选方案叫CoPoS,量产要到2028年底。Rubin Ultra原定2027年出货,等不起。
英伟达只能转向双芯片设计。十六组HBM4E砍到八组,尺寸缩到一半,实际性能减半。一款旗舰芯片从发布到报废只用了三个月,一块基板的翘曲毁了一颗芯片。
二、AMD在抄内存的后路
英伟达被封装问题卡住的同时,AMD的Helios平台已经走向量产。
Helios集成72颗Instinct MI455X加速器,配备31TB HBM4内存。FP4精度下算力达2.9 ExaFLOPS。2026年内供货。
英伟达Vera Rubin NVL72的内存是20.7TB。Helios高出50%。
AMD的算盘很清楚:不在训练算力上和英伟达硬拼,在推理和内存带宽上找差距。大语言模型推理是内存密集型任务,内存越大,能跑的模型越大,吞吐量越高。英伟达还在为封装基板翘曲焦头烂额,AMD已经把31TB HBM4的机架推到了客户面前。
三、00后从架构层拆解护城河
英伟达更大的麻烦来自底层架构。
Etched由哈佛辍学生Gavin Uberti和Chris Zhu于2022年创立。他们的逻辑很简单:通用GPU什么都能跑,但什么都跑得不够快。英伟达的H100、B200是通用处理器,成千上万个CUDA核心要应对所有类型的计算负载。Etched只做一件事——运行Transformer模型。
Sohu芯片把Transformer架构直接嵌入硬件。八颗Sohu芯片的服务器,推理Llama-3 70B每秒可处理超过50万个token。八颗H100是2.5万token/秒,八颗B200是4.3万token/秒。Sohu是50万——H100的20倍,B200的11倍。
这不是渐进式改进,是数量级的碾压。
投资者名单里站着彼得·蒂尔、杰弗里·辛顿、李飞飞。三个哈佛辍学生创办的公司,拿到了图灵奖得主的钱。
四、同一周的三条线
三条消息同时发生,指向同一个方向:英伟达的麻烦正在从不同方向同时涌来。
Rubin Ultra的取消,是物理极限的墙。芯片越做越大这条路已经走到头了,更大的芯片需要更复杂的封装,更复杂的封装带来更高的缺陷率。物理极限不为任何人让路。
AMD的追击,是产品战略的墙。英伟达在训练算力上依然领先,但推理市场正在爆发。Helios用31TB HBM4内存重新定义了机架级AI系统的内存容量标准。
Etched的崛起,是架构层面的墙。当模型迭代不再每几个月大改时,固定功能芯片就能抢走一部分真实推理支出。英伟达的CUDA护城河是通用性的护城河,但当越来越多人只需要跑Transformer时,通用性本身就成了冗余。
三面墙同时出现。一块基板的翘曲毁了一颗芯片,AMD正在用内存容量蚕食推理市场,00后正在从架构层拆解英伟达的护城河。英伟达依然是AI芯片的王者,但王座周围的裂缝正在一条一条地出现。
资讯来源:微信公众号
