来源:半导体产业纵横
英伟达超越苹果成为全球最值钱的公司,而市场依旧对英伟达保持乐观。
与此同时,美国科技公司的服务器集群频频曝光。年关将至,巨头们开始展示自己的 AI 肌肉,试图在年底给投资者们一点甜头。
就在埃隆·马斯克 xAI 集群首次曝光后,小扎也迫不及待在 Meta 的业绩发布会上表示,Llama 4 背后服务器集群的实力「比我见过的任何报道中其他人正在做的(规模)要大」。这番言论无疑是对埃隆·马斯克「地表最强的 AI 集群」的正面回应。
在科技巨头们开启算力竞赛时代,英伟达的 GPU 成为巨头们的「粮草」。本文就来看看英伟达的大客户们 AI 之战的囤粮情况。
巨头血拼 H100
「前」地表最强——xAI
2023 年 7 月 14 日,马斯克在个人推特账号宣布新公司定名为 xAI,并于同日举行 Twitter 空间会议。新成立的 xAI 公司会与 Twitter 和特斯拉紧密合作,其中一个目标是打造能进行高阶逻辑推理的人工智能模型,并超越市面上其他模型。
四个月后,xAI 宣布推出 Grok,称此模型「最大限度地造福全人类,并将是任何人的强大的研究助理。」
2024 年 9 月 xAI 推出 Colossus 100k H100 训练集群。马斯克在 X 上称,它是「世界上最强大的人工智能训练系统。此外,它的规模将在几个月内翻一番,达到 200k(50k H200x)。」
2024 年 10 月,埃隆·马斯克的新项目 Colossus AI 超级计算机第一次被详细介绍。一则视频展示了其包含 10 万台 GPU 集群的内部结构。Colossus 的基本构建模块是 Supermicro 液冷机架。它由 8 台 4U 服务器组成,每台服务器配备 8 个 NVIDIA H100,每台机架总共有 64 个 GPU。8 台这样的 GPU 服务器加上一台 Supermicro 冷却液分配单元 (CDU) 和相关硬件构成了一个 GPU 计算机架。每个 HGX H100 之间都夹有 1U 歧管,为服务器提供所需的液体冷却。每个机架底部还有另一个 Supermicro 4U 单元,配备的是冗余泵系统和机架监控系统。
Meta:购买 35 万个 H100
正如前文所说,在 Colossus AI 计算机视频流出后,埃隆·马斯克的「死对头」扎克伯格在 Meta 的业绩发布会上表示自己家的 GPU 比目前公开的数量都多。
年初,扎克伯格在 Instagram 上发表文章称,计划在今年年底前向芯片设计商英伟达购买 35 万个 H100 GPU 芯片。Meta 首席科学家杨立昆(Yann LeCun)上个月在旧金山举行的一次活动中强调了 GPU 对于构建通用人工智能(AGI)的重要性。他说:「如果你认为 AGI 时代正在到来,你就必须购买更多的 GPU。这是一场人工智能战争,而英伟达正在提供武器。」
据业内人士介绍,每个英伟达 H100 芯片售价为 25000 至 30000 美元。那么购买 35 万个 H100 的成本在 87.5 亿之间到 105 亿美元之间。如果按照每个服务器配备 8 个 GPU 的数据估算,Meta 将建造超过 4.3 万台服务器;目前市场配备一台服务器的价格在 27 万美金左右,那么 2024 年 Meta 的在服务器的设备成本大概是 118 亿美元。此外,还要配备相应的存储、网络、供电、厂房等等其他设施;从成本结构来看(按服务器设备成本占比 30% 估算),如果 Meta 在 2024 年购买的 35 万个 H100 全部按时到货,且投入使用,那么 Meta 为 H100 搭建的数据中心投资预计超过 350 亿美元(还不包括后续运营成本)。显然扎克伯格希望用 35 万个 H100 芯片为 Meta 的 Llama 4 带来更强的推理能力和更快的速度。
据估算 10 万个 H100 的算力峰值可以飙升到 198/99 FP8/FP16 ExaFLOPS。来源:semianalysis,半导体产业纵横调研
微软:2023 年最大买主
根据 Omdia Research 的分析,2023 年英伟达的 H100 大多供应给了大型云服务商。该机构估计,2023 年 H100 最大的买家就是微软和 Meta,预计为 15 万个。
来到 2024 年,微软将 AI 芯片的囤货目标提到了 180 万块,且将主要来自英伟达。business inside 表示,到 2027 财年,微软预计将在 GPU 和数据中心上花费约 1000 亿美元。微软的 AI 芯片目标显然不全是 H100,但这样的数字也足以见得微软对英伟达的「高需求」。
亚马逊&谷歌:一边买,一边造
相对于本文提到的其他三家公司,亚马逊和谷歌在购买 GPU 采购上相对低调。
事实上亚马逊在 2023 年 7 月就已经宣布推出基于 H100 GPU 的虚拟机实例 EC2 P5。P5 实例可以组合成称为 UltraScale 的 GPU 集群,提供高达 20 百亿亿次浮点运算的总体性能。 每个 UltraScale 集群中可扩展多达 20,000 个 H100 GPU。用户可以部署可扩展到数十亿或数万亿个参数的 ML 模型。
同样在 2023 年,谷歌也推出了承载 26,000 个英伟达 H100 GPU 的 A3 超级计算机。A3 最大可提供 26 ExaFlops 的处理能力,可显著减少训练大型机器学习模型的所需时间与成本。若用在 AI 推理,A3 的成效更为显著,若以 A2 的运算效能为基准,A3 领先幅度可达到 30 倍。
作为云巨头,亚马逊和谷歌为何在 H100 的采购上有如此大的数量差距?
一个重要原因是,这两家巨头都在「悄悄」发力自研芯片。
亚马逊开发的 AI 专用芯片包括 Inferentia 和 Trainium。据亚马逊方面表示,在亚马逊的促销日期间,该公司部署了 80000 个 AI 芯片实施云计算,以应对其平台上活动的激增。此外,AWS 计算和网络副总裁戴维·布朗 (David Brown) 透露:「在某些情况下,该芯片性能相较英伟达可提高 40% 至 50%,因此其成本应该是使用英伟达运行相同型号的一半。」
谷歌 TPU 是定制设计的 AI 加速器,针对大型 AI 模型的训练和推理进行了优化。它们非常适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等等。Cloud TPU 能够针对各种 AI 工作负载(涵盖训练、微调和推理)进行经济高效的扩缩。Cloud TPU 提供了多种功能,可加速领先 AI 框架(包括 PyTorch、JAX 和 TensorFlow)上的工作负载。通过 Google Kubernetes Engine (GKE) 中的 Cloud TPU 集成,无缝编排大规模 AI 工作负载。利用动态工作负载调度程序同时安排所有需要的加速器,从而提高工作负载的可伸缩性。寻求最简单的 AI 模型开发方法的客户还可以在全托管式 AI 平台 Vertex AI 中利用 Cloud TPU。
背后赢家英伟达
英伟达在 2023 年为 H100 定下的销售目标是 2024 年出货 150 万至 200 万台。
根据英伟达财报,2024 年第二季度营收实现翻倍,其中四个大客户的采购占比占英伟达 300 亿美元营业额的 46%。出于竞争原因,对四家客户的身份进行匿名处理。在英伟达公布备受期待的季度投资者报告时提交的 10-Q 监管申报文件显示,四家客户贡献的营业额约为 138 亿美元。时长猜测。四家人工智能巨头可能就在亚马逊、Meta、微软、Alphabet、OpenAI 或特斯拉+xAI 之间产生。
微软、Alphabet(谷歌母公司)、亚马逊和 Meta,四家公司第三季度在数据中心设备和其他固定资产上总共投入了 590 亿美元,创下了季度纪录。这意味着英伟达有望在本季度也交出一张漂亮的答卷。
除了以上巨头,苹果、OpenAI、中国互联网大厂都是英伟达的重要买家,基于这样的背景。华尔街分析师对英伟达的看法非常乐观,机构追踪的 75 位分析师中有 67 位将该股评为「买入」。他们还在继续提高预期,根据汇编的数据,过去三个月,他们对明年的利润预测提高了约 10%。
2024 年 11 月 8 日,英伟达市值突破 3.6 万亿美元,刷新了美股历史。在 11 月份,英伟达股价已经累计上涨了 12%,2024 年年初至今,该公司市值已经增长了两倍。
2024 年 11 月 8 日英伟达市值
AI 改变芯片市场
11 月 1 日,标普道琼斯指数公司公布,将英伟达纳入道琼斯工业平均指数,取代道指目前的芯片业成分股英特尔。这次调整标志着人工智能和高性能计算的重要性日益增强。英伟达作为 AI GPU 的领先供应商,能够吸引更多投资者关注新兴技术,传统的半导体公司则面临较大压力,尤其是在数据处理、AI 模型训练等高增长领域。
当然,这样的调整更说明 AI 正在引导市场投资风向。
上周巨头业绩后,各家投行陆续上调了明年整体资本开支。大摩从 2700 亿美金上调到 3000 亿美金。3000 亿美金,作为对比先后完成 6 次登月的阿波罗登月计划共花费 239.15 亿美元;3000 亿美金的数字可以在 2023 年非洲国家 GDP 排名中位列第 4,仅低于埃及(3939 亿美元)、南非(3777 亿美元)、尼日利亚(3749 亿美元)。
在人们感慨英伟达时代来临的时候,或许应该意识到 AI 时代真的来了。
AI 成就了英伟达,AI 时代并不会只属于英伟达。凯文凯利在《5000 天后的世界》中预测:在未来的 50 年里,AI 将成为可以与自动化和产业革命相提并论的,不,应该是影响更为深远的趋势。
一个新时代,将会由一个新玩家建造。