AI巨头筹划价值1100多亿美元的超级计算机项目

作者： finance时间：2024-04-02来源：半导体产业纵横收藏

据报道，Microsoft 和 OpenAI 正在开发一个大型数据中心，以容纳一台拥有数百万个 GPU 的专注于 AI 的超级计算机。The Information 报道称，该项目的成本可能「超过 1150 亿美元」，而目前在 OpenAI 内部被称为「星际之门」（Stargate）的超级计算机将位于美国。

本文引用地址：http://www.amcfsurvey.com/article/202404/457108.htm

该报告称，Microsoft 将为数据中心买单，该数据中心可能比当今一些最大的运营中心「成本高出 100 倍」。Stargate 将是两家公司希望在未来 6 年内建立的一系列数据中心项目中最大的一个，高管们希望在 2028 年之前运行它。

报告称，OpenAI 和 Microsoft 正在分阶段构建这些超级计算机，Stargate 将是第 5 阶段的系统。The Information 的消息人士称，第 4 阶段的系统成本更低，最早可能在 2026 年启动，并且可能希望在威斯康星州的 Mt. Pleasant 开始。该系统可能需要几个 Stargate，还需要足够的电力供应（至少几千兆瓦），以至于 Microsoft 和 OpenAI 正在考虑替代能源，例如核能。

消息人士表示，这种规模的数据中心将具有挑战性，部分原因是现有设计需要「将比过去更多的 GPU 放入单个机架中，以提高芯片的效率和性能，这意味着还要设计新颖的方法来保持良好的散热性能。

听起来这些公司也有可能利用这个设计来摆脱对英伟达的依赖。该报告称，OpenAI 希望避免在 Stargate 中使用英伟达的 InfiniBand 电缆，尽管 Microsoft 在当前的项目中使用它们。OpenAI 声称它宁愿使用以太网电缆。

很多事情仍有待确定，因此价格和计划似乎都可能发生变化，目前尚不清楚何时会最终确定细节。该信息还指出，尚未确定这台计算机将位于何处，以及它是将构建在单个数据中心还是「邻近的多个数据中心」中。

今年早些时候，有报道称，OpenAI 首席执行官山姆·阿尔特曼（Sam Altman）雄心勃勃地制造人工智能芯片，并希望筹集多达 7 万亿美元来建设晶圆厂来生产它们。去年，Microsoft 发布了专门用于 AI 项目的 128 核 Arm 数据中心 CPU 和 Maia 100 GPU。也有报道称，Microsoft 为人工智能数据中心开发自己的网络设备。随着人工智能的兴起，英伟达的 GPU 需求量很大，因此，像 Microsoft 和 OpenAI 这样的公司可能希望有一些其它选择是有道理的。

「我们一直在规划下一代基础设施创新，以继续推动人工智能的发展，」Microsoft 首席通信官弗兰克·肖（Frank Shaw）告诉 The Information，但他没有直接评论该超级计算机计划。

Microsoft 在与 OpenAI 的合作中投入了数十亿美元，主要是以计算能力的形式运行其模型。如果 Stargate 或类似的东西成为现实，随着投资的规模越来越大，而且越来越复杂，这种伙伴关系只会越来越深。

美国超算有哪些？

2023 年 11 月，全球超级计算大会正式公布了第 62 期全球超级计算机 TOP500 排行榜，美国橡树岭国家实验室的 Frontier 仍保持着第一名位置，中国的神威·太湖之光和天河二号 A 也进入了前十五，分别排名第 11 和第 14。

排名第一的 Frontier 以 1.194 EFlop/s 的 HPL 性能继续保持领先地位。其搭载了基于最新的 HPE Cray EX235a 架构的 2GHz AMD EPYC 64C 处理器，共有 8699904 个 CPU 和 GPU 核心。此外，Frontier 还具有高达 52.59 GFlops/W 的额定能效，并可借助于 HPE 的 Slingshot 11 网络进行数据传输。

排名第二是美国阿贡国家实验室的 Aurora 超级计算机，其以 585.34 PFlop/s 的 HPL 性能杀入榜单。需要指出的是，此次 Aurora 的数值是在当前未完全建成状态下提交的，目前仅有计划中最终规模的一半。根据规划，Aurora 在建设完成后将配备 21248 个 Intel Xeon Max 系列 CPU、63744 个 Intel Max 系列 GPU、20.42PB 内存，峰值性能可达 2 EFlop / s，远超 Frontier。

排名第三的是安装于微软美国 Azure 云中的 Eagle，HPL 性能为 561.2 PFlop/s，这也是云服务厂商取得的最高排名。其基于英特尔至强铂金 8480C 处理器和英伟达 H100 打造。

排名第四的是日本的富岳超级计算机，HPL 分数为 442.01 PFlop/s，基于富士通自研的基于 Arm 架构的 48 核处理器 A64FX，总共装有大约 16 万个 CPU 芯片。

排名第五的是来自芬兰卡亚尼欧洲高性能计算中心的超级计算机 LUMI，HPL 性能达 379.07 PFlop/s，基于 HPE Cray EX235a 架构，配备了 2GHz AMD EPYC 64C 处理器和 AMD Instinct MI250X GPU。

排名第六的是意大利 CINECA 的一个 EuroHPC 站点上的 Leonardo 系统，HPL 性能达 238.7 Pflop/s。它是一个 Atos BullSequana XH2000 系统，处理器为 Intel Xeon Platinum 8358 32C 2.6GHz，加速器为 NVIDIA A100 SXM4 40 GB，采用四轨 NVIDIA HDR100 Infiniband 作为互连。

排名全球第七是美国田纳西州橡树岭国家实验室（ORNL）的 Summit 超级计算机，由 IBM 打造，目前在 HPL 性能为 148.8 Pflop/s，拥有 4,356 个节点，每个节点配备两个 POWER9 CPU（每个具有 22 个核心）和 6 个 NVIDIA Tesla V100 GPU（每个含有 80 个 SM），通过 Mellanox 双轨 EDR InfiniBand 网络保持连接。

第八名是西班牙 EuroHPC / 巴塞罗那超级计算中心最新安装的 MareNostrum 5 ACC 超算系统，这个使用 Xeon Platinum 8460Y 处理器以及 NVIDIA H100 和 Infiniband NDR200，实现了 183.2 Pflop/s 的 HPL 性能。

排名第九的新 Eos 系统是英伟达打造的基于 DGX SuperPOD 的系统，配备 Intel Xeon Platinum 8480C 处理器、NVIDIA H100 加速器和 Infiniband NDR400 的 NVIDIA DGX H100，实现了 121.4 Pflop/s 的性能。

排名第十的是美国加利福尼亚州劳伦斯利弗莫尔国家实验室的 Sierra 系统。它的架构与排名第七的系统 Summit 非常相似，由 4,320 个节点组成，每个节点配备两个 POWER9 CPU 和四个 NVIDIA Tesla V100 GPU，可实现 94.6 Pflop/s 的性能。

此外，GREEN500 排名第一的位置仍然是美国纽约熨斗研究所的 Henri。该系统的能效等级为 65.40 GFlops / Watt，同时 HPL 得分为 2.88 PFlops / s。Henri 是一台联想 ThinkSystem SR670，配备 Intel Xeon Platinum 和 NVIDIA H100，共有 8,288 个核心，在 TOP500 排行榜上排名第 293 位。

新闻中心

AI巨头筹划价值1100多亿美元的超级计算机项目

美国超算有哪些？

评论

相关推荐

技术专区