国产GPU供不应求——国产之光性能超乎想象

作者：EEPW时间：2024-04-10来源：EEPW收藏

国产GPU供不应求——国产之光性能超乎想象

本文引用地址：http://www.amcfsurvey.com/article/202404/457390.htm

AI届春晚—英伟达GTC大会在3月召开，B100/B200晶片的亮相，刷新了计算新速度，随着人工智能技术的日新月异，从数据处理到算法优化，再到应用场景的拓展，每一步都可能带来新的市场机会。从智能硬件到云计算，再到物联网等多个领域，AI技术的深入应用都将成为市场的关注焦点。AI对算力的要求是需要大量的并行及重复计算，GPU正好有这个专长，时势造英雄，因此GPU就出山担此重任。

台积电董事长刘德音预测：未来 15 年每瓦 GPU 性能提升 1000 倍，GPU 晶体管数破万亿

就在近期，在一则对英伟达CEO黄仁勋的最新专访中，黄仁勋表示：当下我们正处于生成式人工智能革命的开端，机器人基础模型可能即将出现，新一代GPU性能超乎想象，今年到明年，GPU都会供不应求！

如何构建比英伟达更好的GPU

面对国外的行业龙头，国内GPU在对标的同时也在不断进步，缩小与头部公司的差距，在我看来，GPU 有传统 2D/3D 图形渲染 GPU 和专注高性能计算的GPU两条主要的发展路线。随着国家的政策支持及厂商的大力投入，国产GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品，在性能上不断追赶行业主流产品，在特定领域达到业界一流水平。在软件支持方面，国产GPU企业正在积极与主流操作系统、开发环境以及图形处理软件等进行适配，确保用户能够流畅地使用各种应用软件。同时，一些企业还在推动GPU在人工智能、云计算等新兴领域的应用，为国产GPU生态注入新的活力。

生态方面国产厂商大多兼容英伟达 CUDA，融入大生态进而实现客户端导入。

我国移动GPU和桌面GPU两大主要终端应用场景市场持续保持增长。全球GPU的市场已经达到了448亿美元，我国约占全球市场规模的24.7%。互联网、政府侧、服务、电信、金融、制造、教育等领域是GPU算力需求较大的领域，目前国产GPU企业都在积极朝大模型方向布局，包括训练和推理。另外软件和生态建设也在加速推进。

AI芯片短缺，业界：未来中国将发展自己的高端GPU

沐曦

沐曦于2020年9月成立于上海，致力于为异构计算提供全栈GPU芯片及解决方案，可广泛应用于人工智能、智慧城市、自动驾驶、数字孪生、元宇宙等前沿领域。公司拥有技术完备、设计和产业化经验丰富的团队，核心成员平均拥有近20年高性能GPU产品端到端研发经验。

公司拥有完全自主研发的GPU IP、指令集和架构，以及兼容主流GPU生态的完整软件栈（MXMACA），产品具备高能效、高通用性。目前已推出MXN系列GPU（曦思）用于AI推理，MXC系列GPU（曦云）用于AI训练及通用计算，以及MXG系列GPU（曦彩）用于图形渲染，可满足数据中心对高能效和高通用性的算力需求。

沐曦拥有目前国内出生于全球顶级GPU厂商的全建制团队，拥有二十年高性能GPU从设计到量产交付的全流程经验。作为初创公司，成立一年内获得四轮共数十亿人民币的融资。2021年8月25日，公司获得十亿人民币融资，由国调基金和中网投领投，和利资本、红杉中国等跟投。通过此轮融资，进一步加强了沐曦在高性能GPU领域的研发投入。

对标英伟达 A100，国产计算 GPU 沐曦 MXC500 仅用 5 小时成功点亮

海光信息

海光信息主要从事高端处理器、加速器等计算芯片产品和系统的研发、设计和销售。公司的产品包括海光通用处理器（CPU）和海光协处理器（DCU），具有成熟而丰富的应用生态环境，内置专用安全硬件，可满足互联网、金融、能源等行业的广泛应用需求。

其系列产品海光 8100 采用先进的 FinFET 工艺，以GPU架构为基础，兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件，可充分挖掘应用的并行性，发挥其大规模并行计算的能力。

摩尔线程

摩尔线程成立于2020年，是一家以全功能GPU芯片设计为主的集成电路高科技公司，能够为广泛的科技生态合作伙伴提供强大的计算加速能力，致力于打造为下一代互联网提供多元算力的元计算平台。

值得一提的是，摩尔线程的创始人是原NVIDIA全球副总裁、中国区总经理张建中先生。核心创建团队基本都来自NVIDIA，拥有完整的高端芯片人才团队，全面覆盖GPU芯片IP研发、系统软硬件设计、生态建设和市场营销等。

2022年，摩尔线程就推出了GPU统一系统架构MUSA，发布并量产“苏堤”和“春晓”两颗全功能GPU芯片，这也是国内采用现代GPU架构，唯一内置图形渲染、视频编解码、AI计算加速、物理仿真、科学计算四大引擎的全功能高端GPU芯片。

12月19日发布的摩尔线程MTT S4000是专为计算而生的加速卡，基本代表国产计算卡的领军水平。从图中可以看到这款卡的一些基本参数。其中，FP32（单精）达到25TFLOPS, FP16（半精）达到100TFLOPS，片间互联达到240GB/s。作为对比，NVIDIA的RTX4080的FP16和FP32均为48.74TFLOPS，而H100则达到了FP16为1979TFLOPS，FP32为67TFLOPS的算力；华为的晟腾910的FP16算力为320TFLOPS。

近日，无问芯穹发布了“无穹Infini-AI”大模型开发与服务平台，并宣布与摩尔线程达成深度战略合作。

摩尔线程首个千卡KUAE智算中心落地

国内首家：摩尔线程推出 GPU 云桌面产品，支持最高 20 路 1080p 30 帧并发

壁仞科技

壁仞科技创立于 2019 年，在 GPU、DSA（专用加速器）和计算机体系结构等领域具有深厚的技术积累。公司致力于开发原创性的通用计算体系，建立高效的软硬件平台，同时在智能计算领域提供一体化的解决方案。

2022 年 8 月公司发布的通用 GPU 芯片 BR100 创下全球通用 GPU 算力记录，峰值算力达到国际厂商在售旗舰产品 3 倍以上。BR100 率先采用 Chiplet 技术、新一代主机接口PCIe 5.0、支持 CXL 互连协议，确立了公司在国内厂商间的技术领先地位。公司坚持自主研发，同步推出原创架构“壁立仞”和自研BIRENSUPA 软件平台，实现了 BR100 性能的大幅提升。

以壁仞科技于 2022 年8 月发布的首款 GP GPU BR100 为例，该芯片采用 Chiplet 技术，16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上，单芯片峰值算力达到 PFLOPS级别，是国际厂商在售旗舰产品的 3 倍以上，创造了全球通用 GPU 的算力记录。

770亿晶体管的中国第一算力通用GPU芯片！壁仞科技BR100亮相海外

壁仞科技首次参与权威AI评测MLPerf 获多项全球第一

不仅如此，国内也有一些厂商，依靠着IP及丰富的产品类型，不断在GPU领域活跃着。

寒武纪

寒武纪是国内领先人工智能芯片设计企业，搭建广泛覆盖终端、云端、边缘端场景的智能芯片产品体系。公司面向终端、云端、边缘端三大场景，分别研发推出终端智能处理器IP（智能处理器的产品级实现方案，由核心架构、代码、文档等组成）、云端智能芯片及加速卡（用于加速特定领域应用程序的板卡产品，以计算芯片为核心部件）、边缘智能芯片及加速卡等产品，适用于各类智能终端、云服务器、边缘计算设备等，并为该三类产品，研发推出统一的基础系统软件平台，为客户提供丰富芯片产品与系统软件解决方案，致力构建云、边、端一体的智能生态。

寒武纪推出的新款智能加速卡 MLU370-X8/M8、训练整机玄思 1001智能加速器(MLU-X1001)。首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中，提供了两倍于标准思元370加速卡的内存、编解码资源，同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中， 8卡并行平均性能达350W RTX GPU的155%。

寒武纪1A、寒武纪1H应用于华为海思等旗舰智能手机芯片内，已集成在超过1亿台智能手机及其他智能终端中。思元系列芯片及对应加速器产品，已应用在中科曙光、浪潮、联想等多家厂商的服务器中。基于此，公司产品辐射互联网、云计算、能源、教育、金融、电信、交通、医疗等行业，支持人工智能行业各类中小企业发展。

在2023年度中国AI芯片先锋企业TOP 30中，寒武纪入选。寒武纪入选2023中国AI芯片先锋企业TOP30

寒武纪子公司与中国一汽合作，聚焦智能驾驶芯片研发与应用

寒武纪入选2022年度人工智能领航企业TOP50

芯原股份

芯原依托自主半导体 IP，为客户提供平台化、全方位、一站式芯片定制服务和半导体 IP 授权服务，拥有独特的“芯片设计平台即服务”经营模式。公司可提供高清视频、物联网连接、数据中心等多种一站式芯片定制解决方案，拥有自主可控的图形处理器 IP、神经网络处理器 IP 等五类处理器 IP 及 1400 多个数模混合 IP 和射频 IP，可快速打造出从定义到测试封装完成的半导体产品，业务范围覆盖消费电子、汽车电子、物联网等多种应用领域。据 IPnest 在 2021 年的统计，芯原的半导体 IP 销售收入排中国大陆第二，全球第七，其中公司的图形处理器 IP 排名全球前三。

公司的GPU IP已被众多主流和高端的汽车品牌所采用，同时，公司基于约 20年 Vivante GPU 的研发经验，所推出的 Vivante 3D GPGPU IP 还可提供从低功嵌入式设备到高性能服务器的计算能力，满足广泛的人工智能计算需求。

芯原携最新的高效能IP应用亮相2024年国际嵌入式展

采用芯原NPU IP的AI类芯片已在全球出货超过1亿颗

赛昉基于RISC-V的JH-7110智能视觉处理平台采用了芯原的显示处理器IP

嘉楠基于RISC-V的端侧AIoT SoC采用了芯原的ISP IP和GPU IP

近些年国产GPU正在蓬勃发展，不过相较于国际巨头，仍然存在较大差距。近年来，大模型快速发展，国产GPU在大模型训练方面的不足也凸显出来，在大模型训练及软件和生态方面都面临诸多挑战，举个例子，多媒体和图形处理都属于单精度浮点计算（FP32）的计算需求，双精度浮点计算能力FP64是进行高算力计算的硬性指标。英伟达的A100同时具备上述两类能力，而国内大多GPU只能处理单精度浮点计算。

但在人工智能、物联网等多下游领域快速发展情况下，我国数据中心端、云厂商以及智算领域对GPU需求也极为旺盛，在中美贸易战、全球芯片供应不稳定的情况下，我国发展AI行业，形成自主可控的芯片供应体系，为国产GPU提供了进入市场的机会。所以整体看来，国产GPU市场空间还是相当广阔的。