新闻中心

EEPW首页 > 嵌入式系统 > 编辑观点 > 国产GPU供不应求——国产之光性能超乎想象

国产GPU供不应求——国产之光性能超乎想象

作者:EEPW时间:2024-04-10来源:EEPW收藏

国产供不应求——国产之光性能超乎想象

本文引用地址:http://www.amcfsurvey.com/article/202404/457390.htm

届春晚—英伟达GTC大会在3月召开,B100/B200晶片的亮相,刷新了计算新速度,随着人工智能技术的日新月异,从数据处理到算法优化,再到应用场景的拓展,每一步都可能带来新的市场机会。从智能硬件到云计算,再到物联网等多个领域,技术的深入应用都将成为市场的关注焦点。对算力的要求是需要大量的并行及重复计算,正好有这个专长,时势造英雄,因此就出山担此重任。

台积电董事长刘德音预测:未来 15 年每瓦 GPU 性能提升 1000 倍,GPU 晶体管数破万亿

就在近期,在一则对英伟达CEO黄仁勋的最新专访中,黄仁勋表示:当下我们正处于生成式人工智能革命的开端,机器人基础模型可能即将出现,新一代GPU性能超乎想象,今年到明年,GPU都会供不应求!

如何构建比英伟达更好的GPU

面对国外的行业龙头,国内GPU在对标的同时也在不断进步,缩小与头部公司的差距,在我看来,GPU 有传统 2D/3D 图形渲染 GPU 和专注高性能计算的GPU两条主要的发展路线。随着国家的政策支持及厂商的大力投入,国产GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。在软件支持方面,国产GPU企业正在积极与主流操作系统、开发环境以及图形处理软件等进行适配,确保用户能够流畅地使用各种应用软件。同时,一些企业还在推动GPU在人工智能、云计算等新兴领域的应用,为国产GPU生态注入新的活力。

生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端导入。

1712805921769.jpg

我国移动GPU和桌面GPU两大主要终端应用场景市场持续保持增长。全球GPU的市场已经达到了448亿美元,我国约占全球市场规模的24.7%。互联网、政府侧、服务、电信、金融、制造、教育等领域是GPU算力需求较大的领域,目前国产GPU企业都在积极朝大模型方向布局,包括训练和推理。另外软件和生态建设也在加速推进。

1712805929559.jpg

AI芯片短缺,业界:未来中国将发展自己的高端GPU

沐曦

沐曦于2020年9月成立于上海,致力于为异构计算提供全栈GPU芯片及解决方案,可广泛应用于人工智能、智慧城市、自动驾驶、数字孪生、元宇宙等前沿领域。公司拥有技术完备、设计和产业化经验丰富的团队,核心成员平均拥有近20年高性能GPU产品端到端研发经验。

1712805938294.jpg

公司拥有完全自主研发的GPU IP、指令集和架构,以及兼容主流GPU生态的完整软件栈(MXMACA),产品具备高能效、高通用性。目前已推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于AI训练及通用计算,以及MXG系列GPU(曦彩)用于图形渲染,可满足数据中心对高能效和高通用性的算力需求。

沐曦拥有目前国内出生于全球顶级GPU厂商的全建制团队,拥有二十年高性能GPU从设计到量产交付的全流程经验。作为初创公司,成立一年内获得四轮共数十亿人民币的融资。2021年8月25日,公司获得十亿人民币融资,由国调基金和中网投领投,和利资本、红杉中国等跟投。通过此轮融资,进一步加强了沐曦在高性能GPU领域的研发投入。

       对标英伟达 A100,国产计算 GPU 沐曦 MXC500 仅用 5 小时成功点亮

海光信息

海光信息主要从事高端处理器、加速器等计算芯片产品和系统的研发、设计和销售。公司的产品包括海光通用处理器(CPU)和海光协处理器(DCU),具有成熟而丰富的应用生态环境,内置专用安全硬件,可满足互联网、金融、能源等行业的广泛应用需求。

其系列产品海光 8100 采用先进的 FinFET 工艺,以GPU架构为基础,兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,可充分挖掘应用的并行性,发挥其大规模并行计算的能力。

成立于2020年,是一家以全功能GPU芯片设计为主的集成电路高科技公司,能够为广泛的科技生态合作伙伴提供强大的计算加速能力,致力于打造为下一代互联网提供多元算力的元计算平台。

值得一提的是,的创始人是原全球副总裁、中国区总经理张建中先生。核心创建团队基本都来自,拥有完整的高端芯片人才团队,全面覆盖GPU芯片IP研发、系统软硬件设计、生态建设和市场营销等。

2022年,摩尔线程就推出了GPU统一系统架构MUSA,发布并量产“苏堤”和“春晓”两颗全功能GPU芯片,这也是国内采用现代GPU架构,唯一内置图形渲染、视频编解码、AI计算加速、物理仿真、科学计算四大引擎的全功能高端GPU芯片。

12月19日发布的摩尔线程MTT S4000是专为计算而生的加速卡,基本代表国产计算卡的领军水平。从图中可以看到这款卡的一些基本参数。其中,FP32(单精)达到25TFLOPS, FP16(半精)达到100TFLOPS,片间互联达到240GB/s。作为对比,的RTX4080的FP16和FP32均为48.74TFLOPS,而H100则达到了FP16为1979TFLOPS,FP32为67TFLOPS的算力;华为的晟腾910的FP16算力为320TFLOPS。

近日,无问芯穹发布了“无穹Infini-AI”大模型开发与服务平台,并宣布与摩尔线程达成深度战略合作。

1712805946788.jpg

摩尔线程首个千卡KUAE智算中心落地

国内首家:摩尔线程推出 GPU 云桌面产品,支持最高 20 路 1080p 30 帧并发

壁仞科技

壁仞科技创立于 2019 年,在 GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累。公司致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。

        2022 年 8 月公司发布的通用 GPU 芯片 BR100 创下全球通用 GPU 算力记录,峰值算力达到国际厂商在售旗舰产品 3 倍以上。BR100 率先采用 Chiplet 技术、新一代主机接口PCIe 5.0、支持 CXL 互连协议,确立了公司在国内厂商间的技术领先地位。公司坚持自主研发,同步推出原创架构“壁立仞”和自研BIRENSUPA 软件平台,实现了 BR100 性能的大幅提升。

      以壁仞科技于 2022 年8 月发布的首款 GP GPU BR100 为例,该芯片采用 Chiplet 技术,16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上,单芯片峰值算力达到 PFLOPS级别,是国际厂商在售旗舰产品的 3 倍以上,创造了全球通用 GPU 的算力记录。

770亿晶体管的中国第一算力通用GPU芯片!壁仞科技BR100亮相海外

壁仞科技首次参与权威AI评测MLPerf 获多项全球第一

不仅如此,国内也有一些厂商,依靠着IP及丰富的产品类型,不断在GPU领域活跃着。

寒武纪

寒武纪是国内领先人工智能芯片设计企业,搭建广泛覆盖终端、云端、边缘端场景的智能芯片产品体系。公司面向终端、云端、边缘端三大场景,分别研发推出终端智能处理器IP(智能处理器的产品级实现方案,由核心架构、代码、文档等组成)、云端智能芯片及加速卡(用于加速特定领域应用程序的板卡产品,以计算芯片为核心部件)、边缘智能芯片及加速卡等产品,适用于各类智能终端、云服务器、边缘计算设备等,并为该三类产品,研发推出统一的基础系统软件平台,为客户提供丰富芯片产品与系统软件解决方案,致力构建云、边、端一体的智能生态。

寒武纪推出的新款智能加速卡 MLU370-X8/M8、训练整机玄思 1001智能加速器(MLU-X1001)。首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。

寒武纪1A、寒武纪1H应用于华为海思等旗舰智能手机芯片内,已集成在超过1亿台智能手机及其他智能终端中。思元系列芯片及对应加速器产品,已应用在中科曙光、浪潮、联想等多家厂商的服务器中。基于此,公司产品辐射互联网、云计算、能源、教育、金融、电信、交通、医疗等行业,支持人工智能行业各类中小企业发展。

在2023年度中国AI芯片先锋企业TOP 30中,寒武纪入选。寒武纪入选2023中国AI芯片先锋企业TOP30

1712805955929.jpg

寒武纪子公司与中国一汽合作,聚焦智能驾驶芯片研发与应用

寒武纪入选2022年度人工智能领航企业TOP50

芯原股份

芯原依托自主半导体 IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体 IP 授权服务,拥有独特的“芯片设计平台即服务”经营模式。公司可提供高清视频、物联网连接、数据中心等多种一站式芯片定制解决方案,拥有自主可控的图形处理器 IP、神经网络处理器 IP 等五类处理器 IP 及 1400 多个数模混合 IP 和射频 IP,可快速打造出从定义到测试封装完成的半导体产品,业务范围覆盖消费电子、汽车电子、物联网等多种应用领域。据 IPnest 在 2021 年的统计,芯原的半导体 IP 销售收入排中国大陆第二,全球第七,其中公司的图形处理器 IP 排名全球前三。

       公司的GPU IP已被众多主流和高端的汽车品牌所采用,同时,公司基于约 20年 Vivante GPU 的研发经验,所推出的 Vivante 3D GPGPU IP 还可提供从低功嵌入式设备到高性能服务器的计算能力,满足广泛的人工智能计算需求。

芯原携最新的高效能IP应用亮相2024年国际嵌入式展

采用芯原NPU IP的AI类芯片已在全球出货超过1亿颗

赛昉基于RISC-V的JH-7110智能视觉处理平台采用了芯原的显示处理器IP

嘉楠基于RISC-V的端侧AIoT SoC采用了芯原的ISP IP和GPU IP

       近些年国产GPU正在蓬勃发展,不过相较于国际巨头,仍然存在较大差距。近年来,大模型快速发展,国产GPU在大模型训练方面的不足也凸显出来,在大模型训练及软件和生态方面都面临诸多挑战,举个例子,多媒体和图形处理都属于单精度浮点计算(FP32)的计算需求,双精度浮点计算能力FP64是进行高算力计算的硬性指标。英伟达的A100同时具备上述两类能力,而国内大多GPU只能处理单精度浮点计算。

       但在人工智能、物联网等多下游领域快速发展情况下,我国数据中心端、云厂商以及智算领域对GPU需求也极为旺盛,在中美贸易战、全球芯片供应不稳定的情况下,我国发展AI行业,形成自主可控的芯片供应体系,为国产GPU提供了进入市场的机会。所以整体看来,国产GPU市场空间还是相当广阔的。




关键词: GPU AI 摩尔线程 NVIDIA

评论


相关推荐

技术专区

关闭