异构将成超算主流，Habana的AI专用芯片显威力

作者：王莹时间：2021-04-15来源：电子产品世界收藏

近日，Habana Labs宣布美国圣地亚哥超算中心为Voyager研究计划选择了Habana Lab AI 加速器。后者是典型的ASIC（专用芯片），但是可与英伟达的GPU在AI训练市场一比高低。为何Habana Lab AI 加速器有如此强大的威力？未来的超算架构会青睐哪种AI芯片？值此机会，电子产品世界记者采访了Habana Labs中国区总经理于明扬先生。

本文引用地址：http://www.amcfsurvey.com/article/202104/424507.htm

1 用于Voyager研究计划的Habana Lab AI 加速器

据悉，超微 (Supermicro)提供内置Habana® Gaudi® AI训练和Goya® AI推理加速器的高性能计算系统，将用于加州大学圣地亚哥分校圣地亚哥超级计算机中心（SDSC）的Voyager超级计算机，以提供高性能的AI计算能力，计划于2021年秋季投入使用。

Voyager将致力于推进跨学科和工程领域的人工智能研究。其采用了Habana独特的互联技术，用336片Gaudi加速器有效地提升了AI训练能力，这种架构很好地扩展了大型超级计算机的训练应用。Gaudi是目前业界唯一内置集成10个支持RoCE v2（RDMA over Converged Ethernet）100G以太网端口的AI处理器，可以有效提升扩展的灵活性，避免扩展能力受限于吞吐量。Voyager系统还采用了16片Habana Goya处理器用于AI推理模型。

之所以采用Habana的芯片，因为效率可以大为提升。例如Habana与AWS合作时，AWS称在AWS EC2实例上，8卡的Gaudi 解决方案可以在TensorFlow上每秒处理1.2万张图像训练ResNet-50模型。

2 GPU、FPGA、ASIC各有所长，异构将成超算主流

在整个AI业务中，GPU、FPGA和现在Habana ASIC架构各有各的优势，不能互相替代。

·GPU表现的是灵活性，在灵活性的基础上同时具有性能的优势。

·FPGA擅长整形与定制化。首先在整形表现了很好的性能，另外在灵活性与定制化之间选择了一个平衡。但是，FPGA有较大的应用门槛——如果客户想通过FPGA深度定制化实现加速，可能要对于FPGA的Verilog、VHDL语言有深入的了解。

·以Habana为代表的ASIC路线。ASIC在模型加速过程中可以实现很好的定制化加速；同时因为Habana对于计算架构有深入的理解，又最大限度地保持了灵活性。另外，在很多应用场景下更接近于GPU的使用习惯，但性能又要比GPU有很大的提升。

因此，在未来在异构的场景中，GPU、FPGA和ASIC会承担不同的角色，很可能在一个大型的计算集群中承担不同的功能。

例如，在一些要求高精度的科学计算中，GPU会发挥其优势。FPGA的64位浮点计算的能力很强，在整形计算中的能力以及对于某些计算中的一些定制化的功能，有可能帮助其在流媒体的预处理、一些格式的转换中表现出一定的优势。而对于典型的AI应用，ASIC架构方案有望实现更高效的性能，以帮助客户降低训练的成本，提升效率。

因此可以预言，在超算中，异构是未来的一个趋势。超算中很可能会选择X86的架构作为整个计算、业务的调度和管理，所以X86架构会存在。同时GPU会在科学运算、高精度浮点运算中起到重要的角色。再有，超算对于未来AI应用有非常强的需求，这种应用中有可能会使用ASIC解决方案，诸如Habana ASIC解决架构方案，这样的组合给客户带来最大的灵活性，同时也可以助力超算最大限度地提升性能，而且降低其运营成本。

异构架构的应用挑战是如何在不同架构上部署自己和客户的业务。因此，如何提供这种融合的管理平台，帮助客户能自动地把其需求部署到不同的架构中，可能是一大关键。

3 Habana与英伟达是AI训练的双雄

在训练市场，目前能提供产品的厂商不多。虽然在国内现在已经出现了一些新的用GPU架构，但是这些厂家的产品还处在早期的研发阶段。现在市场上成熟的，能够给客户提供真正训练体验的产品只有英伟达GPU和Habana的Gaudi。

目前，其它厂家的产品处在整个生态完善过程中，在推广中主要遇到两大挑战：①目前只能用于特定的场景，②应用跟自身品牌的训练芯片匹配，才可能体现出更好的效果。

4 Habana在中国的策略

Habana在华策略跟全球策略基本上保持一致。首先，Habana会跟选定的主流云厂商进行深入合作，因为云厂商一方面给客户提供更广泛的服务，同时自身也有很多业务需求，因此可以给Habana带来更多用户的信息和市场的需求，帮助Habana打磨、完善自身的产品，以便在最短时间内能建立起一整套自己的生态体系，来满足未来用户的需求。

值得一提的是，Habana开始并不会把市场铺得太广，因为毕竟Habana产品刚刚进入市场，还有很多不完善的地方，需要投入资源去不断改善。在完善之后，会把产品推广到更多企业级的用户和专业的用户上。

5 未来产品规划

Habana正在开发下一代7纳米的芯片，代码叫Gaudi2。该芯片大致的时间没有最后的确认，很可能是在2022年上半年。预计相对于Gaudi，会有2倍以上的性能提升。

这两倍以上的性能提升，一是在绝对性能上，包含对一些典型模型的支撑的性能。同时也会提供更好的软件生态，包括对框架更好的支持，以及对一些新兴的模型和已有的模型有更好的匹配，并给客户提供更好的工具链，帮助客户把他们的传统工具能够部署到新的Habana训练平台上。再有，新的训练平台中也会提供一些更新的功能，例如一些预处理的功能，以减少对CPU计算资源的消耗等。

6 被英特尔收购之后的变化

Habana Labs于2016年成立，2019年被英特尔收购，成为英特尔数据产品集团独立运营的业务部门。被英特尔收购后，Habana在英特尔内是独立运营的，这保证了Habana产品独立性，以及能快速响应客户需求，并保持产品一贯的连续。另外，英特尔又可以帮助Habana做产品背书，让客户更有信心与Habana合作。

7 Habana的训练和推理芯片是否要搭配

通过端到端的解决方案，肯定效率会有所提高。但是应该强调的是，Habana的Gaudi（训练）和Goya（推理）都是面向训练和推理预测的通用ASIC架构的处理器，因此并没有一对一的特殊要求。

但在某些场景下，Gaudi和Goya的配合确实能发挥一定的作用。Gaudi和Goya两类芯片中比较典型的技术积累在于整形处理方面的能力，这是Habana专有的IP技术。通过整形的技术既保证了性能的提升，同时又保证了整个模型训练和推理之后的准确性。因此，如果把两个芯片能配合在一块使用，可以在整形应用上给客户带来更好的性能体验。

新闻中心

异构将成超算主流，Habana的AI专用芯片显威力

评论

相关推荐

技术专区