重磅！英伟达的“核弹级”AI芯片发布

虽然英伟达（NVIDIA）并购Arm的计划失败，但凭借其图形处理和人工智能（AI）

两大赛道，英伟达已经成为全球半导体市值的TOP ONE。截至目前，英伟达的市值将近7000亿美元，比第二名台积电足足多了1400亿美元。

2022年3月22日，在英伟达年度G

TC大会（英伟达组织召开的全球开发者大会）上，英伟达CEO黄仁勋拿出王炸，堪称AI核弹级别的产品：最新Hopper架构的H100 GPU系列！小麦整理了本场GTC大会的完整干货，分享给各位读者朋友。

H100 GPU

每次英伟达GPU的新架构都会以一位科学家的名字来命名，这次也不例外。新Hopper架构的命名取自美国计算机科学家格蕾丝?赫柏（Grace Hopper），她是耶鲁大学第一位数学女博士、世界上第三位程序员，也是全球首个编译器的发明者。

作为全球首款基于Hopper架构的GPU，相比A100，H100的FP8（8bit浮点运算精度）性能提升6倍，FP16、TF32、FP64性能各提升3倍。

从技术进展来看，H100有6项突破性创新：

1、先进芯片：H100采用台积电4纳米工艺，有800亿个晶体管，可实现近5TB/s的外部互联带宽。H100是首款支持PCIe 5.0的GPU，也是首款采用HBM3标准的GPU，单个H100可支持40Tb/s的I/O带宽，实现3TB/s的显存带宽。用黄仁勋的话说，20块H100 GPU便可承载相当于全球互联的流量。

2、新Transformer引擎：该引擎可以在不影响准确性的情况下，可将Transformer模型的训练时间从数周缩短至几天。

3、第二代安全多实例GPU：MIG技术支持将单个GPU分为7个更小且完全独立的实例，以处理不同类型的作业。H100能托管7个云租户，而A100仅能托管1个。

4、机密计算：H100是全球首款具有机密计算功能的GPU加速器，能保护AI模型和正在处理的客户数据，可以应用在医疗健康和金融服务等隐私敏感型行业。

5、第4代英伟达NVLink：结合全新外接NVLink Switch，可将NVLink扩展为服务器间的互联络，最多连接多达256个H100 GPU。

6、DPX指令：Hopper引入了一组名为DPX的新指令集，DPX可加速动态编程算法，解决路径优化、基因组学等算法优化问题，与CPU和上一代GPU相比，其速度提升分别可达40倍和7倍。

总体来说，H100的这些技术优化，将对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。

H100将提供SXM和PCIe两种规格，可满足各种服务器设计需求。其中H100 SXM提供4 GPU和8 GPU配置的HGX H100服务器主板；H100 PCIe则通过NVLink连接两块GPU，PCIe规格更便于集成到现有的数据中心基础设施中。

为了将Hopper的强大算力引入主流服务器，本次英伟达还推出了全新的融合加速器H100 CNX。它将络与GPU直接相连，使络数据通过DMA以50GB/s的速度直接传输到H100，有效避免带宽瓶颈。

这些产品预计于今年下半年时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于H100的实例。

企业级AI系统，最快AI超算

基于H100，英伟达最先进的企业级AI基础设施DGX H100系统、DGX SuperPOD以及Eos超级计算机也将逐一登场，它们计划从今年第三季度逐步开始供应。

DGX H100

DGX H100是一款基于英伟达H100 GPU的AI平台。每个DGX H100系统配备8块H100 GPU，总计有6400亿个晶体管，由NVLink连接，在全新的FP8精度下AI性能可达32Petaflops（千万亿次/秒），比上一代系统性能高6倍，GPU之间可提供900GB/s的带宽，是上一代系统的1.5倍。

DGX SuperPOD

借助NVLink Switch系统，DGX SuperPOD，可以最多由32个DGX H100组成（最多高达256个GPU），其HBM3显存达20.5TB，显存带宽高达768TB/s。“相比之下，整个互联不过只有100TB/s。”英伟达CEO黄仁勋感慨道。

新一代DGX SuperPOD可提供1Exaflops（百亿亿次/秒）的FP8 AI性能，比上一代产品性能高6倍，能够运行具有数万亿参数的大型语言模型；还有20TB的HBM3显存、192TFLOPS（万亿次/秒）的SHARP 络计算性能。

Eos超级计算机

另外，据黄仁勋透露，英伟达正在打造Eos超级计算机，并称这是“首个Hopper AI工厂”，将于数月后推出。

该超算将包含18个DGX SuperPOD，也就是576台DGX H100系统，共计4608块DGX H100 GPU，预计将提供18.4Exaflops的AI算力，这比目前运行速度最快的日本富岳（Fugaku）超级计算机快4倍。在传统科学计算方面，Eos预计可提供275Petaflops的性能。

两个CPU组成的Grace CPU

除了GPU外，英伟达数据中心“三芯”战略中另一大支柱CPU也有新进展。本次，英伟达推出首款面向HPC和AI基础设施，基于最新的Armv9架构的数据中心专属CPU：Grace CPU超级芯片。

Grace CPU单个socket拥有144个CPU核心，具备最高的单线程核心性能。通过Grace Hopper超级芯片模组能在CPU与GPU之间进行芯片间的直接连接，每个链路的速度达到900GB/s。

Grace CPU超级芯片可运行所有的英伟达计算软件栈，结合英伟达ConnectX-7 卡，能够灵活地配置到服务器中，或作为独立的纯CPU系统，或作为GPU加速服务器，可以搭配基于Hopper的GPU。

AI软件系统

如今英伟达已经能提供全栈AI，除了AI计算硬件外，其AI软件也有不少进展。本次英伟达发布了60多个相关库、工具和技术的更新，用于量子计算和6G研究、络安全、基因组学、药物研发等领域的计算研究。

英伟达使用其首台AI数字孪生超级计算机Earth-2来应对气候变化，并创建了Physics-ML模型来模拟全球天气模式的动态变化。英伟达还与实验室研究员们共同开发了一个天气预 AI模型FourCastNet，该模型基于10TB的地球系统数据进行训练，首次在降水预测上达到比先进的数值模型更高的准确率，并使预测速度提高了4~5个数量级。

同时，英伟达对话式AI服务Riva全面发行，Riva 2.0版本支持识别7种语言，可将神经文本转换为不同性别发声的语音。

Maxine，一个AI模型工具包，现已拥有30个先进模型，可优化实时视频通信的视听效果。比如开远程视频会议时，Maxine可实现说话者与所有参会者保持眼神交流，并能将说的语言实时切换成另一种语言，而且音色听起来不变。

在医疗健康领域，黄仁勋则谈道，过去几年，AI药研初创公司获得了超400亿美元的投资，数字生物学革命的条件已经成熟，他称这将是“NVIDIA AI迄今为止最伟大的使命”。

6G标准将于2026年左右问世，一些相关基础技术逐渐成形。对此，英伟达推出了一款用于6G通信研究的AI框架Sionna。

Omniverse

作为虚拟世界的仿真引擎，Omniverse平台能遵循物理学定律，构建一个趋真的数字世界，专业术语是数字孪生，简单理解就是将真实世界数字化，创建一个真实世界的“数字孪生兄弟”，用现在一个流行的词汇来说，那就是“元宇宙”。

为此，英伟达打造了OVX服务器和OVX SuperPOD超级集群。OVX是首款Omniverse计算系统，由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps 卡（NIC）和2个英特尔至强Ice Lake CPU组成。

而32台OVX服务器可构成OVX SuperPOD超级集群，实现这集群的关键设施是英伟达新推出的Spectrum-4以太平台。

这是全球首个400Gbps端到端络平台，由英伟达Spectrum-4交换机系列、ConnectX-7智能卡、BlueField-3 DPU和DOCA数据中心基础设施软件组成，其交换吞吐量比前几代产品高出4倍。Spectrum-4实现了纳秒级精度，相比典型数据中心毫秒级抖动提升了5~6个数量级。

有趣的是，为了展示Omniverse，黄仁勋的虚拟化身“玩偶老黄”Toy Jensen 再度现身，向大家展示了虚拟世界，以及真人与虚拟人物的实时的交流和对话。

像Toy Jensen 这样的虚拟形象，从声音到细微的头部及身体运动，乃至高保真度的形象塑造，都模拟的惟妙惟肖，更加的灵动。同时得益于 Riva 中的最新对话式 AI 技术和语言模型，“玩偶老黄”可以听懂你问的问题，也能跟你实时聊天互动。

AI汽车

下一代DRIVE Hyperion 9将有望从2026年起搭载到汽车中，它将拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器，总体传感器数量将是Hyperion 8的两倍。

此外，英伟达推出了一种多模态地图引擎NVIDIA DRIVEMap，包含摄像头、激光雷达和雷达的数据，同时兼顾安全性。

DRIVEMap将有两个地图引擎，真值测绘地图引擎和众包车队地图引擎。黄仁勋谈道，到2024年，他们预计绘制并创建北美、西欧和亚洲所有主要公路的数字孪生（数字模拟真实），总长度约为50万公里。

合作方面，全球第二大电动汽车制造商比亚迪将在2023年上半年开始投产的汽车中搭载DRIVE Orin计算平台。自动驾驶独角兽企业元戎启行、中国自动驾驶创企云骥智行也宣布将在其L4级自动驾驶车规级量产方案中搭载NVIDIA DRIVE Orin SoC芯片。

而美国电动汽车公司Lucid Motors、中国L4级自动驾驶科技公司文远知行、中国新型电动车公司悠跑科技均宣布将应用英伟达DRIVE Hyperion自动驾驶汽车平台。

机器人平台

英伟达正在构建多个机器人平台，包括用于自动驾驶汽车的DRIVE、用于操纵和控制系统的Isaac、用于医疗设备的Holoscan等。

Clara Holoscan MGX是一个开放可扩展的机器人平台，其设计符合IEC-62304医疗级规格，核心计算机为Jetson AGX Orin和ConnectX-7智能卡，并可选配NVIDIA RTX A6000 GPU。该平台AI算力可达每秒254~610万亿次运算，目前向早期体验客户开放，并将于2023年第一季度完成医疗级准备。

本次大会，英伟达还推出了Isaac for AMR（AMR自主移动机器人），Isaac将有2个摄像头、2个激光雷达、8个超声波雷达和4个鱼眼摄像头，它将配备英伟达新的DeepMap雷达制图系统，可以扫描和重建环境，机器人以此进行路线规划和数字孪生仿真。

结语：AI前沿技术盛宴

这些年来，英伟达在AI热潮中受益匪浅，其GPU被证明是流行的、数据密集型深度学习方法的完美匹配。随着AI领域对数据计算需求的增长，英伟达希望提供可以更多的火力。

一年一度的英伟达GTC大会则成为一场面向AI、HPC、科学计算、数字孪生及自动驾驶等诸多前沿领域的技术盛宴。在这场盛宴中，我们看到了这些技术的突破是如何改变各行各业的工作方式。

随着新一代大规模云技术的出现，数据中心架构有待转型。在稳拥GPU的基础之上，英伟达的角色正从图形显示和加速计算“偏科学霸”，转向围绕数据中心三大芯片支柱全面发展。英伟达CEO黄仁勋认为，数据中心正在逐渐转变成“AI工厂”。它通过处理海量的数据来实现智能，而今日推出的H100便是实现企业AI业务加速的引擎。H100的多项技术创新，数据中心专属GraceCPU超级芯片的特殊设计，以及AI软件和Omniverse平台的持续升级，进一步扩大了英伟达在AI领域的领导地位。

英伟达的创造力是值得让人赞叹的！或许在不久的将来，英伟达将引领未来的AI智

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！