虽然英伟达(NVIDIA)并购Arm的计划失败,但凭借其图形处理和人工智能(AI)
两大赛道,英伟达已经成为全球半导体市值的TOP ONE。截至目前,英伟达的市值将近7000亿美元,比第二名台积电足足多了1400亿美元。
2022年3月22日,在英伟达年度G
TC大会(英伟达组织召开的全球开发者大会)上,英伟达CEO黄仁勋拿出王炸,堪称AI核弹级别的产品:最新Hopper架构的H100 GPU系列!小麦整理了本场GTC大会的完整干货,分享给各位读者朋友。
H100 GPU
每次英伟达GPU的新架构都会以一位科学家的名字来命名,这次也不例外。新Hopper架构的命名取自美国计算机科学家格蕾丝?赫柏(Grace Hopper),她是耶鲁大学第一位数学女博士、世界上第三位程序员,也是全球首个编译器的发明者。
作为全球首款基于Hopper架构的GPU,相比A100,H100的FP8(8bit浮点运算精度)性能提升6倍,FP16、TF32、FP64性能各提升3倍。
从技术进展来看,H100有6项突破性创新:
1、先进芯片:H100采用台积电4纳米工艺,有800亿个晶体管,可实现近5TB/s的外部互联带宽。H100是首款支持PCIe 5.0的GPU,也是首款采用HBM3标准的GPU,单个H100可支持40Tb/s的I/O带宽,实现3TB/s的显存带宽。用黄仁勋的话说,20块H100 GPU便可承载相当于全球互联 的流量。
2、新Transformer引擎:该引擎可以在不影响准确性的情况下,可将Transformer模型的训练时间从数周缩短至几天。
3、第二代安全多实例GPU:MIG技术支持将单个GPU分为7个更小且完全独立的实例,以处理不同类型的作业。H100能托管7个云租户,而A100仅能托管1个。
4、机密计算:H100是全球首款具有机密计算功能的GPU加速器,能保护AI模型和正在处理的客户数据,可以应用在医疗健康和金融服务等隐私敏感型行业。
5、第4代英伟达NVLink:结合全新外接NVLink Switch,可将NVLink扩展为服务器间的互联 络,最多连接多达256个H100 GPU。
6、DPX指令:Hopper引入了一组名为DPX的新指令集,DPX可加速动态编程算法,解决路径优化、基因组学等算法优化问题,与CPU和上一代GPU相比,其速度提升分别可达40倍和7倍。
总体来说,H100的这些技术优化,将对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生、气候科学等任务的效率提升非常明显。
H100将提供SXM和PCIe两种规格,可满足各种服务器设计需求。其中H100 SXM提供4 GPU和8 GPU配置的HGX H100服务器主板;H100 PCIe则通过NVLink连接两块GPU,PCIe规格更便于集成到现有的数据中心基础设施中。
为了将Hopper的强大算力引入主流服务器,本次英伟达还推出了全新的融合加速器H100 CNX。它将 络与GPU直接相连,使 络数据通过DMA以50GB/s的速度直接传输到H100,有效避免带宽瓶颈。
这些产品预计于今年下半年时候全面发售。阿里云、AWS、百度智能云、谷歌云、微软Azure、Oracle Cloud、腾讯云和火山引擎等云服务商均计划推出基于H100的实例。
企业级AI系统,最快AI超算
基于H100,英伟达最先进的企业级AI基础设施DGX H100系统、DGX SuperPOD以及Eos超级计算机也将逐一登场,它们计划从今年第三季度逐步开始供应。
DGX H100
DGX H100是一款基于英伟达H100 GPU的AI平台。每个DGX H100系统配备8块H100 GPU,总计有6400亿个晶体管,由NVLink连接,在全新的FP8精度下AI性能可达32Petaflops(千万亿次/秒),比上一代系统性能高6倍,GPU之间可提供900GB/s的带宽,是上一代系统的1.5倍。
DGX SuperPOD
借助NVLink Switch系统,DGX SuperPOD,可以最多由32个DGX H100组成(最多高达256个GPU),其HBM3显存达20.5TB,显存带宽高达768TB/s。“相比之下,整个互联 不过只有100TB/s。”英伟达CEO黄仁勋感慨道。
新一代DGX SuperPOD可提供1Exaflops(百亿亿次/秒)的FP8 AI性能,比上一代产品性能高6倍,能够运行具有数万亿参数的大型语言模型;还有20TB的HBM3显存、192TFLOPS(万亿次/秒)的SHARP 络计算性能。
Eos超级计算机
另外,据黄仁勋透露,英伟达正在打造Eos超级计算机,并称这是“首个Hopper AI工厂”,将于数月后推出。
该超算将包含18个DGX SuperPOD,也就是576台DGX H100系统,共计4608块DGX H100 GPU,预计将提供18.4Exaflops的AI算力,这比目前运行速度最快的日本富岳(Fugaku)超级计算机快4倍。在传统科学计算方面,Eos预计可提供275Petaflops的性能。
两个CPU组成的Grace CPU
除了GPU外,英伟达数据中心“三芯”战略中另一大支柱CPU也有新进展。本次,英伟达推出首款面向HPC和AI基础设施,基于最新的Armv9架构的数据中心专属CPU:Grace CPU超级芯片。
Grace CPU单个socket拥有144个CPU核心,具备最高的单线程核心性能。通过Grace Hopper超级芯片模组能在CPU与GPU之间进行芯片间的直接连接,每个链路的速度达到900GB/s。
Grace CPU超级芯片可运行所有的英伟达计算软件栈,结合英伟达ConnectX-7 卡,能够灵活地配置到服务器中,或作为独立的纯CPU系统,或作为GPU加速服务器,可以搭配基于Hopper的GPU。
AI软件系统
如今英伟达已经能提供全栈AI,除了AI计算硬件外,其AI软件也有不少进展。本次英伟达发布了60多个相关库、工具和技术的更新,用于量子计算和6G研究、 络安全、基因组学、药物研发等领域的计算研究。
英伟达使用其首台AI数字孪生超级计算机Earth-2来应对气候变化,并创建了Physics-ML模型来模拟全球天气模式的动态变化。英伟达还与实验室研究员们共同开发了一个天气预 AI模型FourCastNet,该模型基于10TB的地球系统数据进行训练,首次在降水预测上达到比先进的数值模型更高的准确率,并使预测速度提高了4~5个数量级。
同时,英伟达对话式AI服务Riva全面发行,Riva 2.0版本支持识别7种语言,可将神经文本转换为不同性别发声的语音。
Maxine,一个AI模型工具包,现已拥有30个先进模型,可优化实时视频通信的视听效果。比如开远程视频会议时,Maxine可实现说话者与所有参会者保持眼神交流,并能将说的语言实时切换成另一种语言,而且音色听起来不变。
在医疗健康领域,黄仁勋则谈道,过去几年,AI药研初创公司获得了超400亿美元的投资,数字生物学革命的条件已经成熟,他称这将是“NVIDIA AI迄今为止最伟大的使命”。
6G标准将于2026年左右问世,一些相关基础技术逐渐成形。对此,英伟达推出了一款用于6G通信研究的AI框架Sionna。
Omniverse
作为虚拟世界的仿真引擎,Omniverse平台能遵循物理学定律,构建一个趋真的数字世界,专业术语是数字孪生,简单理解就是将真实世界数字化,创建一个真实世界的“数字孪生兄弟”,用现在一个流行的词汇来说,那就是“元宇宙”。
为此,英伟达打造了OVX服务器和OVX SuperPOD超级集群。OVX是首款Omniverse计算系统,由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps 卡(NIC)和2个英特尔至强Ice Lake CPU组成。
而32台OVX服务器可构成OVX SuperPOD超级集群,实现这集群的关键设施是英伟达新推出的Spectrum-4以太 平台。
这是全球首个400Gbps端到端 络平台,由英伟达Spectrum-4交换机系列、ConnectX-7智能 卡、BlueField-3 DPU和DOCA数据中心基础设施软件组成,其交换吞吐量比前几代产品高出4倍。Spectrum-4实现了纳秒级精度,相比典型数据中心毫秒级抖动提升了5~6个数量级。
有趣的是,为了展示Omniverse,黄仁勋的虚拟化身“玩偶老黄”Toy Jensen 再度现身,向大家展示了虚拟世界,以及真人与虚拟人物的实时的交流和对话。
像Toy Jensen 这样的虚拟形象,从声音到细微的头部及身体运动,乃至高保真度的形象塑造,都模拟的惟妙惟肖,更加的灵动。同时得益于 Riva 中的最新对话式 AI 技术和语言模型,“玩偶老黄”可以听懂你问的问题,也能跟你实时聊天互动。
AI汽车
下一代DRIVE Hyperion 9将有望从2026年起搭载到汽车中,它将拥有14个摄像头、9个雷达、3个激光雷达和20个超声传感器,总体传感器数量将是Hyperion 8的两倍。
此外,英伟达推出了一种多模态地图引擎NVIDIA DRIVEMap,包含摄像头、激光雷达和雷达的数据,同时兼顾安全性。
DRIVEMap将有两个地图引擎,真值测绘地图引擎和众包车队地图引擎。黄仁勋谈道,到2024年,他们预计绘制并创建北美、西欧和亚洲所有主要公路的数字孪生(数字模拟真实),总长度约为50万公里。
合作方面,全球第二大电动汽车制造商比亚迪将在2023年上半年开始投产的汽车中搭载DRIVE Orin计算平台。自动驾驶独角兽企业元戎启行、中国自动驾驶创企云骥智行也宣布将在其L4级自动驾驶车规级量产方案中搭载NVIDIA DRIVE Orin SoC芯片。
而美国电动汽车公司Lucid Motors、中国L4级自动驾驶科技公司文远知行、中国新型电动车公司悠跑科技均宣布将应用英伟达DRIVE Hyperion自动驾驶汽车平台。
机器人平台
英伟达正在构建多个机器人平台,包括用于自动驾驶汽车的DRIVE、用于操纵和控制系统的Isaac、用于医疗设备的Holoscan等。
Clara Holoscan MGX是一个开放可扩展的机器人平台,其设计符合IEC-62304医疗级规格,核心计算机为Jetson AGX Orin和ConnectX-7智能 卡,并可选配NVIDIA RTX A6000 GPU。该平台AI算力可达每秒254~610万亿次运算,目前向早期体验客户开放,并将于2023年第一季度完成医疗级准备。
本次大会,英伟达还推出了Isaac for AMR(AMR自主移动机器人),Isaac将有2个摄像头、2个激光雷达、8个超声波雷达和4个鱼眼摄像头,它将配备英伟达新的DeepMap雷达制图系统,可以扫描和重建环境,机器人以此进行路线规划和数字孪生仿真。
结语:AI前沿技术盛宴
这些年来,英伟达在AI热潮中受益匪浅,其GPU被证明是流行的、数据密集型深度学习方法的完美匹配。随着AI领域对数据计算需求的增长,英伟达希望提供可以更多的火力。
一年一度的英伟达GTC大会则成为一场面向AI、HPC、科学计算、数字孪生及自动驾驶等诸多前沿领域的技术盛宴。在这场盛宴中,我们看到了这些技术的突破是如何改变各行各业的工作方式。
随着新一代大规模云技术的出现,数据中心架构有待转型。在稳拥GPU的基础之上,英伟达的角色正从图形显示和加速计算“偏科学霸”,转向围绕数据中心三大芯片支柱全面发展。英伟达CEO黄仁勋认为,数据中心正在逐渐转变成“AI工厂”。它通过处理海量的数据来实现智能,而今日推出的H100便是实现企业AI业务加速的引擎。H100的多项技术创新,数据中心专属GraceCPU超级芯片的特殊设计,以及AI软件和Omniverse平台的持续升级,进一步扩大了英伟达在AI领域的领导地位。
英伟达的创造力是值得让人赞叹的!或许在不久的将来,英伟达将引领未来的AI智
声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!