AI加速前行,超显卡全新诞生。世界格局巨变,只需一念之间!

2024-03-19 热点资讯 关注公众号

机器之心报道

机器之心部

「这才是我理想中的 GPU。」—— 黄仁勋。

「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。

今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。

今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。

而英伟达带来的产品,再次将 AI 芯片的标杆推向了难以想象的高度。

「通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。」黄仁勋说道。「这不是为了降低成本,而是为了扩大规模。」

黄仁勋提到,大模型参数量正在呈指数级增长,此前 OpenAI 最大的模型已经有 1.8T 参数,需要吞吐数十亿 token。即使是一块 PetaFLOP 级的 GPU,训练这样大的模型也需要 1000 年才能完成。这句话还透露了一个关键信息:GPT-4 的实际参数量应该就是 1.8 万亿。

为了帮助世界构建更大的 AI,英伟达必须首先拿出新的 GPU,这就是 Backwell。此处老黄已有点词穷了:「这是块非常非常大的 GPU!」

Blackwell 的发布意味着,近八年来,AI 算力增长了一千倍。一些网友看完发布会惊叹:Nvidia eats world!

2080 亿个晶体管的 Blackwell

同行不知应该怎么追

虽然全球的科技公司都还在争抢 H100 芯片,但新一代产品已来。

在今天的大会上,英伟达正式推出了 Blackwell 平台。从此以后,在数万亿参数上构建和运行实时生成式 AI 大型语言模型的成本和能耗降低到此前的 25 分之一。

Blackwell 的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell,它继承了 Hopper GPU 架构,为加速计算树立了新的标准。英伟达表示,Blackwell 架构的 GPU 预计将于今年晚些时候发货。

David Harold Blackwell。图源 britannica

正如预期的一样,Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。

在活动现场,黄仁勋对比了 Blackwell(右手)与 Hopper GH100 GPU(左手)的尺寸大小。

It’s OK, Hopper.

黄仁勋表示,Blackwell 将成为世界上最强大的芯片。Blackwell 架构的 GPU 拥有 2080 亿个晶体管,采用定制的、双 reticle 的台积电 4NP(4N 工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达 10TBps,可以大幅度提高处理能力。

此处需要强调的是,没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU。

它还带有 192GB 速度为 8Gbps 的 HBM3E 内存,AI 算力能达到 20 petaflops(FP4 精度),相比之下,上代的 H100「仅为」4 petaflops。

这是世界上第一次有如此高效整合在一起的多 die 芯片,或许也是在制程升级速度减慢之后,升级算力的唯一方法。

黄仁勋提到,Blackwell 不是芯片名,而是整个平台的名字。具体来讲,采用 Blackwell 架构的 GPU 分为了 B200 和 GB200 产品系列,后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。

其中 B200 GPU 通过 2080 亿个晶体管提供高达 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通过 900GB / 秒的超低功耗芯片到芯片连接,将两个 B200 GPU 连接到 1 个 Grace CPU 上。

GB200 架构,包含两个 GPU 和一个 CPU。

相较于 H100 Tensor Core GPU,GB200 超级芯片可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达 25 倍。

「人们认为我们制造 GPU,但 GPU 看起来并不像以前那样了,」黄仁勋表示。「我现在一手拿着 100 亿,一手拿着 50 亿。」

现在,显卡不再是显卡,而是作为系统整体售卖,毕竟只有通过英伟达自家的组件才能达到最佳效率。「现在我们卖的 GPU 是 7000 个组件,3000 磅重。」

基于 Blackwell 的 AI 算力将以名为 DGX GB200 的完整服务器形态提供给用户,结合了 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU。这些超级芯片通过第五代 NVLink 连接成一台超级计算机。

再往上扩展,Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来训练下一代 AI 模型。

再详细对比一下性能的升级,以前使用 Hopper 训练 GPT-MoE-1.8T,8000 块 GPU 要花费 90 天,同样的事只需要 2000 块 GB2000,能耗也只需要四分之一。

生成式 AI 的下一步是多模态和视频,也就意味着更大规模的训练,Blackwell 带来了更多可能性。

此外,大模型(LLM)的大规模推理始终是一个挑战,并非适合单个 GPU 的任务。在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,并且训练速度是 H100 的 4 倍。

现在,用于大模型推理的速度是上代的 30 倍,黄仁勋展示了一张对比图,蓝线是 Hopper。

「DGX 超级计算机是推进 AI 产业变革的工厂。新一代 DGX SuperPOD 集加速计算、网络和软件方面的最新进展于一身,能帮助每一个公司、行业和国家完善并生成自己的 AI,」黄仁勋说道。

有了 Blackwell,我们距离生成式 AI 的实用化也更近了一步。

两大技术革新

第二代 Transformer 引擎、第五代 NVLink

30 倍 AI 算力是如何做到的?除了使用新制程,并联两块芯片以外,Blackwell 的关键改进在于引入第二代 Transformer 引擎,它支持了 FP4 和 FP6,使得计算、带宽和模型大小翻了一番。

得益于新的微张量(micro-tensor)扩展支持和集成到英伟达 TensorRT-LLM 和 NeMo Megatron 框架中的先进动态范围管理算法,Blackwell 通过 4-bit 浮点 AI 推理能力支持了双倍的算力和模型大小。

当互联大量此类 GPU 时,第二个关键区别开始显现:下一代 NVLink 交换机可让 576 个 GPU 相互通信,具有每秒 1.8 TB 的双向带宽。

英伟达表示,此前,仅由 16 个 GPU 组成的集群会在相互通信上花费 60% 的时间,而只有 40% 的时间用于实际计算。

现在,英伟达的 NVLink Switch Chip 可以让所有这些芯片互联起来,全速运转没有瓶颈(1.8TB/s,几乎比上代快 10 倍),并帮助构建了 DGX GB200 NVL72。

通过高速互联的机制,DGX GB200 NVL72 可以被认为是一个超级 GPU,FP8 训练吞吐量高达 720 PFLOPS、FP4 推理吞吐量为 1.44 ExaFLOPS,多节点 All-to-All 通信速度为 130TB / 秒,多节点 All-Reduce 通信速度为 260TB / 秒。

在具体架构方面,DGX GB200 NVL72 拥有 18 个 GB200 节点机架,每个节点搭配 2 个 GB200 GPU。此外还有 9 个 NVSwitch 机架,从而为 GB200 NVL 提供了 720 PFLOPS 的 FP8 吞吐量,以及 FP4 精度的 ExaFLOPS。

所以今年画风变了现在 DGX 长这样:拥有 5000 条 NVLink 电缆,长达 2 英里,都是铜电缆,不需要光收发器,节省了 20kW 的计算成本。

它的功耗过大,以至于需要用液冷,同时重量高达 3000 磅(约 1361 公斤)。

2016 年,老黄扛着第一个 DGX 系统给 OpenAI,这才有了如今的 ChatGPT。那个时候 DGX 的算力是 0.17Petaflops,现在这个 GB200,算力是以 Exaflop 计算的。

在英伟达新的摩尔定律下,算力的提升速度居然还加快了。

构建生态,入场具身智能

除了硬件系统,英伟达也利用生成式 AI 构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。

英伟达表示,它正在将 Omniverse 企业技术引入苹果。这个想法是让开发人员通过 Vision Pro 在 AR/VR 设置中使用 Omniverse 工具。在 GTC 上,英伟达展示了设计师是如何通过 Vision Pro 使用汽车配置工具来操纵车辆,然后虚拟地进入其中的。人们可以通过 Omniverse Cloud API 以及通过云端直接流式传输到 Vision Pro 的图形传输网络来做到这一点。

最后,还有前沿方向机器人的工作,英伟达公布了人形机器人项目 GR00T。

在今天的主题演讲中,黄仁勋展示了多个由 GR00T 驱动的人形机器人如何完成各种任务,包括来自 Agility Robotics、Apptronik、傅利叶智能(Fourier Intelligence) 和宇树科技(Unitree Robotics) 的机器人产品。

GR00T 脱胎于英伟达的 Isaac 机器人平台工具,基于新的通用基础模型,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场演示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

英伟达还开发了一种新型「机器人大脑」计算芯片 Jetson Thor,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器。

人形机器人赛道近期达到了一个新的火热程度。就比如英伟达的「大客户」OpenAI,一直在使用自己的 AI 模型来为一家名为 Figure 的初创公司的人形机器人提供支持。

现在英伟达也把它摆在了重要位置,正如黄仁勋所说:「机器人的 ChatGPT 时刻可能即将到来。」

你准备好了吗?

参考链接:

https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai

https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing

https://venturebeat.com/ai/nvidia-unveils-next-gen-blackwell-gpus-with-25x-lower-costs-and-energy-consumption/

https://venturebeat.com/ai/nvidia-shows-off-project-gr00t-a-multimodal-ai-to-power-humanoids-of-the-future/

https://www.nextplatform.com/2024/03/18/with-blackwell-gpus-ai-gets-cheaper-and-easier-competing-with-nvidia-gets-harder/


结论:
Yon Huang,全球人工智能之父,提出了BlackwellGPU的概念。这是一个全新的GPU设计,具有1000亿个晶体管和多种特性的组合,可以实现更高的AI性能和更低的能耗。相比于HopperGPU,Blackwell的GPU使用自研的纳米颗粒封装技术,提高计算速度和能效。这个平台的发布不仅意味着更高的GPU性能,也预示着更加智能化的AI生态系统的发展。
建议:
1. 鼓励更多的研发投入,特别是在多芯片封装技术领域,如Blackwell,以满足未来的高性能计算需求。
2. 加强对物联网的投入,以便更好地理解和控制AI产生的巨大数据量。
3. 重视硬件生态系统的发展,尤其是优化现有产品的能效和性能。
4. 利用Blackwell平台推动更广泛的多模态和视频训练,以加速AI技术的发展。
5. 鼓励创新和竞争,使AI设备更加贴近用户,降低门槛,让更多公司和个人参与AI研究和应用。
6. 加强对新技术的研究和发展,如量子计算、强化学习等,以应对AI时代的挑战。
7. 在教育和培训方面加强,提高AI领域的专业人才储备,培养未来AI发展的战略规划者和实践者。

上一篇:人为什么会有5根手指?5很特殊吗?
下一篇:她,一个世纪的传奇
更多更酷的内容分享
猜你感兴趣
全球巨变:一夜之间网络世界的翻天覆地

全球巨变:一夜之间网络世界的翻天覆地

【热点】10月2日中东战争全面升级,以色列20余架F-35战机被击落。 【全球经济】隔夜收盘的美股受中概股大涨影响,纳指、标普领跌。 【投资】国庆假期后担忧市场走势,建议左侧交易投资者关注地产板块。

热点资讯 10.02
巨头之间的‘价格战’:智谱AI紧跟618洗牌加速,深度解析数据驱动下的智能电商新变局

巨头之间的‘价格战’:智谱AI紧跟618洗牌加速,深度解析数据驱动下的智能电商新变局

"面对巨头间的低价竞争,初创企业百川智能选择了差异化策略,采取拉长战线的方式提升模型价值,以满足企业需求。智谱AI推出的企业权益成长体系,不仅降低了企业认证的成本,还提供了9折优惠和1500个并发的模型选择。同时,智谱AI也并未放弃直接给出价格的方式,通过调整价格和并发数量来吸引客户。'

热点资讯 06.09
智利孕妇产下一超14斤巨大婴儿,打破世界纪录00:18

你可以尝试以下几个版本:

1. 智利巨婴诞生!一孕妇产后诞下14斤新生命,刷新世界记录00:18
2. 世界纪录创造者:智利一位孕妇成功生产出一超重婴儿,体重达14斤00:18
3. 惊人母子档:智利一位孕妇产下一超重婴儿,刷新世界记录00:18

智利孕妇产下一超14斤巨大婴儿,打破世界纪录00:18 你可以尝试以下几个版本: 1. 智利巨婴诞生!一孕妇产后诞下14斤新生命,刷新世界记录00:18 2. 世界纪录创造者:智利一位孕妇成功生产出一超重婴儿,体重达14斤00:18 3. 惊人母子档:智利一位孕妇产下一超重婴儿,刷新世界记录00:18

智利产妇诞下新生命,打破孕妇产女体重记录

热点资讯 04.18
微软、亚马逊引领,美国科技巨头加速全球AI布局

微软、亚马逊引领,美国科技巨头加速全球AI布局

美国大型科技公司加大对人工智能基础设施的投资,尤其是微软和亚马逊,预计全年全球AI基础设施支出超过1000亿美元,其中一些公司将逐步扩大其在海外的布局。谷歌和Meta尚未明确全球AI战略,但预计也将寻求在国外部署数据中心。

热点资讯 05.26
静奢风下科技美学:荣耀Magic V3实测体验

静奢风下科技美学:荣耀Magic V3实测体验

荣耀Magic V3的外型设计、实用性以及使用场景三大特点使其成为消费者的新机首选。经过4个月的等待,荣耀Magic V3以出色的硬件性能和用户体验赢得了消费者的认可。荣耀Magic V3的外观设计时尚大气,配置强劲。在正常使用过程中,无论是日常使用的商务电话还是观看视频,都能保证良好的显示效果。此外,荣耀Magic V3的折叠屏功能不仅提升了便携性,也为用户带来了全新的观影体验。虽然荣耀Magic V3采用了相对厚重的包装,但是其优秀的摄像性能却使得用户对其保持了高度的好奇心。总的来说,荣耀Magic V3是一款集时尚、实用和拍照功能于一身的产品,受到了消费者的广泛好评。

热点资讯 11.14
国区WSA复苏,腾讯应用宝登录微软App Store:重新点燃手机游戏热情

国区WSA复苏,腾讯应用宝登录微软App Store:重新点燃手机游戏热情

标题:微软中国宣布推出腾讯应用宝专区预览体验版 事件起因:微软中国宣布将在 Windows 11 预览体验计划上,通过微软应用商店推出腾讯应用宝专区预览体验版。 事件关注爆点:参与 Windows 11 预览体验计划的用户现可以在微软商店侧边导航栏中找到腾讯应用宝专区,即可选择应用下载;此外,使用该功能的前提是需要将商店的地区设置为中国。

热点资讯 11.14
AMD官方宣布大规模裁员,涉及近1000名员工

AMD官方宣布大规模裁员,涉及近1000名员工

AMD裁员或接近1000人,涉及消费电脑、游戏电脑和数据中心等领域,份额为80%以上。该公司正追赶英伟达在AI芯片市场的领先地位,预计全年销售额达到50亿美元。分析师预计英伟达2024年收入可达1259亿美元。然而,AMD可能需要等待更长的时间来考虑裁员,因为该公司最近一个季度的表现并不像华尔街人士预期的那样好。

热点资讯 11.14
OpenAI再次呼吁:美国政府需要投入更多资金,否则AI竞争可能输掉中国!

OpenAI再次呼吁:美国政府需要投入更多资金,否则AI竞争可能输掉中国!

OpenAI提议投入巨资支持AI行业,称将推动美国的经济增长。同时,呼吁美国政府加大对AI公司的监管力度和投资,尤其是在能源领域,通过补贴小型核反应堆以降低能耗。提案还建议设立新的就业计划,为数据中心培养人才。

热点资讯 11.14
努比亚Z70 Ultra:拒绝‘苹果’的普通,屏力让你惊喜不已!

努比亚Z70 Ultra:拒绝‘苹果’的普通,屏力让你惊喜不已!

努比亚将于11月21日14:00发布新款Z70 Ultra,该款手机采用了业内独家的6.85英寸1.5K真全面无孔屏和2000 nit峰值亮度真全面屏。具有极窄的1.25mm黑边和高达95.3%的超高屏占比,备受期待。

热点资讯 11.14
江宏斌狱中深情款款,向中产传递爱意,与柴进再续前缘:《好团圆》大结局

江宏斌狱中深情款款,向中产传递爱意,与柴进再续前缘:《好团圆》大结局

向中,他的选择并没有错。虽然他在处理江宏斌的问题上表现出了智谋和勇气,但他最终选择了愿意接受江宏斌母亲徐素敏作为自己的妻子。这不仅是对他个人品格的认可,也是对他家庭责任感的肯定。 另外,老三向南的婚姻也受到了外界的关注。由于前夫江宏斌的犯罪行为,她失去了财富和地位,但同时也找到了生活的方向。她专注于艺术品制作,希望能够通过这种方式为社会做出贡献。 总的来说,《好团圆》的故事充满了转折和惊喜,无论是在大结局还是在人物关系的发展中,都有着许多值得思考的地方。这些剧情不仅丰富了电视剧的内容,也为观众带来了不同的感受和启示。

热点资讯 11.14
泳装博主 Lisa 重返辣舞舞台:全新马甲线、A4腰、漫画腿,时尚芭比震撼登场!

3年未见的女神 Lisa 马甲线惊艳归来,A4腰燃炸新舞步,完美展现超模风采!

性感博主 Lisa 继续挑战自我,3年跳蟹舞惊艳亮相,满目惊羡的 A4 腰与漫画腿,再现诱人身材!

泳装博主 Lisa 重返辣舞舞台:全新马甲线、A4腰、漫画腿,时尚芭比震撼登场! 3年未见的女神 Lisa 马甲线惊艳归来,A4腰燃炸新舞步,完美展现超模风采! 性感博主 Lisa 继续挑战自我,3年跳蟹舞惊艳亮相,满目惊羡的 A4 腰与漫画腿,再现诱人身材!

新加坡粉丝见面会,LISA身穿迷你短裙,再跳螃蟹舞,可爱又性感;此为她首次单独见面会,当天有多重精彩环节,包括舞蹈表演、互动环节和特别惊喜环节;此次见面会还设有最佳服装奖,粉丝可秀创意穿搭并与LISA互动;此外,LISA透露首张solo专辑即将推出,有望在美国电视喜剧《白莲花大饭店》中亮相;之后还在个人ins上晒美照并感慨:“一站在新加坡。”

热点资讯 11.14
外网播放量破千万!李子柒再次挑战韩国版《三里屯》的霸主地位

外网播放量破千万!李子柒再次挑战韩国版《三里屯》的霸主地位

李子柒回归视频海外播放破亿,刷新中国文化传播纪录,其在螺钿漆器制作方面的创新备受瞩目,让韩国等国家纷纷警惕文化偷窃。

热点资讯 11.14
黄晓明生日无祝福,网友调侃:是否搞丢踩点送祝福的杨颖了?

黄晓明生日无祝福,网友调侃:是否搞丢踩点送祝福的杨颖了?

黄晓明生日时,许多圈内好友未能及时送上祝福。然而,在他47岁生日当天,包括备受争议的女友杨颖在内,却没有收到任何祝福。这引发了外界对黄晓明与叶珂关系的猜测。其中,网友认为黄晓明疑似失去了为他送生日祝福的机会,而叶珂则宣布自己将退网,避免在网络上引起不必要的纷争。不少网友猜测,叶珂的这一行为可能是为了规避与其他女友的关系。最后,黄晓明与叶珂的关系受到了更多网友的关注。

热点资讯 11.14
大S车祸事件:汪小菲要求撤回豪车拍卖?她的新挑战又将如何展开?

大S车祸事件:汪小菲要求撤回豪车拍卖?她的新挑战又将如何展开?

具俊晔定居台北后,大S打算拍卖停了四年的豪车以换取抚养费用,但遭汪小菲拒绝。两人陷入了新的困境,分手的可能性增大。大S和具俊晔已结婚三年,仍有恩爱如初。目前,汪小菲携带小梅前往各地旅游、扩张门店和共享幸福生活。未来离婚可能性较大,但具俊晔依旧对大S充满关爱。

热点资讯 11.14