集微网报道 黄教主当仁不让,一人撑起2024GTC大会2个多小时的秀场,并接连祭出数个王炸,让业界叹为观止。
光环加身,黄教主真人秀的金句无疑具有行业指向性意义:我们正处于行业中两个转变的开端,一是通用计算到加速计算的转变,二是向生成式AI的转变。
而让我们感叹的不止是第七代基于Blackwell架构的B200 GPU远超前一代的性能,英伟达一系列左右开弓、前瞻布局的举措也展现了其在通用AGI时代的完整战略和布局,业界惊呼:英伟达正在超越“英伟达”。
迎接两大转变 全面撒网
英伟达重磅发布的Blackwell架构GPU无疑是一枚深水炸弹:B200包含2080亿个晶体管,可提供高达20千兆次的FP4算力,是前一代H100的5倍,支撑10万亿参数大模型训练。由两片B200组成的GB200,在基于1750亿参数的GPT-3基准测试中,其性能是H100的7倍、训练速度则提高了4倍。
8年时间,从Pascal架构到Blackwell架构,英伟达将AI计算性能提升了1000倍。之前黄教主还表示,未来10年GPU还可将深度学习能力提升100万倍。
而这还只是开胃小菜,黄仁勋还直指足以优化万亿参数级GPU计算的最强AI基础设施,推出全新网络交换机X800系列,吞吐量高达800Gb/s;以及新一代DGX SuperPOD AI超级计算机,性能直接秒杀一众同侪。超级计算机的“生成”之路在于:两个GB200超级芯片形成一个计算节点,18个计算节点构成计算单元GB200 NVL72,它们可通过持续扩展,最终构成包含32000 GPU的分布式超算集群。
北京半导体行业协会副秘书长朱晶在朋友圈发文表示,Blackwell架构GPU展示了英伟达从芯片、互联、服务器、网络、算力集群等全方位的遥遥领先。
不止如此,尽管CUDA已成为英伟达的强护城河,但随着ChatGPT的出现大幅度加速了生成式AI的开发和应用进程,英伟达软件再下一程,推出了NIM。作为一组经过优化的云原生微服务,旨在缩短上市时间并简化在云端、数据中心和GPU加速工作站上部署生成式AI模型。
无疑,这或算是CUDA霸权的延伸。进一步来看,英伟达企业级软件家族的极大丰富,说明其在“软件公司”的路上越走越远,对于生态的深度和广度远非其他企业可比。
面向人形机器人的大爆发,英伟达也全线发力,发布人形机器人基础模型Project GR00T、新款人形机器人计算机Jetson Thor,对Isaac机器人平台进行重大升级,推动具身智能突破。与苹果强强联手,将Omniverse平台引入苹果Vision Pro,并宣布为工业数字孪生软件工具提供Omniverse Cloud API。
一系列凌厉出招,无疑都在表明英伟达正在全力打造一个AGI时代的“航空母舰”,英伟达的进化版已经实现全面的进化。
技术持续优化 前沿布局
实现如此巨大的“飞跃”,不得不说一些新兴和前沿技术功不可没。
有分析称,Blackwell自身最大的变化是dual die chiplet和更大的晶体管数量,采用同样的TN4工艺。而且,英伟达在系统级以及解决通信瓶颈层面提升迅速,包括互联的NVSwitch和NVlink不断提升性能,如升级第五代NVLink,具有1.8 TB/s的全对全双向带宽,互连速度是Hopper的2倍,支持576个GPU NVLink域,可解决万亿参数混合模型通信瓶颈。
通过Grace CPU+Blackwell GPU的比例优化(从1:1到1:2实际按照die是1:4),发挥更大的合力。这也凸显英伟达在GPU领域占据主导地位的同时,CPU也在成为英伟达的新利润池。
朱晶进一步表示,此次的Blackwell架构的chiplet设计与一般的Chiplet不太一样,两颗GPU之间的高带宽I/O链路是关键。英伟达称为NV高带宽接口 (NV-HBI ),可以提供 10TB/秒的带宽,这大于普通的Chiplet能做到的互联带宽,单纯看这个架构应该是高度依赖先进封装。
更值得关注的是,英伟达还宣布台积电、新思科技将突破性的光刻计算平台cuLitho投入生产。cuLitho可将计算光刻加速40-60倍,英伟达还将推出新的生成式AI算法增强cuLitho,将为2nm及更先进制程开发提供“神助攻”。
对此黄仁勋表示,计算光刻将成为芯片制造的基石。
台积电CEO魏哲家在一份声明中表示:“我们与英伟达合作,将GPU加速计算集成到台积电工作流程中,从而实现了性能的巨大飞跃、吞吐量的显著提高、周期时间的缩短和功耗的降低。我们正在将cuLitho转移到台积电生产,利用这种计算光刻技术来驱动半导体微缩的关键组件。”
整体而主,先进工艺+先进封装、算法改进、架构优化已成为英伟达持续进阶的三大利器,而在上述层面的强强联合也为英伟达未来发展增添无数后劲。
架构变革应对 押注推理
一系列“杀手级”GPU和超级计算机也让业界认识到,英伟达将进一步拉大与其他芯片企业在大模型训练上的差距,这种差距甚至可能在几十倍水平。
“在这次GTC之后,我国在大模型上的差距不止一年了,芯片层面更是差距遥远,短时间都摸不到Blackwell GPU……”朱晶如此叹息道。
要在训练层面翻盘,必须要独辟蹊径。业内人士对集微网表示,整体而言,国内与英伟达在GPGPU的差距在急剧拉大,如果沿袭之前的思路恐难以企及,需要通过新的架构和逻辑来追赶和超越,架构包括新的计算架构、芯片架构等,减少数据搬运是提升效率的关键。而且,不能仅依靠一两家大企业,必须百花齐放。
在生态层面,要认识到生态建设是个长期的过程,需要瞄准独立的生态才能有长足的发展,但是过渡期兼容性问题需要仔细考虑。上述人士进一步指出,好比新能源汽车,国内在新能源汽车市场发展强劲,通过自我闭环也打造出全新的新能源汽车生态。
避其锋锐,在推理层面或可扳回一局。
目前推理芯片市场规模相对较大,据预计国内到2025年训练芯片市场规模为494亿元,而推理芯片市场规模将达到891亿元,国内AI芯片企业走推理之路或能弯道超车。在大模型推理芯片市场,GPU优势并非无法撼动,据悉已有不少企业抢夺了英伟达的市场份额。
国外一位资深专家在解读时提到,英伟达B系列GPU代表了其未来瞄准的“万亿参数AI”的巨大飞跃。我经常读到的一本书上说软件能带来约 85%的利润率,而硬件利润率则通常很低,几十年来这一直被奉为圭臬。然而,现在的情况却并非如此,英伟达GPU正创造85%以上的利润率。如果要说科技行业有什么真理,那就是没有永恒的真理。
总结:
文章回顾了黄教主2024年GTC大会上的精彩演讲,其中包括他在构建AI计算产业的过程中提出的行业导向性和预见性意义的观点。他强调了通用计算到加速计算和向生成式AI转变的重要时刻,以及英伟达公司在这些领域的竞争优势和战略规划。同时,文章也提到了近年来AI行业的快速发展和英伟达的多项重要创新。
针对黄教主提出的展望和看法,读者可以从多个角度进行思考和讨论。例如,他认为新型计算架构和新技术的引入对于人工智能的重要性,以及中国在GPU市场的崛起可能会如何影响全球的AI产业发展。此外,文章也可能引发关于企业如何制定和执行有效的AI发展战略,以及企业如何适应不断变化的AI环境等问题。
总体来说,这篇文章以详细的数据和实例介绍了黄教主的演讲和观点,同时也提出了许多值得深入探讨的问题。通过对黄教主的看法进行反思和比较,我们可以更清晰地了解当前AI行业的现状和发展趋势,以及我们自身的角色和责任。