黄仁勋的超凡才华造就了辉煌的英伟达帝国。

2024-03-25 热点资讯 关注公众号

图片来源:视觉中国

在3.18-3.21英伟达GTC大会上,英伟达CEO黄仁勋得到了流行明星式的追捧与崇拜。

GTC的第一天,黄仁勋如约发布了新一代Blackwell架构的芯片B200。与目前训练AI最强芯片H100相比,B200的训练性能提升4倍,推理性能提升30倍,售价在3-4万美元之间。在AI大模型的战场上,卖AI芯片的英伟达是最大的军火商,现在B200无疑是火力更猛的炮弹。

英伟达的芯片之路起起伏伏:靠游戏显卡打下最初的地盘,2007年进军移动芯片效果不佳,2016年以来拥抱加密货币、拥抱元宇宙,凭借加密货币的牛市,英伟达在2016-2018年市值攀升十倍,但也随着加密货币的寒冬而股价跳水。

2022年的秋天,美国芯片管制,挖矿时代终结。当英伟达当年11月财报显示显卡营收下滑、股价同比下跌近半时,没人能预料到,2022年11月底ChatGPT一声炮响,不仅引领了生成式AI的新浪潮,让全世界都认识了OpenAI,更是把军火商英伟达送上了神坛。

但黄仁勋自己预料到了,也一直在准备AI的爆发——2022年3月英伟达发布了H100芯片,距离OpenAI发布ChatGPT还有大半年,H100就专门针对AI大模型训练做了优化。

ChatGPT发布以来,英伟达股价一路上升。截至3月22日美股收盘,英伟达的市值已经超过了2.35万亿美元,排名全球上市公司市值第三,距离2.66万亿美元的苹果只有一步之遥。

但英伟达的AI芯片帝国并非牢不可破。英伟达GPU原本就不是专门为了AI训练而设计,而是在通用的图片处理器上叠加各种为AI训练适配的性能,相比之下,Groq的LPU、谷歌的TPU从底层设计上都更加AI专用化。

英伟达B200发布后,Groq团队(前谷歌TPU团队核心成员创立)在社交平台X上表示,自家的LPU芯片更快、功耗也更低;谷歌的TPU算力服务提供给了OpenAI的有力对手Anthropic;每年在数据中心上花费超500亿美元的微软,在联合AMD研发Maia 100 人工智能芯片;软银集团孙正义在撒钱造芯;3月21日三星宣布将在 2025 年初推出自己的人工智能加速器芯片。

但英伟达有自己的护城河——CUDA软硬件协同技术。GPU的并行计算能适用于大语言模型的多维张量计算,程序员写的代码本来只能运行在CPU上,但通过CUDA的程序接口,能运行在GPU上。CUDA发布于2006年,早期只有CUDA提供了对并行计算的支持,通过规模效应,CUDA已经成为行业标准。

就在GTC大会之前,英伟达试图禁止第三方公司兼容CUDA。这就像苹果的iOS系统一样,是英伟达最核心的护城河。

3月20日,就在英伟达GTC大会期间,美国商务部宣布向英特尔提供195亿美元激励,包括85亿美元资助和110亿美元贷款担保,美国政府想通过巨额补贴将近几十年来迁往亚洲的芯片产业引回美国。中国商务部发言人则在3月21号表示,中国欢迎全球半导体企业来华投资合作,共促产业链稳定。

尽管英伟达目前凭借GPU+NVlink+CUDA垄断了AI算力90%的市场,但在新的AI芯片公司想要弯道超车、变化诡谲的时局之下,英伟达还能保持自己的垄断吗?

先天缺陷、后天改良超车的GPU

AI芯片有多个技术路径。广义上讲,只要能运行人工智能算法的芯片都叫做AI芯片,但针对AI做了特殊加速设计的专用芯片效果会更好。

GPU原本是用做图形处理,不是专用于人工智能场景,从这点上看GPU是有先天缺陷的。但GPU因其并行计算的特点,适用于大语言模型的多维张量计算,一步步走上了为了AI而改造之路

英伟达的改良方案很能担当起后来“核弹工厂”的称号:一方面堆砌算力、堆料。芯片的晶圆面积越做越大,从1997年的90平方mm到2015年之后的超过600平方mm。

英伟达也一直擅长多卡互联,通过两张或更多显卡互联工作的方式,以实现翻倍甚至是数倍于单张显卡的性能输出。最新Blackwell架构的B200芯片也是如此,它并不是传统意义上的单一GPU,而是由两个紧密耦合的芯片组成。在NVLink Switch高速互联技术支持下,英伟达“大力出奇迹”地将72块B200连接在一起,最终成为“新一代计算单元”GB200 NVL72,“批发打包”成数据中心来卖卡。

另一方面,通过“改良式创新”,来逐步解决GPU跟人工智能场景的不匹配问题。这些问题包括但不限于功耗、内存墙、带宽瓶颈、低精度计算、高速连接、特定模型优化……从2012年开始,英伟达加快了架构更新的速度,加上了各种针对AI训练的优化,如矩阵计算(Tensor Core 4.0)、提高精度、Transformer加速引擎等。

H100拆机图。图片来源:饭统戴老板

而且,英伟达一直在追赶时代浪潮,拥抱加密货币、拥抱元宇宙、拥抱AI,既追求提高算力、软硬件协同的长期主义,也追求在每一次浪潮中找准盈利点。据36Kr报道,2018 年,英伟达 CFO 公开披露了自己依靠销售“矿卡”赚钱的事实,黄仁勋则更是在发言中透露出了自己对“挖矿”的兴趣,“英伟达实际上对用户购买 GPU 的用途有所把控,我们必须留意它(用户买显卡来挖矿)的存在,并保证充足的库存来应对”。

据远川研究所报道,在生成式AI热潮之前,英伟达的毛利率常年维持在65%上下,而净利率通常只有30%。而今年Q2受高毛利的A100/A800/H100的拉动,毛利率站上70%,净利率更是高达45.81%。

专为AI而生的芯片:TPU和LPU

相比之下,谷歌的TPU和Groq的LPU都更加专为AI而生

谷歌研发AI芯片其实比英伟达更早。2016年Google凭借AlphaGo战胜围棋冠军而惊艳世界,随后推出自研的专为AI而生的芯片TPU(Tensor Processing Unit),中文名叫做“张量处理单元”——“张量”即神经网络的基本单元,从芯片结构上就专为AI大模型训练设计。如果说英伟达对GPU的“魔改”是拆了东墙补西墙,那么TPU便是通过从根本上大幅降低存储和连接的需求,将芯片空间最大程度让渡给了计算。

TPU计算原理图。图片来源:Google Cloud官网

TPU 的主要任务是矩阵处理,矩阵是乘法和累加运算的组合。神经网络运算需要进行大量矩阵运算,GPU只能按部就班将矩阵计算拆解成多个向量的计算,每完成一组都需访问内存,保存这一层的结果,直到完成所有向量计算,再将每层结果组合得到输出值。

而在TPU中,成千上万个计算单元被直接连接起来形成矩阵乘法阵列,作为计算核心,可以直接进行矩阵计算,除了最开始的加载数据和函数外无需再访问存储单元。这大大降低了访问频率,使得TPU的计算速度大大加快,能耗和物理空间占用也大大降低。

谷歌并不对外出售TPU芯片,它仍然是英伟达的大客户之一,并继续大批量采购英伟达的GPU。但谷歌把TPU其部署到自家的云服务系统中,对外(比如Anthropic公司)提供AI算力服务,这无疑压缩了英伟达的潜在市场。

而从谷歌TPU核心团队的离职人员,创建了Groq,其提出了一种全新的AI 芯片 LPU(Language Processing Unit,语言处理单元)。

作为创业公司,Groq这个团队更加锋芒锐利,扬言称要三年之内超过英伟达。在英伟达GTC期间,Groq也在X上各种正面硬刚英伟达:说自家的LPU芯片速度更快,功耗更低,即使英伟达有再多软件也无法克服硬件瓶颈,仅当芯片(指英伟达芯片)架构复杂且难以高效编程时,才需要 CUDA……其中“当芯片架构复杂且难以高效编程时,才需要 CUDA”可谓直指英伟达GPU本质上是个堆料改良“缝合怪”的痛点。

Groq在X平台上的发言。图片来源:X平台上Groq官方账号

LPU最夸张的指标是推理速度。运行开源大模型Mixtral 8×7B-32k,速度约为每秒500个token;切换到Llama 2-7B,速度为每秒750个token;而使用更大的Llama 2-70B,速度可以达到每秒300个token。

如果按照2个token相当于1个汉字的一般规律,那么使用英伟达H100芯片生成答案时,用户的阅读速度几乎可以跟上答案生成的速度,答案慢慢地展开下来。然而,使用 Groq 的芯片,生成答案就像用鼠标滚轮无意识地向下滚动网页一样快,页面眨眼间就过去了。

长期以来,芯片的HBM内存所需的封装技术被代工巨头台积电垄断,而Groq则避开适用HBM内存,转而使用SRAM内存。SRAM 的优势在于速度快、延迟低。Groq 的芯片搭载了230MB 的 SRAM 来保证内存带宽,片上内存带宽达到了 80TB/s。在算力层面,Gorq 芯片的整型(8位)运算速度为 750TOPs,浮点(16位)运算速度则为 188TFLOPs。

但Groq芯片是推理芯片,而不是训练芯片,不能用来训练大模型。

Groq虽然宣称自己芯片的功耗更低,但是从单位成本算力来看,Groq芯片并不便宜。

原 Meta 人工智能科学家、原阿里技术副总裁贾扬清做了一番估算,指出由于 Groq 的内存容量较小,在运行 LLaMa2 70B 模型时需要使用 305 张 Groq 卡,而使用 NVIDIA 的 H100 卡只需要 8 张。这相当于 Groq 的硬件成本大约是 H100 的 40 倍,而其能源成本则是 10 倍。

而世界上的云计算厂商(亚马逊AWS、微软Azure、Google Cloud、阿里云和IBM)都在加紧研发制造自己的AI芯片。其中,微软给芯片行业的冲击或许会最大。微软每年在数据中心上的支出超过 500 亿美元。据报道,微软正在研发自己的 Maia AI 服务器芯片,今年将安装在数据中心,其正在开发的新型网卡也可以提高Maia芯片的性能。

微软也在与英特尔联合起来造芯。据华尔街日报2月22日报道,微软首席执行官Satya Nadella在英特尔的一次活动上说,微软正在设计芯片,将在英特尔最先进的工厂之一制造。纳德拉没有具体说明英特尔将为其生产哪款芯片,但最近几个月微软一直在寻求加强芯片设计能力,包括去年推出的一款用于人工智能计算的新芯片。

真正的护城河——软硬一体的CUDA

科技界没有永远的巨头,但英伟达在加深自己的护城河——CUDA软硬件协同系统。

黄仁勋在GTC上宣称,英伟达其实是一家软件公司,为其他公司提供视觉计算核心技术,同时也是一家“综合性视觉计算和并行计算技术公司”。或许,黄仁勋对标的并不是芯片公司先驱,而是通过卖硬件来赚软件钱的苹果。

CUDA提供了平台性的接口,让程序员用C语言、C++等语言写的代码,通过CUDA翻译成能运行在GPU上的指令,让原本程序里的一行指令,变成GPU上几十万、几百万个并行的小处理单元。这样能让图形设计的游戏编程者和人工智能大模型的训练者更好地让GPU发挥作用。

CUDA发布于2007年,凭借着先行者地位和规模效应,CUDA成为深度学习领域事实上的垄断者。苹果在2009年推出OpenCL,这是一种开放标准,可用于对不同供应商的 CPU、GPU 和其他设备进行编程。但OpenCL在深度学习的生态上远不如CUDA,许多学习框架要么是在CUDA发布之后,才会去支持OpenCL,要么压根不支持OpenCL。苹果也没能动摇CUDA的地位。

而就在今年GTC大会之前,英伟达或许想扩大自己的垄断地位,开始禁止第三方硬件兼容CUDA。有用户发现,英伟达在其CUDA软件11.6及更高版本的最终用户许可协议中新增了一条禁止逆向工程、反编译或反汇编使用SDK生成结果,并在非英伟达平台上进行转译的规定。

在中国,摩尔线程、壁仞、华为都在开发自己的AI芯片,它们此前都是兼容CUDA接口的。

360集团创始人周鸿祎3月18号在视频上表示,以前国产芯片可以通过CUDA接口来在国产操作系统上运行软件,“为什么说我们国家的显卡希望能兼容CUDA,因为CUDA已经变成事实上的标准,如果能兼容CUDA,我们的国产操作系统(底层是Linux、底层芯片是华为芯片)的接口不用改变,就能兼容Windows,上面可以运行软件。”

但周鸿祎认为CUDA的护城河没有英伟达想象的那么深。周鸿祎呼吁,把推理芯片和训练芯片的研发分开,推理的难度要小于训练,英伟达的显卡适用于训练但用在推理上有些浪费,国产芯片商可以研发自己的推理芯片;在训练芯片上,鼓励国产芯片厂商可以积极加入国际上开源的训练框架,联合世界上其他的厂商(甚至包括苹果、AMD等),重新定义一个非CUDA的标准

英伟达的CUDA系统垄断,加上美国愈发严格的芯片出口管制,会加强国产芯片自造一个生态系统的动力吗?

在美国针对英伟达又一轮出口管制发布后,2023年6月,英特尔专门把Gaudi 2芯片的发布会放在北京开,表示“帮助构建中国人工智能的未来”、“携手中国产业生态”,显然是想趁英伟达的缺位,进军中国市场。

结果2023年10月美国新版芯片出口管制发布,AMD的MI250X、MI300,英特尔的Gaudi 2、Gaudi 3和英伟达一起上了名单。

美国对中国的芯片出口管制越发严格,但所有人都知道,人工智能的时代已经不可避免地到来了。这种长期的封锁,长期的供不应求,必将加速中国芯片产业的自主研发。英伟达的AI芯片垄断地位,并不只靠它自身的技术实力和商业策略,或许也得看时运了。


结论建议

上一篇:iOS 18 主屏幕更新曝光/华为 P70 要来了,供应商确认供货/雷军回应为何不公布小米汽车价格
下一篇:怎么看南航师生恋?
更多更酷的内容分享
猜你感兴趣
英伟达公司:黄仁勋如何引领科技巨头进入新纪元?

英伟达公司:黄仁勋如何引领科技巨头进入新纪元?

微软、苹果均大幅回调。 英伟达成功登顶,引发一场市值大战。 市场密切关注其未来的成长潜力。 投资者对此态度各异。 现在, 英伟达市值跃居全球第二。 在此背景下, 英伟达股价持续飙升,让投资者备受鼓舞。 但对于部分押注英伟达的人来说, 这场盛宴让他们感到紧张和焦虑。 如今, 英伟达市值领先于其他几大科技巨头, 英伟达投资者仍有很大的上涨空间。 部分投资者已经抛售所持股份,准备退休或清仓离场。

热点资讯 06.19
黄仁勋:Blackwell芯片需求疯狂,英伟达盘后涨超1%

黄仁勋:Blackwell芯片需求疯狂,英伟达盘后涨超1%

英伟达最新宣布其新型AI架构芯片已经全面产线,并可能推动公司股价上涨。 黄仁勋表示,这种芯片需求疯狂,可能迫使公司下周四之前交货,因为黑石引擎(Blackwell)芯片的供应可能会受到影响。 黄仁勋强调,尽管存在生产延迟的风险,但英伟达仍致力于提供高质量的产品,并为所有客户负责。 黄仁勋还提到了Blackwell芯片的需求,他表示市场需求非常旺盛,将会带来更多的客户需求和资金流入。

热点资讯 10.03
黄仁勋:拒绝被打扰的专注时刻

英伟达CEO:专注当下,我心向阳

英伟达 CEO 黄仁勋:在信息爆炸的时代,坚守专注之心

英伟达CEO 黄仁勋:把握当下,远离干扰

英伟达 CEO 黄仁勋:用专注倾听时间的声音

英伟达 CEO 黄仁勋:保持对细节的关注,全身心投入工作

英伟达CEO 黄仁勋:摒弃浮躁,专注于当下

黄仁勋:把注意力集中在每一个瞬间,不做无谓的思考

英伟达CEO 黄仁勋:眼观全局,手绘人生

黄仁勋:拒绝被打扰的专注时刻 英伟达CEO:专注当下,我心向阳 英伟达 CEO 黄仁勋:在信息爆炸的时代,坚守专注之心 英伟达CEO 黄仁勋:把握当下,远离干扰 英伟达 CEO 黄仁勋:用专注倾听时间的声音 英伟达 CEO 黄仁勋:保持对细节的关注,全身心投入工作 英伟达CEO 黄仁勋:摒弃浮躁,专注于当下 黄仁勋:把注意力集中在每一个瞬间,不做无谓的思考 英伟达CEO 黄仁勋:眼观全局,手绘人生

英伟达CEO黄仁勋不戴手表,强调活在当下的重要性,认为真正的工作应集中在当下,而不需要追求长远目标和宏大计划。

热点资讯 11.11
英伟达CEO黄仁勋个人财富超过英特尔市值,市值已高达1092亿美元

英伟达CEO黄仁勋个人财富超过英特尔市值,市值已高达1092亿美元

英伟达CEO黄仁勋的个人净资产突破1092亿美元,超越英特尔成为全球市值最高的公司。尽管其股价有所回调,但仍然在全球五大公司之列,仅次于苹果、微软、Alphabet、亚马逊等科技巨头。

热点资讯 10.07
10月合资SUV销量榜:比亚迪瑞虎8脱颖而出,H6排名下滑

10月合资SUV销量榜:比亚迪瑞虎8脱颖而出,H6排名下滑

10月,国产汽车市场持续走高,SUV销量喜人。比亚迪宋PLUS新能源夺魁,成为唯一一款销量超过4万辆的SUV车型;特斯拉Model Y虽然销售有所下降,仍位列排行榜第二;奇瑞瑞虎8异军突起,首破2万辆大关。其它车型如长安CS75 Plus、锋兰达、本田CR-V、探岳、途观L等销量均超过1.8万辆,表现出色。哈弗H6销量下滑至32名,凸显国产 SUV市场竞争激烈。

热点资讯 11.23
杉杉股份股价大幅跳水:传言继母接盘后,公司净利暴跌近98%

杉杉股份股价大幅跳水:传言继母接盘后,公司净利暴跌近98%

杉杉股份董事长郑驹辞职;其继母周婷接任;副董事长;现任董事周婷已宣布完成工作交接;杉杉股份因高管变动面临困境。周婷曾担任上海青联委员、浙江卫视、东方卫视新闻部记者、主播。

热点资讯 11.23
高盛预测:年内或将降准50基点,或引发市场震动?

高盛预测:年内或将降准50基点,或引发市场震动?

高盛首席中国经济学家闪辉预测2025年中国的政策利率将进一步下行,预计全年降息约50次,但仍需密切关注美元等外部因素的影响。他预计出口将会继续平稳增长,消费和投资也会加速增长。然而,中美之间的关税问题也将是一个重要考虑因素,对其经济前景构成一定不确定性。总体来说,高盛对未来中国经济持乐观态度,但需要政策宽松度的支持。

热点资讯 11.23
2025年,行业有望迎来新一轮年度级别上涨行情:你的投资准备好了吗?

2025年,行业有望迎来新一轮年度级别上涨行情:你的投资准备好了吗?

中信证券预计2025年A股将经历一轮年度级别的上涨行情,中金公司则认为2025年结构性机会将进一步增多。然而,在当前市场环境下,机构仍然持乐观态度,认为A股还有较大的上涨空间。预计2025年A股盈利同比增速将从2024年的0.5%小幅上升至0.7%。建议投资者关注信用周期、宏观价格、A股盈利等领域。

热点资讯 11.23
一线城市全面取消非普宅标准,这对房地产市场有何影响?

一线城市全面取消非普宅标准,这对房地产市场有何影响?

广州取消普通住宅和非普通住宅标准,12月1日起施行。这是为了满足改善性需求购房者的需求。其中,普通住宅和非普通住宅的定义由各地标准决定,契税额也由不同区间规定。这次政策的实施将减轻购房者的负担,使得更多的购房者有机会购买到适合自己的房子。同时,也有利于房地产市场的稳定和发展。

热点资讯 11.23
权重股动荡,指数破3300寻求市场修复性机会

权重股动荡,指数破3300寻求市场修复性机会

电器等板块涨幅最大。 综合来说,本周市场呈现震荡探底走势,权重股低迷,但题材股活跃。对于下周,建议投资者关注政策面变化和成交量变化,控制好风险。具体操作上,可以关注调控政策的变化,以及行业基本面和业绩预告等信息。

热点资讯 11.23
电商出海:拉丁美洲市场解析与投资机遇

电商出海:拉丁美洲市场解析与投资机遇

疫情改变了消费者的购物习惯,拉美电商平台迎来快速发展,其中跨境电商卖家积极布局。据估计,预计2028年拉美地区电商市场规模将突破2050亿美元。虽然各国市场潜力各异,但有部分卖家已早早预见到这可能是一个难得的机遇,并开始在美客多等平台上展开竞争。

热点资讯 11.23
AI技术开启新篇章:搜索引擎市场的新一轮竞争风暴正在展开

AI技术开启新篇章:搜索引擎市场的新一轮竞争风暴正在展开

以下是一段关于AI搜索产品推出的新闻概述: 越来越多的互联网厂商推出AI搜索产品,其中最著名的是知乎直答、搜狗输入法和360集团。这些产品的推出反映了AI搜索技术的不断提升,预计在未来一段时间内,用户使用成本将会与传统搜索引擎相近。同时,它们也是对AI搜索逻辑与传统搜索逻辑差异性的突破,尤其是后者更关注场景侧的深入程度。尽管当前AI搜索产品仍存在用户习惯问题和产品升级需求等问题,但随着技术的发展和市场的需求,这些问题有望得到解决。在整体上,AI搜索正在改变我们的生活,并将继续推动数字化转型。

热点资讯 11.23
印尼欲求更多:苹果1亿美元投资仍无法解iPhone 16封杀令?

印尼欲求更多:苹果1亿美元投资仍无法解iPhone 16封杀令?

苹果面临印尼市场禁令困境,寻求解除或增加投资,可能寻求双倍回报。印尼政府希望能获得更大的投资,以换取其在手机制造方面的支持。

热点资讯 11.23
亚马逊海外官方旗舰店入驻京东:跨境巨头的激战升级还是新一轮较量?

亚马逊海外官方旗舰店入驻京东:跨境巨头的激战升级还是新一轮较量?

亚马逊海外官方旗舰店已正式入驻京东,旨在为全球消费者提供更多选择。亚马逊中国副总裁李岩川表示,他们将扩大采销、售前服务和支付方式的合作机会。同时,两家公司也将探索社交媒体电商和直播电商领域的投资和布局。

热点资讯 11.23