为什么英伟达H20的推理能力超过了H100呢?

2024-03-19 热点资讯 关注公众号

2023年10月,美商务部更新了针对AI芯片的限制规定,对出口中国的AI算力芯片产品的算力、算力密度、带宽等上限提出了明确要求。受此影响,英伟达(NVIDIA)此前针对中国市场定制的A800、H800,以及此前未受限的众多AI芯片都受到了限制。基于此,NVIDIA随后又为中国市场定制了H20、L20、L2等产品。

从公布的参数来看,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比(1.2-1.4万美元,略低于Ascend 910的约。1.66万美元)持悲观或怀疑态度。

在此前的《关于英伟达H20砍单传言》一文当中,NVIDIA内部人士虽然承认,然经过阉割后的NVIDIA H20单卡算力仅有H100的20%,相比国产的910b,性能也只有其60%多。但是,其强调,H20仍有两大优势:

1、H20的HBM容量(96GB)与带宽远比910B高(也高于A100/H100的80GB HBM3),带宽是910B两倍。

2、NVIDIA有NVlink架构。H20可以是通过多卡使用、多卡堆叠模式,完全超越910B,甚至突破H100。

同时,该内部人士还表示,H20的中国订单一直稳定,市场部尚未接到大量砍单的现象。

不过,这一与外界看法相悖的说法,依然是没有消除外界的疑虑。那么,H20在被阉割之后,究竟还有多少优势?

近日,广发电子团队基于理论计算,研究了H20、L20等产品在大模型推理端的性能表现。推算结果显示,H20、L20均展现出较优异的推理性能。

以下为主要:

1根据推算,H20推理性能超过H100,L20推理性能比肩L40S

    H20推理性能优于A100、H100,仅略逊于H200。分别使用单张H20、A100、H100、H200进行推理。参考图1,在3组推理场景下,H20的推理速度均明显优于A100;在前两组推理场景下,H20的推理速度优于H100,第三组推理场景下H20与H100推理速度基本持平。取三组平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。

    L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理。参考图3,在前两组推理场景中,L40S、L40、L20的推理速度无明显差异;仅在最后一组场景中,L40S推理速度相较于L40、L20优势较明显。取三组平均值,L20推理速度仅比L40S速度慢约2%。

    为什么算力被大幅阉割的H20会有如此优异的推理性能表现?在接下来的两个章节,广发电子分别分析了推理过程中Prefill环节、Decode环节H20的推理性能表现。

2Prefill是算力密集场景,H20受算力制约性能表现较弱

     Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或Batch Size较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。

    参考表2,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。

3Decode是显存带宽密集场景,H20性能表现优异

    在Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode过程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。

    参考表3,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。

4H20在多数推理场景中性能优异、性价比高,但也存在特殊情况

    多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),但考虑到这一时长也仅为2.8s,对用户使用体验的负面影响是有限的。(备注:实际用户等待时间还包括网络延迟、用户端侧延迟等)

    而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用A100/H100进行推理),每秒57个Tokens的生成速度明显高于人类阅读速度。

    站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。

    以上关于H20优异的推理性能的分析,是建立在较常见的推理场景(回答文字大于等于提问文字),在一些特殊推理场景下,例如输入一段长文字并输出长文字核心观点(对应较长的输入和较短的输出),参考表5,站在用户角度,从输入问题到出现答案的耗时会较为漫长(超过20s);站在持有人角度,推理全程H20的推理速度会下降至明显低于A100。

    因此,广发电子认为H20的推理性能优异、推理性价比高,适用于大部分推理场景,而非全部场景;H20实际的推理性能及性价比,需要结合实际使用场景、售价等综合评判。

:芯智讯-浪客剑   资料来源:广发电子


面对不同。

上一篇:苹果屏幕技术盘点:OLED成主流,MicroLED战未来?
下一篇:双 400 万高清记录,小米室外摄像机 CW500 双摄版上架
更多更酷的内容分享
猜你感兴趣
华为高管透露:华为的昇腾AI计算能力已经超过了英伟达的A100

华为高管透露:华为的昇腾AI计算能力已经超过了英伟达的A100

这次,华为高管罕见地公布了自己的看法。他表示,昇腾 AI 算力性能已经超过英伟达A100,并且在训练效率方面超越后者。他强调,尽管目前还有一定的差距,但经过三年的实验检验,中国大模型中有一半选择了昇腾技术路线,这使得华为成为了国产化大模型的第一选择。此外,他还提到,创新中心致力于将昇腾和鲲鹏技术应用于千行百业,以帮助企业实现数字化转型。根据最新的财报数据,华为2023年的总营收为7042亿元,同比增长9.6%,净利润为870亿元,同比增长144%。研发方面,华为投入大量资金进行研究与创新。

热点资讯 06.18
华为 Ascend 910C AI芯片有望升级至超越英伟达H100的华为将推出全新AI芯片,性能提升潜力巨大

华为 Ascend 910C AI芯片有望升级至超越英伟达H100的华为将推出全新AI芯片,性能提升潜力巨大

华为正在测试最新的人工智能加速器 Ascend 910C(昇腾910C),并预计最快10月开始出货。然而,由于美国恐将在今年8月底祭出更严厉制裁,让华为无法取得最新AI芯片所需的生产设备及所需的HBM內存,这可能导致华为未来的业绩受到影响。此外,英国芯片制造商TikTok的母公司字节跳动、搜索引擎巨头百度和电信营运商中国移动也已经开始讨论关于Ascend 910C的采购计划。

热点资讯 08.14
英伟达揭晓超速AI超级计算机Eos:装载了4608个H100!

英伟达揭晓超速AI超级计算机Eos:装载了4608个H100!

英伟达推出全球第九大AI超级计算机Eos,配备4,608个H100 GPU和1,152个英特尔处理器,采用Mellanox Quantum-2 InfiniBand技术,峰值性能达188.65 Peta FLOPS。Eos不仅供英伟达内部使用,其架构也为其他公司提供参考。此外,Eos的强大软件设计使其能够应对各种AI应用。

热点资讯 02.19
三星HBM3芯片已通过英伟达认证,未来可能将应用于GPU型号H20

三星HBM3芯片已通过英伟达认证,未来可能将应用于GPU型号H20

三星HBM3芯片有望通过英伟达认证,主要用于满足美国出口管制需求。目前未知英伟达是否已在其他AI芯片中使用三星HBM3芯片,或需通过额外测试。SK海力士、美光和三星将是主要供应商。目前HBM主制造商为SK海力士,但该公司已开始向英伟达供应HBM3E,同时美光也已表示将在英伟达供应HBM3E。随着HBM3供不应求,英伟达希望三星能通过认证以保证供应商多元化。三星最早将于8月为英伟达H20芯片供应HBM3。H20是中国市场的最新GPU之一,性能较H100有显著优势。但由于早期表现不佳,H20在中国销量有所下滑。

热点资讯 07.26
朱啸虎预言:未来五到十年,中国还将诞生三大重要时代红利

朱啸虎预言:未来五到十年,中国还将诞生三大重要时代红利

朱啸虎认为中国未来的5-10年内有三大时代红利市场,分别是初老人群的消费、养宠物人群的开销和零售业态的连锁化。他还将带领一群同学去日本学习如何应对这三个时代的红利,寻找领先企业的模式,并期望在未来看到中国消费市场的业态创新机会。目前,只有一个候补名额,有兴趣的学生请咨询报名。

热点资讯 11.26
小众新闻!乌克兰可能迎来新领导人,欧盟需谨慎应对

小众新闻!乌克兰可能迎来新领导人,欧盟需谨慎应对

杰奥尔杰斯库凭借高票获得罗马尼亚总统选举的胜利,成为了一匹值得关注的“黑马”。他的成功引起了欧盟和北约官员的关注,他们在外交和军事政策上对此持有忧虑。杰奥尔杰斯库虽然在国内获得了极高支持率,但在国际上并不受认可。这次胜利对于他的未来政治生涯无疑是一次重大考验。

热点资讯 11.26
调整风格:如何适应和提升您的在线影响力

调整风格:如何适应和提升您的在线影响力

新的牛市中,散户投资者参与度不高,导致大量亏损。同时,市场分歧依然存在,部分游资仍然活跃于热门题材。然而,机构投资者认为基本面才是决定行情的根本,预计接下来会有基本面逻辑驱动的反弹。在此背景下,重点关注基本面数据和会议,以此判断市场的方向。

热点资讯 11.26
高盛承认投资失误,总计耗资65亿人民币打水漂

高盛承认投资失误,总计耗资65亿人民币打水漂

北欧电池巨头Northvolt宣布破产,CEO辞职,高盛损失超9亿美元。2016年成立的北欧电池制造商,一度被认为拥有"欧洲希望"地位,但在过去半年内陷入流动性危机,可能引发更大规模资本流动。

热点资讯 11.26
做好最坏打算:中国如何应对可能存在的极端关税政策?

做好最坏打算:中国如何应对可能存在的极端关税政策?

特朗普重新当选为美国总统后,其一系列极端政策如对中国所有出口产品征收高达60%的关税、取消中国“永久正常贸易关系待遇”以及逐步停止从中国进口必需品将对中国产生一定的负面影响。虽然这些政策可能会短期内给中国经济带来冲击,但从长远来看,随着中国出口部门的灵活性调整,这些负面影响会逐渐减弱。

热点资讯 11.26
陕西岚皋发现野猪事件,一只猎犬追赶到农户院内致一死。

陕西岚皋发现野猪事件,一只猎犬追赶到农户院内致一死。

陕西岚皋县一农户遭野猪袭击致人死亡,相关部门已对此事展开调查。野猪数量庞大且凶猛,人类应加强防控措施,主动减少野猪造成的伤害。

热点资讯 11.26
高位股集体调整:10月罕见!全市场逾百股跌超9%,大量股市下跌,单日成交额创近一年新低

高位股集体调整:10月罕见!全市场逾百股跌超9%,大量股市下跌,单日成交额创近一年新低

午后行情震荡调整,其中涨幅较高的板块包括物流股、食品、白酒等。最新数据显示,三大指数全天成交量缩量,投资者对后市缺乏信心。此外,对于新兴题材如IP经济,显示出短期上涨空间有限的特点。值得注意的是,在市场缩量下,热点的延续性可能较差。建议投资者保持谨慎,适当减仓操作。

热点资讯 11.26
探秘广和通机器人背后的迷局:一个互联网解析的视角

探秘广和通机器人背后的迷局:一个互联网解析的视角

特斯拉展示 Optimus 功能遭质疑 降至 16.61 元,广和通回应机器人业务可能早于预期。

热点资讯 11.26
中国缝纫机巨头宝石破产调查:女总裁涉嫌挪用巨额资金

中国缝纫机巨头宝石破产调查:女总裁涉嫌挪用巨额资金

经过法院指定的破产管理人发现,原来被判处有期徒刑多年的“宝石系”公司,竟存在大量资金被盗的情况。其中,非法套取和转移的资金高达3.4亿元,并且大额资金去向不明,疑与冯素莲有关。对此,阮小明已经将新证据提交给了警方,希望能够加快侦查力度重新立案。浙江省宝石集团原总裁冯素莲因涉嫌职务侵占和挪用资金罪被破产管理人报案,警方未立案。与此同时,根据文件介绍,阮小明属于全国优秀乡镇企业家、浙商总会第一届理事会监事、浙江宝石缝纫机股份有限公司董事长,并非犯罪分子。目前,阮小明正在积极与警方沟通,争取尽快追回资金。

热点资讯 11.26
奔驰反击:开启油电同智的智能驾驶新时代

奔驰反击:开启油电同智的智能驾驶新时代

奔驰持续推动智能化发展,尤其是在燃油车智能化方面有着深厚积累。利用MB奥斯架构,实现了真正的“软件定义汽车”。中国市场进行智能化供给侧改革,充分信任中国团队。奔驰还率先搭载了众多领先的智能功能,如主动刹车系统、ESP车身电子稳定系统和智慧数字大灯等。奔驰是中国智能电动汽车的倡导者,并致力于推动“油电同智”。

热点资讯 11.26