为什么英伟达H20的推理能力超过了H100呢?

2024-03-19 热点资讯 关注公众号

2023年10月,美商务部更新了针对AI芯片的限制规定,对出口中国的AI算力芯片产品的算力、算力密度、带宽等上限提出了明确要求。受此影响,英伟达(NVIDIA)此前针对中国市场定制的A800、H800,以及此前未受限的众多AI芯片都受到了限制。基于此,NVIDIA随后又为中国市场定制了H20、L20、L2等产品。

从公布的参数来看,H20的FP16、INT8等主要算力参数仅为A100的不足1/2,更是仅为H100的约1/7;L20的主要算力参数相较于L40、L40S分别下降约1/3、2/3。这些最新的针对中国市场定制的产品算力参数被大幅阉割,使得市场大多对其性能表现、性价比(1.2-1.4万美元,略低于Ascend 910的约。1.66万美元)持悲观或怀疑态度。

在此前的《关于英伟达H20砍单传言》一文当中,NVIDIA内部人士虽然承认,然经过阉割后的NVIDIA H20单卡算力仅有H100的20%,相比国产的910b,性能也只有其60%多。但是,其强调,H20仍有两大优势:

1、H20的HBM容量(96GB)与带宽远比910B高(也高于A100/H100的80GB HBM3),带宽是910B两倍。

2、NVIDIA有NVlink架构。H20可以是通过多卡使用、多卡堆叠模式,完全超越910B,甚至突破H100。

同时,该内部人士还表示,H20的中国订单一直稳定,市场部尚未接到大量砍单的现象。

不过,这一与外界看法相悖的说法,依然是没有消除外界的疑虑。那么,H20在被阉割之后,究竟还有多少优势?

近日,广发电子团队基于理论计算,研究了H20、L20等产品在大模型推理端的性能表现。推算结果显示,H20、L20均展现出较优异的推理性能。

以下为主要:

1根据推算,H20推理性能超过H100,L20推理性能比肩L40S

    H20推理性能优于A100、H100,仅略逊于H200。分别使用单张H20、A100、H100、H200进行推理。参考图1,在3组推理场景下,H20的推理速度均明显优于A100;在前两组推理场景下,H20的推理速度优于H100,第三组推理场景下H20与H100推理速度基本持平。取三组平均值,H20平均推理速度是A100的1.8倍,是H100的1.1倍。

    L20推理性能与L40、L40S基本相同。分别使用单张L40S、L40、L20进行推理。参考图3,在前两组推理场景中,L40S、L40、L20的推理速度无明显差异;仅在最后一组场景中,L40S推理速度相较于L40、L20优势较明显。取三组平均值,L20推理速度仅比L40S速度慢约2%。

    为什么算力被大幅阉割的H20会有如此优异的推理性能表现?在接下来的两个章节,广发电子分别分析了推理过程中Prefill环节、Decode环节H20的推理性能表现。

2Prefill是算力密集场景,H20受算力制约性能表现较弱

     Prefill阶段算力负载体现在对用户所有输入Tokens进行一次并行计算;显存带宽负载主要体现在参数量从HBM向算力芯片的传输。在大多数推理场景下(如输入Tokens较长、或Batch Size较大),Prefill阶段计算耗时高于显存传输的耗时,因此该环节的耗时(也被称为First token latency)通常是由算力芯片的算力能力决定,Prefill阶段属于算力密集场景。

    参考表2,由于H20的算力较弱,在Prefill环节H20耗时明显高于其他三款芯片。这也意味着在使用H20进行推理时,用户从完成问题输入、到看到问题第一个文字的输出,中间需要等待较长时间。

3Decode是显存带宽密集场景,H20性能表现优异

    在Prefill阶段结束后,大模型开始生成回答,该过程被称为Decode。由于Decode过程中,回答的Tokens必须逐个生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输,使得Decode阶段通常显存传输耗时明显高于计算耗时;Decode阶段属于显存带宽密集场景,更高的显存带宽对加速Decode至关重要。

    参考表3,由于H20具有较高的显存带宽,在Decode阶段H20每生成1个Token所需时间低于A100、H100,这也使得H20在整个推理过程具有较高的推理速度。

4H20在多数推理场景中性能优异、性价比高,但也存在特殊情况

    多数应用场景下,站在H20推理使用用户角度,在输入问题后,等待界面出现第一个回答文字的等待时间会较长(相较于使用A100/H100/H200进行推理),但考虑到这一时长也仅为2.8s,对用户使用体验的负面影响是有限的。(备注:实际用户等待时间还包括网络延迟、用户端侧延迟等)

    而在回答开始后,使用H20的用户会体验到回答生成速度较快(相较于使用A100/H100进行推理),每秒57个Tokens的生成速度明显高于人类阅读速度。

    站在H20持有人角度,持有人更关心一个推理系统Throughput的速度,因为对相同一套推理系统或成本相近的不同推理系统,平均Throughput(Tokens/s)越高,意味着每Token所平摊的系统硬件成本越低。从性价比角度看,假设H20与H100售价相近,在多数情况下,H20也有望成为性价比更高的推理芯片选择。

    以上关于H20优异的推理性能的分析,是建立在较常见的推理场景(回答文字大于等于提问文字),在一些特殊推理场景下,例如输入一段长文字并输出长文字核心观点(对应较长的输入和较短的输出),参考表5,站在用户角度,从输入问题到出现答案的耗时会较为漫长(超过20s);站在持有人角度,推理全程H20的推理速度会下降至明显低于A100。

    因此,广发电子认为H20的推理性能优异、推理性价比高,适用于大部分推理场景,而非全部场景;H20实际的推理性能及性价比,需要结合实际使用场景、售价等综合评判。

:芯智讯-浪客剑   资料来源:广发电子


面对不同。

上一篇:苹果屏幕技术盘点:OLED成主流,MicroLED战未来?
下一篇:双 400 万高清记录,小米室外摄像机 CW500 双摄版上架
更多更酷的内容分享
猜你感兴趣
华为高管透露:华为的昇腾AI计算能力已经超过了英伟达的A100

华为高管透露:华为的昇腾AI计算能力已经超过了英伟达的A100

这次,华为高管罕见地公布了自己的看法。他表示,昇腾 AI 算力性能已经超过英伟达A100,并且在训练效率方面超越后者。他强调,尽管目前还有一定的差距,但经过三年的实验检验,中国大模型中有一半选择了昇腾技术路线,这使得华为成为了国产化大模型的第一选择。此外,他还提到,创新中心致力于将昇腾和鲲鹏技术应用于千行百业,以帮助企业实现数字化转型。根据最新的财报数据,华为2023年的总营收为7042亿元,同比增长9.6%,净利润为870亿元,同比增长144%。研发方面,华为投入大量资金进行研究与创新。

热点资讯 06.18
华为 Ascend 910C AI芯片有望升级至超越英伟达H100的华为将推出全新AI芯片,性能提升潜力巨大

华为 Ascend 910C AI芯片有望升级至超越英伟达H100的华为将推出全新AI芯片,性能提升潜力巨大

华为正在测试最新的人工智能加速器 Ascend 910C(昇腾910C),并预计最快10月开始出货。然而,由于美国恐将在今年8月底祭出更严厉制裁,让华为无法取得最新AI芯片所需的生产设备及所需的HBM內存,这可能导致华为未来的业绩受到影响。此外,英国芯片制造商TikTok的母公司字节跳动、搜索引擎巨头百度和电信营运商中国移动也已经开始讨论关于Ascend 910C的采购计划。

热点资讯 08.14
英伟达揭晓超速AI超级计算机Eos:装载了4608个H100!

英伟达揭晓超速AI超级计算机Eos:装载了4608个H100!

英伟达推出全球第九大AI超级计算机Eos,配备4,608个H100 GPU和1,152个英特尔处理器,采用Mellanox Quantum-2 InfiniBand技术,峰值性能达188.65 Peta FLOPS。Eos不仅供英伟达内部使用,其架构也为其他公司提供参考。此外,Eos的强大软件设计使其能够应对各种AI应用。

热点资讯 02.19
英伟达日本携手超2000片H100 Tensor Core GPU,推动混合计算和人工智能的发展

英伟达日本助阵日本搭建超级计算机:全球领先 Tensor Core GPU 在手,加速日本迈向数字化未来

英伟达日本携手超2000片H100 Tensor Core GPU,推动混合计算和人工智能的发展 英伟达日本助阵日本搭建超级计算机:全球领先 Tensor Core GPU 在手,加速日本迈向数字化未来

英伟达公司将AI、能源和生物技术领域研究和企业应用提升至新的高度,打造全球唯一的完全可外设的网络计算平台——ABCI-Q。这是英国工业技术综合研究所(AIST)和富士通在日本产业技术综合研究所(ABCI)共同建造的超级计算机,包括超过2000片英伟达H100 Tensor Core GPU和连接超过500多个节点的量子人工智能技术全球商业研究开发中心(G-QuAT),预计将于明年年初部署并为与未来量子硬件集成而设计。

热点资讯 04.25
挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

随着《黑神话:悟空》的火热,国内玩家开始调侃欧美玩家的“女拳师”现象,国内一些工作室也试图利用男女话题来吸引眼球。最近一家被称为全女的GHG游戏工作室成立,并承诺将制作出完全由女性参与的3A级别开放世界游戏。然而,由于尚未完成游戏引擎的研发和成本控制,这款游戏可能会成为诈骗的一种手段。对此,我们建议大家保持理性判断,不要轻信不实信息,保护自己的权益不受侵犯。

热点资讯 09.19
大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

沃尔夫斯堡面临前所未有的挑战:汽车电动化、智能化转型和竞争压力加剧导致德国这家百年历史的工业重镇面临倒闭风险。沃尔夫斯堡及其庞大的大众汽车集团总部象征着德国工业复兴,但随着欧洲最大汽车制造商宣布关闭本土工厂,并放弃工作保障承诺,这座城市的12万居民开始担忧未来。沃尔夫斯堡拥有超过4800万辆汽车的生产能力,而在中国汽车市场竞争加剧的影响下,该公司可能会遭受重大打击,需要大幅增加拨备以应对这一冲击。这个消息引发了全球汽车产业的关注。

热点资讯 09.19
罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

米克、亚瑟和涅塔。在这五人当中,涅塔的名字最引人注目,因为他是一名黑帮老大,同时还是一个天才级别的战士。从他的实力来看,他是第五个出场的五大强者之一,绝对不容小觑。 另外,涅塔在预告片中并未完全展示出他的实力,只能猜测他的战斗力应该很强。这次出现在《吞噬星空》动漫中的涅塔,无疑会给观众带来更大的惊喜。 总之,从这次剧情来看,有很多看点,包括主角罗峰的新造型、五大超级强者的登场等,相信这部动漫会有更多的精彩内容等待着观众。

热点资讯 09.19
黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩真主党订购台产寻呼机爆炸,以色列事先破坏并伪装成自杀式袭击。

热点资讯 09.19
梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

标题:奇幻高手晒新装!打造双九黎城阵容及联赛冠军帮! 事件起因及关注爆点:梦幻游戏官方曝光九黎城装备,打造双九黎城阵容;另曝雪山表弟团队欲打造联赛冠军帮,提高团队实力。

热点资讯 09.19
70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

张曼获湖南农行派重任官,时值长沙银行半年后新行长人选揭晓,张曼晋升为副行长,成为湖南省万亿上市银行董事长人选,由她提名成为董事会董事候选人。此前张曼加入长沙银行前是中国农业银行的员工,期间担任过多个职务,包括副行长等,此次晋升为总经理。

热点资讯 09.19
东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

今年初,董宇辉成为东方甄选最高薪酬雇员之一。他在2024财年年度收益高达3.41亿港元,包括年薪、奖金、期权和新公司分润。自7月25日分手后,他自立门户已55天。但近日舆论场对其进行猛烈批评,被指责“没有文化”,并有人称对其进行了“绞杀”。在此期间,他面临各种商业挑战,如稳住人设、守住口碑和带领“与辉同行”前行等。目前,他的抖音账号粉丝数量超过51.7万,“与辉同行”账号粉丝数超过165.7万,显示出良好的发展势头。尽管如此,东方甄选主账号却掉了24.3万粉丝,这无疑给与辉同行带来了竞争压力。在完成一系列直播带货数据后,于近日新增了一家名为“与辉同行”的品牌公司,实现了业绩增长。与辉同行目前的销售额和粉丝数量均超过了东方甄选,与竞争对手相比有着明显优势。在未来的发展中,他还将继续努力稳定形象,提升口碑,并带领“与辉同行”走向更广阔的舞台。

热点资讯 09.19
科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯推出全球首款恒压活水洗地机器人地宝X8 PRO PLUS,打破传统洗地模式。此款产品采用滚筒式结构,通过内置恒压系统提供持续的水源,解决了高清洁度和长寿命的问题。此外,它还配备高性能多维视觉模组和业内首个扫地机器人自研大语言模型,实现了智能交互和自主避障,为用户提供便捷高效的生活体验。这一创新突破标志着科沃斯在扫地机器人领域的领先地位,同时也引领了行业的未来发展方向。

热点资讯 09.19
从大小杨到曾志伟:网站编辑成长历程与自我评价

从大小杨到曾志伟:网站编辑成长历程与自我评价

曾志伟率领公司员工全力支持大小杨哥开设的分公司,并为其捧场,以期借此打开新的市场局面。其背后其实是一场互帮互助的好事。曾志伟的入场既是为了捞取后者的人气,也是为了扩张公司的影响力。最终,被挖墙角的不仅是大小杨哥所在的分公司,还有曾经在其中大放异彩的明星们。

热点资讯 09.19
梦幻西游中西栅黑的绰号-麻狼蹲着尿尿与七星地煞奖励2级神秘石

梦幻西游中西栅黑的绰号-麻狼蹲着尿尿与七星地煞奖励2级神秘石

黑总改名为“麻狼蹲着尿尿”,西栅老街黑总的160法暴神链号已被转会至超级联赛。 内容总结:黑总改名成“麻狼蹲着尿尿”,黑总的新号已在超级联赛报名中。

热点资讯 09.19