前几天举办的 GTC 2024 大会再度把英伟达推上了神坛,下一代 AI 芯片 Blackwell 的发布,也证明了算力规模依然是老黄的信仰。
但历史一次又一次证明了,技术融入日常的道路从来都不止一条,如果说英伟达正在走的路是将算力规模推向新的高度,颠覆作为网络基础设施的全球服务器市场,那另一路就是在将 AI 算力更多地普及在终端设备上,比如手机、PC、电视甚至冰箱——AI手机、AI PC、AI电视,AI家电,也是雷科技在CES、MWC、AWE每一个科技展会上听到的最热门关键词。
说到AI芯片,人们第一个想到的可能是高通、联发科、Intel,抑或是英伟达、AMD。另外三个核心玩家则总是在被忽视:苹果、三星和华为,因为它们不专注于芯片而是横跨消费电子、通信、存储、云等业务,但事实上它们的芯片却很强大。
比如三星,就是不容忽视的芯片玩家,它的exynos系列就是跟苹果A系列同级的顶尖芯片。AI芯片,也是三星接下来的重中之重。
在刚举办的第 55 届年度股东大会上,三星电子宣布进军人工智能处理器市场,将于 2025 年初推出 Mach-1 AI 加速芯片。
但不同于英伟达是要攻占全球服务器市场,三星的目标在边缘计算领域,包括手机、PC 等智能设备、自动驾驶机器人以及 IoT 设备。
不难理解。仅从今年 1 月 CES、2 月 MWC、3 月 AWE 三场科技行业大会就能看出,AI 已经开始了大规模对终端产品的「改造」。尽管大部分行业都还处在探索和尝试的阶段,但有一点是无论如何不会改变的:
AI 驱动离不开算力。
图/三星
算力从哪来?底层无非是芯片。三星推出 Mach-1,就是希望在这个 AI 改造终端的过程中,成为各类终端的主要 AI 芯片供应商,成为边缘计算领域的英伟达。
Mach-1,三星 AI 芯片的第一枪
不同于英伟达 Blackwell 更追求算力规模(当然也追求效率),边缘计算领域更追求低功耗和高效。根据 Sedaily 的报道,Mach-1 的一大突破就是将推理所需的内存带宽大幅降低 87.5%:
是现有架构设计的 0.125 倍。
在 AI 训练和推理极其依赖高带宽内存(HBM)的今天,毫无疑问,单单这一点就能带来巨大的成本优势,并转化为 Mach-1 的竞争优势。三星半导体业务主管庆桂显表示:
「即使是用低功耗内存而不是耗电的 HBM,Mach-1 也能进行大语言模型(LLM)推理。」
左一为庆桂显,图/三星
再加之,三星作为全球第一大存储芯片厂商以及仅次于台积电的全球第二大晶圆代工厂,理论上也都能为 Mach-1 带来一定的成本优势。
不过要特别说明的是,Mach-1 作为一款 ASIC(专用集成电路)芯片,缺点和优点都非常明显。
ASIC 芯片的特点是计算能力和计算效率都直接根据特定算法的需要进行定制,但同时具有体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。换言之,在其针对的特定应用领域内,ASIC 芯片的能效表现要远超 CPU、GPU 等通用型芯片以及半定制的 FPGA。
ASIC 芯片,图/ Wikimedia Commons
代价是缺少灵活性。ASIC 芯片在通用性上远不如 GPU,甚至不如 NPU,算法一旦改变就会导致效率下降甚至无法使用。
当然,ASIC 芯片并不是围绕单一算法设计的。相反,通常是有一个专门的架构,针对特定类别的计算任务进行了优化。具体到 Mach-1,目前可以肯定是,核心是面向预训练大模型的推理,而不包括训练。
另外依照三星公布的规划,Mach-1 目前已经在 FPGA 上完成了技术验证(FPGA 通常用于原型设计和验证),正在进行 SoC 的设计工作,预计年底前生产原型,2025 年初正式发布。
三星立志AI for All,AI芯片不可或缺
首先要指出的是,三星 Mach-1 的定位不是手机、PC 芯片中的 NPU,而更多是作为各种设备驱动人工智能模型推理的专用芯片。
在股东大会上公布 Mach-1 项目的时候,三星特别提到了 DS(半导体)部门与 DX(设备体验)部门的联手,并展示了一张图片:
三星股东大会现场,图/ X
图片右侧显示了 DS 部门的三星 DDR5 内存,暗示 Mach-1 可能采用该内存;图片左侧则是三星 DX 部门的冰箱、手机以及电视,暗示 Mach-1 将首先应用在这些产品之中。
比如说,三星明年就可能将 Mach-1 标配到自家的高端冰箱、手机和电视上,来专门驱动人工智能模型,冰箱和电视就能直接在端侧运行基于大模型的一些应用,如基于大模型的语音助手等。至于放在高端手机上,更多可能体现的就是 Mach-1 更低的功耗和更高的效率。
但肯定不只是冰箱、手机和电视。考虑到 Mach-1 在功耗、性能、成本等方面的优势,包括智能家居设备、IoT 传感器、无人机,甚至是手机和汽车都有一定的应用价值。正如前文所言,三星看中的是整个边缘计算领域。
而且,这也符合三星今年推出的「AI for All」战略。
图源:雷科技摄制,三星AWE展台
从今年 CES 的发布会开始,三星几乎在每一款产品上都尝试融入 AI 技术来改善体验,从手机到 PC,再到电视、洗衣机等各类家电产品和汽车。
跟很多家电巨头的AI家电不同的是,三星AI for All是从芯片出发的。以在AWE上展示的三星电视上搭载的新一代AI芯片NQ8 AI Gen3为例,这枚芯片可以利用人工智能优化影像原片中的细节,还能通过深度学习分析模型还原图像中的真实纹理,将常见的低分辨率提升至近乎8K的超高清水平。除了画质提升,三星还用芯片来驱动AI音频的调教。
(图源:雷科技)
总之,三星要AI for All,必须要有支持AI for All的芯片。未来,Mach-1 以及迭代产品,或许就会成为三星「AI for All」的底层驱动。
避英伟达锋芒,三星AI芯片在边缘侧另辟蹊径
三星 Mach-1 会成功吗?这不是一个可以简单回答的问题。
今天对于 AI 的应用正在大规模从云端(数据中心)转向终端(智能设备、自动驾驶汽车等),市场对于面向边缘计算 AI 芯片的需求自然水涨船高,这是三星AI芯片的机会。
然而,英伟达的高性能 GPU 实在是太强大了。在刚刚结束的英伟达GTC 2023上,老黄带来了史上最强的AI芯片加速卡甚至是AI芯片:Blackwell GB200超级芯片系统,这是面向AI大模型时代而生的AI芯片,业界评论称:英伟达掌握了AI时代的摩尔定律,也打破了传统计算的摩尔定律。
不过,英伟达强在云端,“边缘”并不是其擅长的计算场景,它的GPU当然能提供顶级的 AI 加速性能,但尺寸、功耗以及成本都大大限制了它在边缘计算领域的应用范围。英特尔和高通则都采用了混合架构(CPU+GPU+NPU)提供 AI 加速性能,大幅降低了功耗,更大的机会在于边缘侧。
骁龙 X Elite 笔记本,图/雷科技
三星 Mach-1 在理论上还能提供更低的功耗和成本。对于低性能的智能家居设备和 IoT 传感器等,Mach-1 比起英伟达、英特尔和高通的解决方案无疑更有价值。
试想一下,总不能为了大模型驱动的 AI 应用,洗衣机也要搭载高通旗舰芯片吧。
不过就算面对手机、笔记本电脑乃至汽车车机等高性能终端,除了功耗上的优势,考虑到低端产品搭载芯片的 AI 算力水准,三星 Mach-1 也同样存在一定的价值。
以AI PC、AI手机、AI家电、AI汽车为代表的AI硬件正在重新定义传统硬件生态,而AI硬件的计算形态一定是“云端融合”,既要云端训练,也要边缘端有一定的AI计算力来支持小模型部署以及终端侧的基础、实时和硬件层训练、推理和生成。因此,边缘侧的AI芯片有巨大的空间,这是三星的机会。
当然,边缘侧AI芯片不能一概而论,有些终端对功耗要求高,有些终端对散热要求高,有些终端对安全要求高,有些终端则对性能要求更高……因此,边缘侧的AI芯片也会形成分化。
简而言之,在高性能 AI 赛道,英伟达占据了顶级的云端生态位,在高性能低功耗 的“边缘侧”“终端侧”AI 赛道(如手机、笔记本电脑),英特尔和高通成为绝世双雄;而三星,则有望拿下低功耗赛道的顶级生态位。当然,头部品牌吃不完全部蛋糕,每一个AI芯片层都将容纳大量的玩家。
耐人寻味的是,英特尔在 2023 年超越三星,重新成为全球最大芯片制造商,而三星也喊出「将在未来两到三年重回第一」。或许,Mach-1 会是三星重回第一的关键之一。
结论:对于 英伟达 这家曾经在 AI 谋略巅峰时刻的技术注入(AI)的强大的推动者,当前的神坛的霸主地位, 强大的 AI 转向云计算架构搭建者 进程的情况下,我智能芯片的路上 高处 打造 CPU 呢 达、独步 创建者的 旅程中找起, 英术说成立 区块 塑造者 中的快速崛起者,最后 肯定的阿强: