3月22日,在昇思人工智能框架峰会2024上,昇思MindSpore 2.3正式发布。华为公司ICT Marketing总裁周军表示,华为将从三方面推动昇思MindSpore的发展,首先是聚焦根技术支持伙伴孵化原生大模型,其次是面向行业场景加速大模型应用落地,最后是使能开发者成长成功,打造开源社区。
大模型已经成为了通用人工智能的关键路径,参数达到了万亿级别,华为预计,未来几年大模型参数会达到百万级别,真正达到通用人工智能的程度。
但是受摩尔定律的限制,算力的增长非常缓慢,与大模型的需求形成了鸿沟,严重制约了大模型的快速发展,人工智能框架的并行计算能力、简洁编程能力、便捷部署能力等,逐渐成为大模型训练的关键成功要素。
大模型训推挑战
昇思MindSpore技术总经理于璠在会上提到,目前大模型分布式训推的过程当中,主要存在几个关键挑战,开发效率、训练性能以及推理运行成本。
他表示,在使用万卡集群训练的时候,系统之间需要频繁通信,导致计算利用率急剧下降,当前业界平均水平也就达到了40%。此外,在千亿参数模型训练的过程中,大概18-19个小时就会有一次故障,故障恢复大概要耗时3-4个小时。
有观点认为,未来万卡集群、十万卡集群的训练中,故障频率可能会进一步提高,可能接近小时级,算力真正有效的时间不足四分之一,这是极大的浪费。
当大模型训练好之后到生产环境做推理,转换过程也要耗费海量成本,如果用以前的技术手段,把大模型导出再部署到端侧、边侧的设备上,有经验的工程师需要以月为周期的时间完成,严重拖累大模型的部署。
大模型在推理侧依然要面临成本问题,于璠透露,SORA刚刚发布时,华为使用SORA进行一次推理的时候,大概60秒的视频推理时间要1个小时,花费几十美金。
此外,在性能和成本之外,大模型的开发也面临着一些新的挑战。科学家或者开发者既要懂算法,又要懂并行技术,而且在调试过程中每次训练的时间也非常长,开发侧的隐形成本非常高,目前业内很难实现快速大模型快速落地。
昇思MindSpore 2.3发布
华为于2020年3月28日开源了昇思MindSpore框架,开源后访问量数千万,社区核心贡献者超过2.5万,社区贡献比例超过20%,MindSpore社区开源500多种模型,支持伙伴孵化,适配50多个大模型。
从2020年发布1.0版本到2023年发布2.2版本,昇思MindSpore 从支持端、边、云,全场景,到原生支持大模型分布式训练,到部署的全流程,并成为业界首个原生支持科学智能的人工智能融合框架,超过687万用户下载安装使用。
大模型技术快速迭代演进,业界主流模型也从千亿的稠密走向万亿的稀疏模型,昇思MindSpore 2.3的升级也对应这些需求。
周军表示,昇思MindSpore提供开源开放的训推全流程的开发套件,支持伙伴基于昇思孵化原生大模型,在模型开发阶段提供20多个开箱即用的业界主流训练模型,模型开发的周期缩短30%
昇思MindSpore通过原创的多副本、多流水交织等8种并行技术,使集群线性度达到90%(业界不足60%),通过整图优化及下沉执行等,使得算力利用率达到55%(业界不足40%);针对集群故障率高,恢复时间长的普遍问题,通过编译快照,确定性CKPT技术实现20分钟完成故障恢复。
为了帮助行业场景加速大模型应用落地,昇思MindSpore人工智能框架作为算法应用和硬件算力之间的桥梁,推出训推一体解决方案。
在大模型部署方面,昇思通过训推一体的架构升级实现脚本、分布式策略,运行时的统一,Baichuan2-13B的推理部署只需1天。在大模型推理上,通过LLM Serving 实现推理吞吐提升2倍多;升级模型压缩工具金箍棒2.0实现千亿大模型压缩至十倍。
为降低开发门槛,昇思持续升级MindSpore TransFormers大模型套件,并提供MindSpore One生成式套件,全流程开箱即用,一周即可完成大模型全流程的开发。
在AI for Science方面,MindSpore已在AI生物计算探索多年,联合顶级科研机构和伙伴打造了AI生物计算套件,包含蛋白质结构预测、生成等20多个SOTA模型,加速相关领域创新。
从行业维度观测,企业和开发者选择开源框架主要关注模型整体的丰富度以及训练的速度,与此前的AI开发者相比,大模型和AIGC开发者还会关心基于框架算法的领先性,部署性价比、落地效果以及芯片的适配度,这也将成为未来一段时间人工智能框架发展的主线。
结论:虽然大模型已经成为通用人工智能的关键路径,但由于摩尔定律的限制,算力的增长非常缓慢,这严重影响了大模型的快速发展。同时,开发效率、训练性能以及推理运行成本也成为了大模型训练的重要挑战。
建议:
1. 研发人员应重视模型的整体丰富度,以满足不同场景下的需求。此外,还应注重模型训练的速度,通过不断优化算法和简化流程来提高效率。
2. 针对大模型的部署问题,应研究如何降低成本并提高效率。例如,可以研究跨平台和大规模部署的技术,以及优化机器学习算法以提高推理性能。
3. 企业和开发者在选择开源框架时,不仅要关注其丰富的模型和技术,还要考虑其在理论上的前沿性和实际应用中的表现。例如,要考虑框架是否能够帮助加速AI生物计算的研发和应用,以及其与其他AI技术和系统的兼容性。
4. 利用现代科技如大数据、云计算等技术,可以帮助加速模型的训练和部署,从而解决上述挑战。例如,可以通过数据分析和机器学习算法来优化模型的训练过程,通过云计算和虚拟化技术来实现实时部署和管理。
5. 最后,要强调开源的精神和价值观,鼓励更多的开发者参与到大模型的开发和推广中来,共同推动人工智能的发展。