林达华分析了人工智能的大模型发展趋势,预期未来将有更高效率的架构出现。

2024-03-25 热点资讯 关注公众号

·大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。

上海人工智能实验室领军科学家林达华。

过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?

3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验室领军科学家林达华分享了对大模型的思考。他表示,大规模生产高质量数据是大模型研发机构的竞争力所在。当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但产业界和学术界在不断探索更加高效的架构,随着验证逐渐成功,未来它们会慢慢进入产业界,带来模型架构新的黄金期。

林达华表示,在大模型时代,技术演进有两股主要的驱动力量,一方面是研究人员对通用人工智能的追求和对尺度定律(Scaling Law)的信仰,从而不断突破边界,寻求接近通用人工智能的道路。另一方面,产业界也看到了大模型带来产业革命的可能性,无数企业投入了巨大资源。两股力量交织,促成了人工智能行业的迅猛发展。过去一年,人工智能领域所取得的技术突破远远超过了过去十年甚至几十年的突破和进展。

在模型架构方面,当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但林达华表示,这种架构的问题是对计算资源的消耗特别大,反观人脑的效率远高于主流大模型架构。人脑有大约100万亿个神经连接,远远超过现有大模型体量,但人脑的运行功率只有20瓦,而千亿参数模型的推理功率是它的百倍以上,处理的信息也更单一。

过去一年,产业界和学术界在不断探索更加高效的架构,其中MoE是宏观结构稀疏化的一种简单形态,经过良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。“但这仅仅是一个起点,未来还会有更加高效的稀疏模型结构出现。”林达华表示,这些架构现在还停留在学术研究阶段,但随着验证的逐渐成功,它们会慢慢进入产业界,从而带来模型架构新的黄金时期。

在训练数据方面,最初训练数据并不被认为是大模型训练最重要的要素。2022年,DeepMind的研究报告提到,模型的数据量要跟参数量同步增长,才能训练出最佳模式。“从那时候起,人们开始关注模型的数据。”林达华表示,去年一年,大模型的参数体量没有呈现指数级的增长速度,但无论是开源模型还是闭源模型,数据量增长了近一个数量级。

到去年中期,大家慢慢观察到数据质量扮演了越来越重要的角色,高质量数据对模型能力和模型天花板有重要的正面意义,“大规模生产高质量的数据是一个开放性的问题,也是大模型研发机构的竞争力所在。”林达华表示,好的数据要有多样性,单一数据对模型性能具有破坏性影响,“10%的带有重复模式的数据注入到训练集里,有可能会使得模型降级到原来1/2的体量。”

在多模态方面,多模态融合将成为重要技术趋势,但技术探索仍在路上。相比语言,多模态模型的训练多了一个重要维度,即图像和视频的分辨率对多模态模型最终的性能表现有重要影响。如果使用非常高的分辨率进行多模态的训练和推理,模型能够得到巨大提升,但高分辨率会带来高计算成本。“如何在高分辨率和合理计算成本之间取得最佳平衡,这为架构研究带来了很大的创新空间。”

在上下文方面,上下文长度快速增长。去年上半年,上下文基本处于4K水平。GBT-4突破到32K,今年3月,支持1M或更长上下文的模型出现。超长上下文解锁新应用,2K的上下文只能从事简单的聊天和短文分析;32K可以长时间对话,完成长文分析;上下文支持能力突破到1M时,就能阅读长篇小说,实现项目级的代码分析和构建。但超长上下文的推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。

在智能体方面,随着GPT-4的突破,智能体在去年成为领域内的一个关注方向。林达华表示,智能体并不是一个简单的流程化过程,它需要建立在一个非常坚实的基础模型上,具有很强的指令跟随能力、理解能力、反思能力和执行能力。

在计算环境方面,林达华表示,芯片进入到后摩尔定律时代,未来算力会变成体量的拓展,越来越多的芯片连接在一起,建成越来越大的计算中心,支撑对通用人工智能的追求。最终瓶颈不再是芯片,而是能源。现在,小规格的大语言模型已具备较强性能水平和实用可能性,优秀的模型越做越小,可以进入到手机直接运行。林达华表示,端侧算力快速增长,端侧即将迎来黄金增长期,云端协同将成为未来重要趋势。

2024全球开发者先锋大会大模型前沿论坛由全球开发者先锋大会组委会指导,上海人工智能实验室及上海市人工智能行业协会共同主办。首届书生·浦源大模型挑战赛(春季赛)于现场揭晓比赛结果,同时启动2024浦源大模型系列挑战赛(夏季赛)。


结论:
经过近年来的大规模生产和技术创新,我们已经看到了人工智能领域的许多关键突破和进步。例如,大规模生产高质量数据是大模型研发机构的核心竞争力,而大规模生产高质量数据的方式也在不断创新和发展。此外,机器学习中的多模态、超长上下文、智能体等领域的发展也取得了显著的进步。
建议:
1. 加强数据积累:为了推动人工智能的发展,我们需要更多的高质量数据来训练和测试我们的模型。
2. 推动算法创新:目前的技术手段存在一定的局限性,我们需要不断探索和改进现有的算法,以提高模型的性能和稳定性。
3. 深化技术研究:在解决大模型的问题时,我们需要深入研究理论和技术,以便找到更有效的解决方案。
4. 积极布局AI生态:建立完善的AI生态可以帮助我们将技术更好地应用于实际场景中,从而推动AI技术的发展。
5. 鼓励跨界合作:人工智能是一个跨学科的领域,需要各个领域的专家和人才共同努力,推动其快速发展。

上一篇:AI“复活”逝者引热议 数字生命需理性看待
下一篇:2024全球开发者先锋大会:虚拟世界“狂想曲” AI未来多久才来?
更多更酷的内容分享
猜你感兴趣
AI大模型的新纪元:未来的智能革命将以哪四个趋势引人注目?

AI大模型的新纪元:未来的智能革命将以哪四个趋势引人注目?

在人工智能浪潮下,大模型继续朝着万亿参数发展并推动多模态演进,形成了“多点开花”的生态图谱。同时,大模型也在寻求轻量化、高效化、垂直多元化的发展。但面临高昂投资和回报难题,大模型企业仍尝试通过卷应用留在牌桌上,这使得更多细分、专业的大模型应用不断涌现。当前,行业期待“AI超级或杀手级应用”。而 scaling law 预计未来 AI 应用将主要从云端向 PC、手机等端侧“下沉”。随着 Scale Law 的减缓,全球大模型企业正在加速研发性能更高的产品,以满足市场需求。

热点资讯 07.16
张亚勤:深度解析人工智能发展五大趋势与三大风险预警

张亚勤:深度解析人工智能发展五大趋势与三大风险预警

是数字化、智能化的一个重要组成部分。 2024年5月19日,在中国工程院院士、清华大学智能产业研究院院长张亚勤发表的演讲中,他回顾了大模型的主要技术趋势,并指出了信息、物理和生物世界带来的安全风险。他提出五种具体的建议来应对这些风险,包括提高模型的可控性、可解释性、可信度等。

热点资讯 05.20
揭秘人工智能纪元:深度学习的大模型之源、现状与未来发展

揭秘人工智能纪元:深度学习的大模型之源、现状与未来发展

"文章从多个角度对人工智能领域的最新进展进行了介绍。其中,特别提到了大模型在图像处理、音频处理、生理信号等数据模态中的优势。同时,文章还讨论了大模型面临的挑战,如偏见、隐私泄露等,并提出了一些解决方案。最后,文章指出,尽管大模型带来了许多便利,但也存在着一些问题,因此还需要继续研究和改进。"

热点资讯 10.13
PyTorch架构优化库torchao正式发布:提升AI模型效率的关键工具

PyTorch架构优化库torchao正式发布:提升AI模型效率的关键工具

PyTorch新公开的架构优化库torchao主要聚焦于量化和稀疏性的优化,这有助于提高模型的运行效率并降低内存消耗,提升AI模型性能。

热点资讯 10.02
三大股市大幅下跌,沪指失守3300点,美元指数上涨

三大股市大幅下跌,沪指失守3300点,美元指数上涨

周五三大指数集体低开,下午跳水。稀土永磁板块午后逆转拉升。中国有色工业协会呼吁稳定和发展创新稀土新材料,以维持高端应用并发展平衡利用。近涨停的细分领域龙头股被提供建议警惕潜在风险。

热点资讯 11.22
乒乓球总决赛:王楚钦“复仇”成功!3-1击败莫雷加德,晋级男单4强

乒乓球总决赛:王楚钦“复仇”成功!3-1击败莫雷加德,晋级男单4强

王楚钦复仇胜莫雷加德,爆点在两个关键点上:首先,王楚钦凭借出色的技术和强大的心理素质,成功逆转劣势;其次,他的正手弧圈球威力巨大,多次干扰对方的进攻。王楚钦即将在总决赛中对阵斯洛文尼亚选手达科,两人的对决将为球迷带来一场精彩的比赛。

热点资讯 11.22
14号文的深远影响:房地产行业未来走向如何?

14号文的深远影响:房地产行业未来走向如何?

房地产改革文件提出:未来20年内将影响全国房地产发展,首要解决两个问题,一是房价与民生捆绑的困境,二是财政收入与房产调控的矛盾。政府需要尊重市场规律、平衡各方利益,才能实现房地产市场的健康稳定发展。

热点资讯 11.22
全球亿万富翁李连杰罕见豪掷300亿助力慈善事业

全球亿万富翁李连杰罕见豪掷300亿助力慈善事业

韦尔股份创始人虞仁荣首次成为中国首善,浙江企业家低调捐300亿创建理工类研究型大学。

热点资讯 11.22
股市午后急挫,A股跳水的原因分析:市场波动的背后剖析

股市午后急挫,A股跳水的原因分析:市场波动的背后剖析

本文描述了一名投资者对于即将到来的股市波动做出的预测和解释。他预测11月22日会发生底部反弹,但在那一天股市果然发生了反转。他使用的趋势线和江恩角度线进行了分析,但是忽略了江恩的角度线。最后,他指出国家队的手臂可能会改变市场运行规律,这将导致股市跌破3300点并反弹至3460.7点。他认为基本面并不是决定股票走势的主要因素,而支撑点是用来预判变盘日期或作为左侧买入点。同时,他也提到金正恩关于朝鲜半岛核战争的声明可能会引发短期风险。总的来说,这篇文章试图解释股市的趋势和预期,并提醒投资者要保持警惕。

热点资讯 11.22
中国赏雪地图:小雪时节全国冰雪景观一览

中国赏雪地图:小雪时节全国冰雪景观一览

小雪时节,我国多地将迎来初雪,其中东北地区和西北大部地区尤为值得关注。此外,内蒙古乌兰察布也正在开展一场“冰雪之恋”,新疆阿勒泰则是上演了一场“冬季恋歌”。无论是东北的牡丹江还是吉林的长白山,都有着令人向往的雪景等待着游客欣赏。

热点资讯 11.22
特斯拉公司公布全新产品:定价约2-3万美元的Optimus和Robotaxi机器人/自动驾驶汽车即将上市!

特斯拉公司公布全新产品:定价约2-3万美元的Optimus和Robotaxi机器人/自动驾驶汽车即将上市!

特斯拉CEO埃隆·马斯克宣布推出两款机器人汽车售价分别为2万至3万美元,预计将在两年内发布;他还表示公司的目标是通过优化生产流程和提高产品质量来确保产品的价格与销量达到平衡,使得无人星舰飞往火星成为可能,并计划在未来的两年内实现这一目标。

热点资讯 11.22
轻薄易携,价值不菲——全新增加2T存储的16GMac mini仅售5000元!

轻薄易携,价值不菲——全新增加2T存储的16GMac mini仅售5000元!

苹果Mac mini最近发布并迅速火爆。作为性价比最高的Mac,其性能强大且设计精良,适合满足不同需求的用户。然而,Mac mini的使用门槛较高,主要体现在操作逻辑复杂和专向优化办公软件需付费等。对于预算有限且对电脑要求较高的用户来说,小雷建议选择价格更低、扩展更多、配置更强的迷你主机。最后,小雷以3600多元买了16G+256G版本的Mac mini,并分享了他的扩容实操过程。

热点资讯 11.22
华为星闪网关路由首次公开:星闪技术助阵,亮点值得关注

华为星闪网关路由首次公开:星闪技术助阵,亮点值得关注

对于这次华为将推出的一款新路由器——华为凌霄子母路由Q7网线版,可以概述为:此路由器首次将星闪连接技术集成到网关中,有望提升网络速率、抗干扰能力和覆盖范围。此外,它还可能支持Wi-Fi 7,实现更快的网络连接,并且有可能成为未来智能家居连接的主流技术,优化成本,提高兼容性。

热点资讯 11.22
阿里电商业务开启大缝合模式:挑战海外盈利困境,解决增速放缓问题

阿里电商业务开启大缝合模式:挑战海外盈利困境,解决增速放缓问题

阿里巴巴推出电商事业群,整合淘宝天猫集团、阿里国际数字商业集团等电商业务。现任阿里巴巴集团CEO吴泳铭宣布成立阿里巴巴电商事业群,将整合集团内所有电商业务,服务国内和全球消费者,帮助中小企业拓展市场。新渠道、新流量的不断涌现,使蒋凡面临与三年前截然不同的严峻形势。公司将通过整合集团内所有电商业务,服务国内和全球消费者,帮助中小企业拓展市场。蒋凡重新回到了淘宝天猫,站上了阿里电商的第一个C位。同时,他也将带领阿里海外电商摆脱亏损泥潭,让淘天恢复快速增长。

热点资讯 11.22