林达华说:“国内的大模型和GPT-4之间,高考数学的最后一题的区别。”

2024-03-25 生活常识 关注公众号

国内头部大语言模型与ChatGPT、GPT-4相比,孰强孰弱?多模态大模型的技术发展趋势是什么?昨天(3月24日)举行的2024全球开发者先锋大会·大模型前沿论坛上,上海人工智能实验室领军科学家林达华、复旦大学计算机科学技术学院教授邱锡鹏发表了主旨演讲。

林达华说,大模型评测体系“司南”(OpenCompass2.0)显示,国内排名前列的大模型在主客观表现上都超过了GPT-3.5(ChatGPT的基座模型),但是与GPT-4还存在差距,主要表现在推理能力上。“高考数学的最后一道大题,需要考生有出色的推理能力。我们和GPT-4的最大差距,可以说就是高考数学的最后一题。”

归纳推理能力不足是最大短板

去年3月,OpenAI发布GPT-4。这是GPT大模型的一次重要升级,其推理能力显著提升,并支持32K上下文输入和理解。一年后的今天,全球大语言模型呈现什么发展格局?林达华概括为:OpenAI引领技术潮流,谷歌紧紧追赶,Claude异军突起;上下文理解、推理能力、更高效的模型架构是技术探索的重点方向;轻量级模型崭露头角;开源模型快速进步,开放生态已成气候。

推理能力高下,是国内头部大模型与GPT-4的最大差距所在。评测显示,从小学算术到初中数学,再到高中和大学数学,随着年级提升,国内外多个重量级、轻量级模型的答题成绩明显下降;到了大学阶段,GPT-4的成绩虽然也不是很高,但与其他模型相比,还是有明显优势。

林达华教授在大模型前沿论坛上演讲。

林达华介绍,推理能力可分为常识推理、演绎推理、归纳推理三类,其中归纳推理是GPT-4优势最明显的一种能力。“符号‘->’代表一个简单的数学运算。962-85->881;242-495->-249;355-890->?”这道数学题考的就是归纳推理能力。目前,国内大模型做中考数学、高考数学最后一题时,如果遇到没训练过的题型,正确率就很低,暴露出归纳推理能力不足的短板。

在追赶GPT-4的道路上,提升训练数据的质量和多样性是首要任务。“数据是模型的生命线,是模型研发团队要首先关注的事。”林达华说,“规模、质量和多样性是训练数据的三个要素。”在数据质量方面,增强数据的知识密度,能带来更高的训练效率,而低质量数据对模型可能产生破坏性影响。在数据多样性方面,好的数据集是非常多样化的,它们均衡分布在足够大的语义空间中。与这类数据集相比,互联网语料数据的语义空间分布极不均匀,存在大量低水平重复的语言模式。如果用它们训练模型,研发团队要采用合理的重采样策略,这样能大幅降低其负面影响。

大模型前沿论坛吸引了众多与会者。

内生多模态模型催生“新玩法”

在大模型技术探索的各个方向中,文本、图像、视频等多模态融合是重要趋势。文生视频大模型Sora的惊艳亮相,已体现出多模态融合的广阔应用前景。在这一领域,邱锡鹏带领团队做了大量前瞻性研究。他在演讲中向与会者介绍了AnyGPT这款自主研发的多模态语言模型。

AnyGPT之所以名为Any(任何),是指它能以任意的模态组合来理解、推理各种模态的。用户输入文本、语音、图像、音乐等多种模态交织的指令后,它会熟练地选择合适的多模态组合进行响应。

例如,上传世界名画《跨越阿尔卑斯山圣伯纳隘口的拿破仑》的图片文件后,要求AnyGPT“为这幅画创作一段背景音乐”,它生成了三段音乐。前两段节奏急促,像是急行军配乐,与拿破仑骑马征战的画面比较符合;第三段有进行曲的味道,其雄壮之风也与拿破仑形象契合。

邱锡鹏教授在大模型前沿论坛上演讲。

这个大模型为何能在各种模态之间自由切换?邱锡鹏解释,文本与语音、音乐、图像的最大区别是,文本是离散信号模态,而语音、音乐和图像是连续信号模态,所以要让语言模型理解连续信号模态,必须把它们转化为离散信号模态。为此,科研团队提出一个可以统一训练的综合框架,它由多模态Tokenizer(分词器)、作为主干网络的多模态语言模型和多模态De-tokenizer(连接器)等三个主要组件组成。其中,Tokenizer将连续的非文本模态转换为离散的token,然后将它们排列成多模态交错序列,用于语言模型的统一训练。

“这是一种内生的多模态转换,不需要调用插件。”邱锡鹏说。在他看来,内生多模态大模型问世后,将在应用领域催生很多“新的玩法”,也将为“具身智能”机器人提供更智慧的大脑。因为现实世界是多模态的,机器人要像人那样通过视觉、语言、声音和触觉感知外部世界,才能获得“具身智能”,从而在更多的应用场景中成为人类的好伙伴。


综上所述,国内头部大语言模型与ChatGPT、GPT-4相比,在推断能力上有一定的差距。在推进大模型技术创新的过程中,关键在于提升训练数据的质量和多样性,以及优化多模态融合的算法。
随着技术的发展,各大语言模型都在积极探索和发展不同类型的模型,如基于图神经网络的语言模型、基于注意力机制的语言模型等。这些模型各有特色,能够满足不同的应用场景需求。
同时,还需要注重伦理问题,比如在推广多模态技术的同时,也要考虑如何保障用户的隐私权和数据安全。
在未来,我们应该更加关注大模型技术的研究和发展,期待看到更多具有创新性和实用性的新成果。

上一篇:什么是肠道菌群?它在默默守护你的身体健康
下一篇:他杀害父亲,夺取节度使之位,后来为何弃官出家为僧?
更多更酷的内容分享
猜你感兴趣
国产九章大模型PK国际GPT-4:高考数学答题实力对比分析

国产九章大模型PK国际GPT-4:高考数学答题实力对比分析

20道,其中九章大模型选对12题,正确率高达70%,做对的题中有6题来自九章大模型,GPT-4o也成功答对了12题,正确率为70%。总体来说,九章大模型的表现优于GPT-4o。然而,这个分数并不能反映出大模型在所有题目上的表现,因为有些题目可能对大模型的要求更高,或者答题方式不同。 考试中,九章大模型首先选择了12道题目,然后通过图像识别技术帮助它完成数学解答题。GPT-4o虽然在一些简单题目上有较好的表现,但是在复杂的题目上则显得力不从心。总体而言,九章大模型在数学题目上的表现明显高于GPT-4o,但也还有提升的空间。大模型在未来的发展中,应该继续在各种复杂的问题上挑战自我,发挥更大的作用。

热点资讯 06.10
新一代大模型即将问世:GPT-3与GPT-4的全新升级及潜力解析

新一代大模型即将问世:GPT-3与GPT-4的全新升级及潜力解析

"米拉·穆拉蒂透露,将在一年半后发布"博士生水平"的人工智能,这标志着GPT-5将在一年半后发布,而在某些领域将超过人类。相比之下,Claude 3.5 Sonnet在研究生级推理、本科级知识和编码能力方面已刷新了SOTA,被宣布为史上最智能模型。这个模型打破了现有纪录,使得普通博士在GPQA上的得分为34%,领域内专业博士的得分为65%,而Claude 3.5 Sonnet无疑已经超越了他们。此外,主持人为这个问题提出了一个假设性的问答。"

热点资讯 06.27
大规模互联网数据集挑战大模型:GPT-4、Claude3以及LeCun的表现如何?

大规模互联网数据集挑战大模型:GPT-4、Claude3以及LeCun的表现如何?

是因为大模型的训练数据并不包含逻辑学中的经典动物过河问题。因此,即使有相关的算法和技巧,它们仍然可能无法准确解决这个问题。

生活常识 06.26
林达华分析了人工智能的大模型发展趋势,预期未来将有更高效率的架构出现。

林达华分析了人工智能的大模型发展趋势,预期未来将有更高效率的架构出现。

上海人工智能实验室领军科学家林达华分享了对大模型的看法,并提出两种驱动力推动人工智能发展的观点:一是研究人员追求通用人工智能的信念以及对尺度定律(Scaling Law)的信仰;二是产业界看到大模型带来的产业革命可能性,投入大量资源。他认为当前主流的大模型存在计算资源消耗大的问题,但人类大脑具有优势。此外,还有其他高效的大模型结构正在研究中。

热点资讯 03.25
旺仔牛奶异物检测结果曝光:厂家已取走,具体情况我们将会跟进

旺仔牛奶异物检测结果曝光:厂家已取走,具体情况我们将会跟进

近日,有人在旺仔牛奶中发现黑色异物,怀疑是老鼠。南都记者和旺旺集团首席营运官均对事件进行了回应,称消费者可以提出索赔,并表示已经采取措施防止类似情况再次发生。

生活常识 11.23
杭州市监局紧急回应:农夫山泉纯净水疑似含有有害物质,需立即停止销售并召回产品

杭州市监局紧急回应:农夫山泉纯净水疑似含有有害物质,需立即停止销售并召回产品

期饮用该产品会对身体产生不利影响的情况下,为何没有采取有效的限购措施避免消费者长期饮用? 根据你提供的信息,可以概括出以下几点: 1. 消费者投诉农夫山泉绿瓶装纯净水可能存在危害公众健康的问题。 2. 钟睒睒表示农夫山泉绿瓶装纯净水不存在不利于健康的因素,但仍然可能对消费者造成不良影响。 3. 目前农夫山泉绿瓶装纯净水在生产和销售过程中的具体情况并未充分披露。 4. 钟睒睒称该产品有可能对消费者身体健康构成威胁,并建议消费者谨慎购买和饮用。 综上所述,消费者反映农夫山泉绿瓶装纯净水存在潜在危害健康的风险,希望有关部门对此进行调查核实。

生活常识 11.23
神秘阿坝州新宠:聪明老实的狐狸突然凶猛霸道,颠覆人们对狐狸的认知

神秘阿坝州新宠:聪明老实的狐狸突然凶猛霸道,颠覆人们对狐狸的认知

藏狐是一种奇特的狐狸,它们貌态各异,或是灵活可爱的,在藏区受到广泛关注。如今,四川阿坝州若尔盖湿地有一只藏狐的身影吸引了摄影爱好者的眼球,其独特的面部特征和憨态可掬的行为引起了众多网友的关注。

生活常识 11.23
欧洲暴雪可能传至中国!最新预测:至少4省份受雪灾影响

欧洲暴雪可能传至中国!最新预测:至少4省份受雪灾影响

林等地未来三天降雪量将超过30厘米。这次欧洲大范围的降雪可能会影响到我国大部分地区,特别是新疆北部和中部地区会受到较大影响。其中,东北地区可能会出现强降雪天气,降温幅度将达到15-20摄氏度。超级计算机模型显示,通辽、兴安盟、大兴安岭山区等地区未来三天降雪量将持续增加,未来几天天气变化十分明显。此次冷空气南下将进一步加强暖气团活动,带来更为严重的天气变化。

生活常识 11.23
关注:下半年最大范围寒潮风暴即将到来,广东福建等地不容小觑降温威胁

关注:下半年最大范围寒潮风暴即将到来,广东福建等地不容小觑降温威胁

新疆北部有暴雪降临,乌鲁木齐等多地降雪;东北太平洋有炸弹气旋袭击加拿大西部和美国西北部沿海。冬季即将到来,预计多地气温将持续下降。

生活常识 11.23
老人毅然决然,拯救孩子于水中:76岁高龄救人记

老人毅然决然,拯救孩子于水中:76岁高龄救人记

湖南新化男子跳水救溺儿致自己受伤 家长送现金表示感谢。

生活常识 11.23
17年后,西安男子找回家的孩子认亲,家长开启‘寻子店’并展示自家儿子的照片

17年寻子路:父母亲手翻出儿子照片,只为让孩子在新家中找到亲人

被拐多年的陕西孩子:父母引路人成功认领,全家团圆迎新颜

17年后,西安男子找回家的孩子认亲,家长开启‘寻子店’并展示自家儿子的照片 17年寻子路:父母亲手翻出儿子照片,只为让孩子在新家中找到亲人 被拐多年的陕西孩子:父母引路人成功认领,全家团圆迎新颜

已经被她带走了。 事件起因是卢某某和的女儿卢某某被拐走,事件的关注点是嫌疑人以熟人身份将孩子拐走。经过警方利用“人像识别”技术,成功侦破了3起拐卖儿童积案,目前两名犯罪嫌疑人已经被刑事拘留,案件正在进一步侦办中。这个事件引起了公众的高度关注,家长为了寻找孩子的归途,通过散发照片的方式在店铺门头挂上了嫌疑人画像,并将其命名为“寻子店”。最后,在警方的帮助下,三名被拐的孩子得以团圆,他们表示自己是从一个熟人手中被带走的。

生活常识 11.23
冬天如何养藏?冷水洗脸是冬季养生的好方法,了解你的保养方式!

冬天如何养藏?冷水洗脸是冬季养生的好方法,了解你的保养方式!

专家认为,冬天是养护阳气、防止疾病的重要时期。具体措施包括早睡晚起,保护阳气,锻炼身体,调整饮食习惯等。其中,要注意不妄劳作和过度出汗的问题,以防耗伤津液和损伤阳气。同时,冬季天气寒冷,易导致情绪低落,可以通过冥想、听音乐、阅读等方式缓解。最后,饮食上要合理搭配,以温平补的食物为主,增加黑色食物摄入,以抵御寒冷。

生活常识 11.22
山东19批次食品抽检不合格:芝麻酱、酱驴肉及碳酸饮料

山东19批次食品抽检不合格:芝麻酱、酱驴肉及碳酸饮料

山东省市场监管局对19批次食品进行了监督抽检,其中8大类食品有7批次不合格,包括农药残留超标、食品添加剂超范围超限量使用、质量指标不达标等。

生活常识 11.22
高龄心理压力与应对策略:让你在48.3岁时不再低谷

高龄心理压力与应对策略:让你在48.3岁时不再低谷

48.3岁的人生低谷在全球普遍存在,许多人在此年龄段感到生活不如意和幸福感下降;中年人面临的健康危机包括抑郁症和压力相关疾病,其中45~54岁人群的患病率最高;张侃建议中年人要关注身体健康,并注重心理调节和提升生活质量。

生活常识 11.22