林达华说:“国内的大模型和GPT-4之间,高考数学的最后一题的区别。”

2024-03-25 生活常识 关注公众号

国内头部大语言模型与ChatGPT、GPT-4相比,孰强孰弱?多模态大模型的技术发展趋势是什么?昨天(3月24日)举行的2024全球开发者先锋大会·大模型前沿论坛上,上海人工智能实验室领军科学家林达华、复旦大学计算机科学技术学院教授邱锡鹏发表了主旨演讲。

林达华说,大模型评测体系“司南”(OpenCompass2.0)显示,国内排名前列的大模型在主客观表现上都超过了GPT-3.5(ChatGPT的基座模型),但是与GPT-4还存在差距,主要表现在推理能力上。“高考数学的最后一道大题,需要考生有出色的推理能力。我们和GPT-4的最大差距,可以说就是高考数学的最后一题。”

归纳推理能力不足是最大短板

去年3月,OpenAI发布GPT-4。这是GPT大模型的一次重要升级,其推理能力显著提升,并支持32K上下文输入和理解。一年后的今天,全球大语言模型呈现什么发展格局?林达华概括为:OpenAI引领技术潮流,谷歌紧紧追赶,Claude异军突起;上下文理解、推理能力、更高效的模型架构是技术探索的重点方向;轻量级模型崭露头角;开源模型快速进步,开放生态已成气候。

推理能力高下,是国内头部大模型与GPT-4的最大差距所在。评测显示,从小学算术到初中数学,再到高中和大学数学,随着年级提升,国内外多个重量级、轻量级模型的答题成绩明显下降;到了大学阶段,GPT-4的成绩虽然也不是很高,但与其他模型相比,还是有明显优势。

林达华教授在大模型前沿论坛上演讲。

林达华介绍,推理能力可分为常识推理、演绎推理、归纳推理三类,其中归纳推理是GPT-4优势最明显的一种能力。“符号‘->’代表一个简单的数学运算。962-85->881;242-495->-249;355-890->?”这道数学题考的就是归纳推理能力。目前,国内大模型做中考数学、高考数学最后一题时,如果遇到没训练过的题型,正确率就很低,暴露出归纳推理能力不足的短板。

在追赶GPT-4的道路上,提升训练数据的质量和多样性是首要任务。“数据是模型的生命线,是模型研发团队要首先关注的事。”林达华说,“规模、质量和多样性是训练数据的三个要素。”在数据质量方面,增强数据的知识密度,能带来更高的训练效率,而低质量数据对模型可能产生破坏性影响。在数据多样性方面,好的数据集是非常多样化的,它们均衡分布在足够大的语义空间中。与这类数据集相比,互联网语料数据的语义空间分布极不均匀,存在大量低水平重复的语言模式。如果用它们训练模型,研发团队要采用合理的重采样策略,这样能大幅降低其负面影响。

大模型前沿论坛吸引了众多与会者。

内生多模态模型催生“新玩法”

在大模型技术探索的各个方向中,文本、图像、视频等多模态融合是重要趋势。文生视频大模型Sora的惊艳亮相,已体现出多模态融合的广阔应用前景。在这一领域,邱锡鹏带领团队做了大量前瞻性研究。他在演讲中向与会者介绍了AnyGPT这款自主研发的多模态语言模型。

AnyGPT之所以名为Any(任何),是指它能以任意的模态组合来理解、推理各种模态的。用户输入文本、语音、图像、音乐等多种模态交织的指令后,它会熟练地选择合适的多模态组合进行响应。

例如,上传世界名画《跨越阿尔卑斯山圣伯纳隘口的拿破仑》的图片文件后,要求AnyGPT“为这幅画创作一段背景音乐”,它生成了三段音乐。前两段节奏急促,像是急行军配乐,与拿破仑骑马征战的画面比较符合;第三段有进行曲的味道,其雄壮之风也与拿破仑形象契合。

邱锡鹏教授在大模型前沿论坛上演讲。

这个大模型为何能在各种模态之间自由切换?邱锡鹏解释,文本与语音、音乐、图像的最大区别是,文本是离散信号模态,而语音、音乐和图像是连续信号模态,所以要让语言模型理解连续信号模态,必须把它们转化为离散信号模态。为此,科研团队提出一个可以统一训练的综合框架,它由多模态Tokenizer(分词器)、作为主干网络的多模态语言模型和多模态De-tokenizer(连接器)等三个主要组件组成。其中,Tokenizer将连续的非文本模态转换为离散的token,然后将它们排列成多模态交错序列,用于语言模型的统一训练。

“这是一种内生的多模态转换,不需要调用插件。”邱锡鹏说。在他看来,内生多模态大模型问世后,将在应用领域催生很多“新的玩法”,也将为“具身智能”机器人提供更智慧的大脑。因为现实世界是多模态的,机器人要像人那样通过视觉、语言、声音和触觉感知外部世界,才能获得“具身智能”,从而在更多的应用场景中成为人类的好伙伴。


综上所述,国内头部大语言模型与ChatGPT、GPT-4相比,在推断能力上有一定的差距。在推进大模型技术创新的过程中,关键在于提升训练数据的质量和多样性,以及优化多模态融合的算法。
随着技术的发展,各大语言模型都在积极探索和发展不同类型的模型,如基于图神经网络的语言模型、基于注意力机制的语言模型等。这些模型各有特色,能够满足不同的应用场景需求。
同时,还需要注重伦理问题,比如在推广多模态技术的同时,也要考虑如何保障用户的隐私权和数据安全。
在未来,我们应该更加关注大模型技术的研究和发展,期待看到更多具有创新性和实用性的新成果。

上一篇:什么是肠道菌群?它在默默守护你的身体健康
下一篇:他杀害父亲,夺取节度使之位,后来为何弃官出家为僧?
更多更酷的内容分享
猜你感兴趣
国产九章大模型PK国际GPT-4:高考数学答题实力对比分析

国产九章大模型PK国际GPT-4:高考数学答题实力对比分析

20道,其中九章大模型选对12题,正确率高达70%,做对的题中有6题来自九章大模型,GPT-4o也成功答对了12题,正确率为70%。总体来说,九章大模型的表现优于GPT-4o。然而,这个分数并不能反映出大模型在所有题目上的表现,因为有些题目可能对大模型的要求更高,或者答题方式不同。 考试中,九章大模型首先选择了12道题目,然后通过图像识别技术帮助它完成数学解答题。GPT-4o虽然在一些简单题目上有较好的表现,但是在复杂的题目上则显得力不从心。总体而言,九章大模型在数学题目上的表现明显高于GPT-4o,但也还有提升的空间。大模型在未来的发展中,应该继续在各种复杂的问题上挑战自我,发挥更大的作用。

热点资讯 06.10
新一代大模型即将问世:GPT-3与GPT-4的全新升级及潜力解析

新一代大模型即将问世:GPT-3与GPT-4的全新升级及潜力解析

"米拉·穆拉蒂透露,将在一年半后发布"博士生水平"的人工智能,这标志着GPT-5将在一年半后发布,而在某些领域将超过人类。相比之下,Claude 3.5 Sonnet在研究生级推理、本科级知识和编码能力方面已刷新了SOTA,被宣布为史上最智能模型。这个模型打破了现有纪录,使得普通博士在GPQA上的得分为34%,领域内专业博士的得分为65%,而Claude 3.5 Sonnet无疑已经超越了他们。此外,主持人为这个问题提出了一个假设性的问答。"

热点资讯 06.27
大规模互联网数据集挑战大模型:GPT-4、Claude3以及LeCun的表现如何?

大规模互联网数据集挑战大模型:GPT-4、Claude3以及LeCun的表现如何?

是因为大模型的训练数据并不包含逻辑学中的经典动物过河问题。因此,即使有相关的算法和技巧,它们仍然可能无法准确解决这个问题。

生活常识 06.26
林达华分析了人工智能的大模型发展趋势,预期未来将有更高效率的架构出现。

林达华分析了人工智能的大模型发展趋势,预期未来将有更高效率的架构出现。

上海人工智能实验室领军科学家林达华分享了对大模型的看法,并提出两种驱动力推动人工智能发展的观点:一是研究人员追求通用人工智能的信念以及对尺度定律(Scaling Law)的信仰;二是产业界看到大模型带来的产业革命可能性,投入大量资源。他认为当前主流的大模型存在计算资源消耗大的问题,但人类大脑具有优势。此外,还有其他高效的大模型结构正在研究中。

热点资讯 03.25
策略应对:解决父母间育儿分歧的高效方法

策略应对:解决父母间育儿分歧的高效方法

度达成共识。 专家建议,在面对父母育儿分歧时,首先要保持理性和开放的心态,尽量理解对方的出发点和考虑角度,而不要仅仅坚持自己的看法。其次,可以在双方的观点冲突中寻找积极的因素,鼓励孩子参与到决策的过程中来,这样既能锻炼孩子的批判思维能力,也能增强他们解决问题的能力。最后,父母应尽可能多地了解和尊重孩子的想法,避免过于主观和固执的育儿观对孩子的影响。

生活常识 11.10
疾控专家:已传染3个班的小学紧急停课,病因待解

疾控专家:已传染3个班的小学紧急停课,病因待解

诺如病毒感染进入高发期,多地频发婴儿、老人腹泻需及时就医。

生活常识 11.10
冬季养藏:适应天时,增强正气,提升网络素养

冬季养藏:适应天时,增强正气,提升网络素养

平静,隐藏一些私欲,如果有得到,这就是内心的安静。从这个角度来说,我们在冬季应当保持心境平和,避免过度激动或抑郁,这样可以帮助身体更好地适应冬季环境和提高免疫力。同时,也可以适当地进行一些调节心情的活动,比如阅读、冥想等。

生活常识 11.10
国家医保局详解检验费用降价原因与要求,呼吁保护医护人员的劳动成果!

国家医保局详解检验费用降价原因与要求,呼吁保护医护人员的劳动成果!

国家医保局回应检验价格调整问题,明确4个首批试点项目及其背后成本考量。部分地区已有上调趋势,部分省市率先实行。专家建议,相关部门需继续制定政策平衡各方利益,减轻民众就医负担。

生活常识 11.10
未料疏忽教育方式导致卵巢提前衰老:36岁妈妈怒斥孩子做作业

未料疏忽教育方式导致卵巢提前衰老:36岁妈妈怒斥孩子做作业

汪女士由于辅导孩子作业频次较高而与家人争吵并被诊断为卵巢早衰,引起了她情绪不稳定。经过一段时间的治疗和调整,她已经明显的改善了情绪状态。 需要注意的是,卵巢早衰并非所有女性都会患上,它可能与各种因素有关,如生活习惯、遗传、荷尔蒙失衡等。因此,对于这类情况,应及时就医,避免延误病情。

生活常识 11.10
闵杰教授:探索科学之路,用热情和毅力追求真实结果;细胞Press全球荣誉,展示科学家们不懈的努力与成果

闵杰教授:探索科学之路,用热情和毅力追求真实结果;细胞Press全球荣誉,展示科学家们不懈的努力与成果

勇于挑战已知的知识,追求真理。 关键词:科学创新;闵杰;武汉大学高等研究院教授;有机太阳能电池稳定性;Cell Press细胞出版社;全球科学50人(50 Scientists that Inspire)。

生活常识 11.10
关于在重要刊物上发表论文的错误修正经验:记述与借鉴

关于在重要刊物上发表论文的错误修正经验:记述与借鉴

中国科学家首次独立测定并发表了中国首个大分子量蛋白质——天花粉蛋白。但在1985年的上海会议上,由于缺少对天花粉蛋白结构的精确测定,导致了一处遗漏,导致该蛋白质的一级结构中的一小段出现差错。这引起了包括美国在内的学者的关注。汪猷院士对此表示十分重视,并最终与期刊编辑部联系,公开承认了自己的错误,并主动承担责任。经过与同事的反复核实,汪猷确认了自己研究的结果,并在其科学论文中进行了修正。此后,他一直以严谨的态度对待每一项课题,对自己的负责,从路线设计到数据分析,再到写成论文或实际应用,都严格要求自己。最终,他的这一举动不仅纠正了错误,还赢得了科研界的高度认可。

生活常识 11.10
科学家领导:掌握未来,从这十位年轻人才开始

科学家领导:掌握未来,从这十位年轻人才开始

发了一系列利用CRISPR-Cas9技术制备的癌症疗法,并且取得了一些突破性的进展。 首先,我们来看看Alexis Komor博士的成功研发。他成功开发了一个碱基编辑器,这标志着该领域的一个重要里程碑。此外,他的这项工作也推动了碱基编辑技术在临床研究中的应用。 然后是 Jonathan Gootenberg博士和Omar Abudayyeh博士的工作。他们发现了两种名为Cas13和Cas7-11的酶,这种新的发现可以为免疫疗法领域和设计更安全的CRISPR系统提供新的可能性。 最后, Patrick Hsu博士的工作则带来了另一种新的治疗途径。他发现了CasRx,这是一种靶向RNA的CRISPR酶,这意味着它可以直接作用于RNA剪接错误引发的疾病。 总的来说,这些年轻科学家的研究为基因编辑技术和CRISPR系统的进步做出了巨大的贡献。他们的工作正在推动我们走向一个更加美好的未来。

生活常识 11.10
中国最壮观的三座咸水湖:青海湖、色林错与纳木错

中国最壮观的三座咸水湖:青海湖、色林错与纳木错

湖发育形成的断裂构造带,这些地势较低的断裂凹陷盆地和洼地汇集周围的水,形成了咸水湖。我国最大的咸水湖是位于北美洲的苏必利尔湖,总面积约为8.24万平方千米。我国最大咸水湖为位于亚洲中部的里海,总面积约为37.1万平方千米,相当于两个湖北省的面积。中国湖泊分布图显示,我国湖泊主要分布在青藏高原和东部平原两大湖泊分布区。

生活常识 11.10
享受夏日甜蜜,莲藕抓紧时机,美味又健康

享受夏日甜蜜,莲藕抓紧时机,美味又健康

我国莲藕种类繁多,口味多样。炸藕盒、莲藕排骨汤等是人们常食之物。其营养价值高,含碳水化合物、膳食纤维、蛋白质、维生素C和矿物质钾等。因其富含不溶性膳食纤维和较高的钾含量,故不宜将其作为主食食用。尽管如此,其富含的维生素C仍对人体有益。不过,烹饪会影响其维生素C的保留率。

生活常识 11.10