GPT-4、Gemini爆出大问题,逻辑推理彻底失败。

2024-02-27 热点资讯 关注公众号
    谷歌DeepMind和斯坦福大学的研究揭示了一个令人惊讶的现象:大型语言模型(LLM)的推理能力在很大程度上受到问题中前提条件呈现顺序的影响。最新研究发现,当这些前提按照逻辑推理过程中的自然顺序排列时,模型的表现最佳;然而,如果打乱这种顺序,则可能导致模型性能下降高达30%。
GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车    这一结论源于对数学和一般逻辑推理任务的深入分析。实验结果显示,在处理涉及多个步骤的证明或推理过程中,大模型遵循正确的前提顺序至关重要。当信息按逻辑顺序给出时,模型能更好地理解和应用规则进行正确推断。而当顺序被打乱时,即使对于简单的逻辑关系,如“如果A则B,如果B则C,A为真,所以C也为真”,LLM也可能因无法有效捕捉前提间的联系而导致表现显著下滑。
GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车    研究人员还特别创建了一个名为R-GSM的测试基准,通过调整GSM8K数学推理测试集中问题描述的前提顺序来进一步验证这一现象。他们发现在R-GSM测试集中,所有主流LLM的性能均有所下降,并且随着问题复杂度(如所需推理步骤数和无关干扰规则数量的增加)的提升,顺序效应带来的性能差距更为明显。
GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车    此外,研究人员观察到不同模型对前提顺序变化的敏感度各异,例如Gemini Pro和GPT-3.5-turbo在面对顺序打乱的问题时,准确率降幅可达40%以上。尽管人类在解决逻辑问题时也会有某种顺序偏好,但LLM对此类顺序效应的依赖性显然更强,这可能是由于自回归训练目标、训练数据偏差等因素导致的。
GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车    综上所述,尽管改变前提顺序并不影响问题的本质,但对于大语言模型而言,却会对它们在推理任务上的表现产生决定性影响。这一研究不仅揭示了当前LLM存在的局限性,也为未来优化模型推理能力和构建更具鲁棒性的AI系统提供了重要启示。
GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车

上一篇:G7发表声明,不许中俄合作,话音刚落,中俄商讨货币贷款
下一篇:卵巢癌一发现就是晚期?其实身体早就有信号,可能被你忽略了
更多更酷的内容分享
猜你感兴趣
资深网络编辑视角:底层逻辑解析,颠覆性解读

资深网络编辑视角:底层逻辑解析,颠覆性解读

央行、证监会、金融监管总局发布重大政策:增加货币供应;降准降息。这一举措旨在解决当前市场资金供应不足的问题,提高货币流通效率,并引导资本向实体经济流动。此外,这一系列措施还将对贷款利率和存款利率产生影响。通过优化资金结构,抑制房地产泡沫,促进经济健康发展。

热点资讯 09.24
清华大学与智谱发布大模型逻辑推理新基准,O1错误率仅为50%

清华大学与智谱发布大模型逻辑推理新基准,O1错误率仅为50%

to Evaluate Legal Reasoning Capabilities of Large Language Models”的标题发表在《计算机视觉与模式识别》杂志上。文章详细介绍了 LogicGame 测试的结果,并指出了大模型在基于规则的推理任务中存在的不足。此外,文章还探讨了如何有效评估和改进基于规则的大规模语言模型的推理能力和规划能力。

生活常识 10.16
揭秘小红书爆款笔记的底层运营逻辑:让你轻松复制大神经验

揭秘小红书爆款笔记的底层运营逻辑:让你轻松复制大神经验

更合适作为选题。通过分析热门话题,如美妆、美食、旅游、时尚等,以及它们的热点标签和用户讨论情况,找到符合目标用户需求并具有潜力的话题。 选题后,还要考虑内容的质量。文章应简洁明了,有深度和独特性,同时要有趣味性和可读性。文章内可以适当插入图片、视频、图表等元素,增加阅读体验。 此外,还需要注意互动性。高参与度的内容更容易引发共鸣,形成良好的社区氛围,有助于提升读者粘性和口碑传播。可以定期举办话题挑战或问答活动,鼓励用户积极参与讨论和分享。 最后,可以利用数据和分析结果优化选题策略。例如,根据已知用户兴趣、行为和喜好等因素,调整文章的主题和结构,使内容更具吸引力和价值。 总的来说,想要在小红书上获取到更多关注和互动,就需要精心策划和执行内容营销策略,不断优化选题和内容,打造出优质、有趣、互动的内容产品。

热点资讯 07.14
技术大爆发下的新挑战:GPT-4o在推理法律的极限挑战中的失利

技术大爆发下的新挑战:GPT-4o在推理法律的极限挑战中的失利

Epoch AI通过对比实验揭示出,单纯依靠增加推理计算并不能弥补模型在展望测试中的差距。研究人员进一步使用改良的方法尝试提高GPT-4o的输出token数量,以获得与O1类似的推理能力。该研究结果对AI的持续发展具有重要指导意义。

热点资讯 09.30
《山海经》中的独特妖怪:它们是如何出现在你的日本动漫世界里的?

《山海经》中的独特妖怪:它们是如何出现在你的日本动漫世界里的?

妖怪文化,日本只有一半;日本妖怪众多源自中国,一多半是虚构的。日本人民对妖怪的喜爱和敬仰从未改变,虽然世道更迭,妖怪故事依然深入人心。值得一提的是,九尾狐的故事在中国也有传世。

热点资讯 11.10
建议前往哪个怀旧服更适合舒适游玩——当前大服与小服选择指南

建议前往哪个怀旧服更适合舒适游玩——当前大服与小服选择指南

魔兽世界WLK怀旧服开放后的争议之一是哪个服务器最舒适。有些玩家认为大服(如吉安娜等热门服务器)更容易上手,而其他玩家则选择小服(如集合石野团)。然而,随着玩家人数增多和队伍组成不稳定性的增加,一些人开始质疑大服的价值。对于玩家来说,找到一个水平相近且少有人群的服务器是至关重要的。相比之下,小服(如集合石野团)的游戏体验更好,因为其队伍数量较少,队员中有经验丰富的,即使随机加入也能顺利通关。此外,通过观察各服的负载情况,G哥发现大多数服务器都需要中等规模的老服才能运行良好。因此,如果你的朋友正在寻找新服务器,他们可能会发现自己可以在这些老服务器找到不错的游戏体验。最后,值得注意的一件有趣的事情是,当某周某个团飞星时,如果没有参加,其他人可能不会感到失落。因为即使没有组队一起游玩,玩家们也熟知彼此,并愿意与他们共度欢乐时光。

热点资讯 11.10
陈一鸣:《陈情令》让我再次感受到成为世界冠军的荣耀!儿子,你知道我在说什么吗?

陈一鸣:《陈情令》让我再次感受到成为世界冠军的荣耀!儿子,你知道我在说什么吗?

Ning嘲讽王多多“并非懂游戏”,反遭Ning和父亲持续逼迫道歉,最后遭到Ning反呛:“你怎么知道我不爱学习?”引发热议。Ning表示想教导孩子成长之道,不想因为游戏成天窝在家里。

热点资讯 11.10
索尼董事长:年度发布大型单人游戏,引领游戏市场新趋势

索尼董事长:年度发布大型单人游戏,引领游戏市场新趋势

索尼互动娱乐(SIE)计划在未来几年每年推出大型单人游戏作品,并将持续拓展PC和移动端的游戏市场。这一战略决策将有助于提升玩家体验并推动业务增长。SIE的目标是为玩家带来更为沉浸式的游戏体验,并将坚持高品质的制作标准,提供艺术品般的视觉效果。目前,其两款旗舰级游戏《死亡搁浅2》和《羊蹄山之魂》都已经确定将在2025年发布。

热点资讯 11.10
邳州创业青年:用自己的创新梦想引领家乡青年的游戏产业之路

邳州创业青年:用自己的创新梦想引领家乡青年的游戏产业之路

00后高校新生凭借游戏直播事业闯出一片天,成为抖音游戏直播界的明星。他希望带动更多热爱游戏的待业青年一起创业,打造良性循环。

热点资讯 11.10
12个国际知名品牌缺席广州车展,但中国自主品牌的影响力不容小觑

12个国际知名品牌缺席广州车展,但中国自主品牌的影响力不容小觑

在第22届广州国际汽车展即将开幕之际,2024年缺席广州车展的有12家企业或品牌,包括捷达、雪佛兰、捷豹路虎、极星、斯巴鲁、捷尼赛思、高合、合创、启辰、远航汽车、大运新能源和劳斯莱斯等。新车品牌有东风英菲尼迪、一汽奔腾、东风风行、宝骏、翼真、212越野车、小米、极石、乐道。其中东风英菲尼迪、一汽奔腾、东风风行、宝骏仅在去年缺席,今年再度参展。新参展的品牌有:翼真、212越野车、小米、极石、乐道。

热点资讯 11.10
解密:在进博会上,深入解析丰田的三大关键词——创新、绿色和质量

解密:在进博会上,深入解析丰田的三大关键词——创新、绿色和质量

丰田以稳健的发展策略应对电动汽车、混合动力车及氢燃料电池车的研发,凭借其可靠的品质和布长远远的战略布局,在全球新能源汽车行业中占据领先地位。在2024年8月,丰田中国氢能事业总部成立,标志着丰田对清洁能源汽车行业的深度投入。丰田将继续在全球范围内推进新能源汽车的发展,为实现“双碳”目标贡献力量。

热点资讯 11.10
超值升级:2.0T沃尔沃SUV与同级豪华中大型车比一比,抄底选择

超值升级:2.0T沃尔沃SUV与同级豪华中大型车比一比,抄底选择

国产入门豪华SUV沃尔沃XC40降价至17万,最高优惠达11万,虽然动力弱但性价比高;宝马X1售价稳定在10万出头,凭借品牌力和丰富的配置,月销量依然只有三位数。此外,奔驰GLC、奥迪Q5等竞品也在不断调整价格策略,以抢占市场份额。

热点资讯 11.10
管涛:在内需不足的情况下,积极推行政策并非‘坏事’

管涛:在内需不足的情况下,积极推行政策并非‘坏事’

十四届全国人大常委会第十二次会议、美国2024总统大选、美联储利率决议、中国公布10月进出口、外汇和通胀数据将于本周陆续揭晓。其中,货币政策将产生明显效应,年内四季度可能会呈现一定的效果,尤其是购买力形成和逆回购。目前,中国经济面临一些不确定因素,包括外部环境变化和内部需求不足等,需要做好应对预案。随着信心指数整体回升,表明国内政策正在发挥作用,并有可能顺利实现今年和明年的经济增长目标。预计未来几个月,我国出口份额将继续上升,内需可能相对稳定。

热点资讯 11.10
3家公司前三季度净利润皆超18亿!A股最新排行榜:游戏股中青宝却遭遇亏损,股价涨势喜人

3家公司前三季度净利润皆超18亿!A股最新排行榜:游戏股中青宝却遭遇亏损,股价涨势喜人

这是一篇报道,详细讲述了30家A股上市游戏企业今年前三季度的营收情况。文章提到了四家公司的情况,分别是世纪华通、三七互娱和完美世界。其中,世纪华通以155.29亿元的营收居首,三七互娱以133.39亿元的营收紧随其后,完美世界则以45.14亿元的营收位列第三。此外,文章还提到游戏企业的研发支出情况,有三家公司的研发投入超过了10亿元,其中完美世界的研发支出最高,达到了13.86亿元,占比达到了34.03%。最后,文章也提及了这款游戏版号审批的数量和发放节奏,以及国内游戏市场的总体趋势。

热点资讯 11.10