罗格斯大学团队提出思想链，让大模型算术更强大！

2024-03-17 热点资讯关注公众号

：CoT概念革新大语言模型推理能力，显著提升复杂任务性能
罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

近日，美国罗格斯大学博士生金明宇及其团队在人工智能领域取得重大突破，他们通过引入思想链（CoT, Chain of Thought）这一创新概念，成功提升了大型语言模型（LLM）在解决复杂推理任务上的表现力，如算术推理、常识推理和符号推理等。
罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

    金明宇（见图），作为该研究的第一，与团队一同揭示了CoT的工作机制。CoT原理的核心在于通过提供逐步的推理过程示例，引导模型模拟人类解决问题的方式，细致拆解复杂问题，明确展示通往最终答案的每一步骤。这种方法有效地促使模型摒弃直接跳跃至结论的做法，转而采用有序且深入的理解与推断方式。
    相较于仅将输入映射到输出的传统指令追踪模型，CoT的独特之处在于它巧妙地融合了中间推理步骤于提示中，从而在涉及常识理解、算术运算和符号逻辑推理的任务上展现出了显著的性能提升。尤其值得注意的是，当模型参数量达到至少100亿级别时，CoT提示的效果开始凸显，而当模型参数达到1000亿时，其优势更为明显。
    然而，对于小型模型而言，尽管应用CoT，但并未能同等程度地提升其性能，往往产生看似流畅却缺乏逻辑性的推理链条，从而导致错误结果。研究还揭示了一个关键发现：大型模型的推理能力和所接受的推理步骤数量存在绝对的线性关系，即推理步骤越多，模型解答推理题或逻辑题的准确率越高。
    CoT借鉴人类思维模式，能够将复杂的推理任务拆解为一系列简单易处理的步骤，并引导模型按顺序逐一攻克难题。这种循序渐进的过程，在需要深度理解和精准解析的任务中尤为有效，例如算术、常识及符号推理等场景。
    此外，CoT揭示了模型推理能力和推理步骤数之间的正比关系，这意味着在设计提示时，若能增加推理步骤的数量，模型在完成推理或逻辑任务时的精确度也将随之提高。这不仅有助于标准化和优化提示的设计，更极大地增强了LLM在复杂推理任务中的表现力。
    尽管CoT带来了显著的性能改进，但也面临着一些挑战。如何平衡推理步骤的数量以避免对模型造成过载，以及保证提供的推理示例具备高质量与逻辑连贯性，是当前应用CoT过程中必须关注的问题。清晰、合理的推理步骤能让模型更好地学习并应用于新情境，同时也有利于人类理解和解释模型的推理路径。
    在相关研究中，团队进一步证实，随着推理步骤数量的增长，模型性能呈线性提升，填补了此前关于提示设计标准化方法缺失的问题。CoT框架的应用，使得创建高效提示成为可能，助力LLM轻松应对复杂的推理任务。
    CoT不仅能助力用户解决数学难题，还有望增强搜索引擎功能，使其不仅能提供答案，还能展示得出答案背后的逻辑推理过程，大大提升了用户体验。
    日前，该研究成果已发表在arXiv上，论文题目为《推理步长对大型语言模型的影响》。金明宇担任第一，美国新泽西理工学院的杜孟楠教授担任通讯（见论文插图）。
    金明宇表示，尽管CoT已经展现出显著效果，但仍需进一步探索其基本属性，以便为其他研究提供支持。团队计划未来深入探究LLM内部机制，分析长推理步骤与短推理步骤对大模型神经元活动的影响，并希望通过可视化技术揭示两者在激活模式上的差异。他们的长远目标是确定长推理步骤是否与更广泛的神经元参与有关，从而为推动AI推理能力的发展奠定坚实基础。

上一篇:梦到了兔子皮预示着什么
下一篇:女性疲劳隐藏了什么

更多更酷的内容分享

猜你感兴趣

女王大学团队研发AI基础模型评审团：提高AI研究效率的新路径

加拿大女王大学研究团队提出AI基础模型评审团方法，提升AI研究效率。该团队收集了来自17家顶尖科技公司的上千篇行业博客文章，创新性地使用基础模型进行自动分类和标注。通过对这些博客的研究，研究团队发现基础模型对软件工程的赋能以及软件工程原则如何应用于基础模型的开发和部署。该团队提出了未来研究的方向，以期推动学术界与业界的深度结合。在未来，该团队将持续升级基础模型陪审团方法，并期待与企业深度合作，推动基础模型在各个领域的广泛应用。

热点资讯 11.09

北大团队提出新方法，让GPT-4安全性提升超26%，堪称大模型的“安全补丁”。

对齐器，一种全新大语言模型对齐范式，因其模型轻量、训练高效及对大模型参数无感的特性，受到业界广泛关注。有望成为大模型对齐领域替代者，提供智能外挂与补丁，是AI安全与治理的有效手段，并为价值对齐提供执行路径。

热点资讯 03.10

清华大学与加州理工研究的强化学习技术：REST-MCTS，让大型模型持续提升

清华大学与加州理工学院联合研究团队提出了一种新的自训练方法——强化自训练方法 ReST-MCTS*，其通过树搜索 MCTS* 策略引导过程，并利用奖励信号进行验证和LLM自训练。该方法在相同搜索预算下，相比LLM推理基线实现了更高的准确率。虽然目前研究存在局限性，如需证明ReST-MCTS*可以推广到其他推理任务，但预计在未来将有助于价值模型和策略模型进行更好的自训练。同时，他们还将探索如何构建更有效的奖励模型来验证推理路径的正确性。关于研究结果的详细信息，请参阅腾讯混元大模型生成的全文。

生活常识 11.04

科学家推出新型算法，让现有大模型的微调效率得到显著提升

美国斯坦福大学研究团队推出了一种名为 ReFT 的方法，该方法通过训练干预模块对模型表征进行干预，实现更高效的微调效果。此方法基于线性子空间概念，在特定分词位置进行表征修改，节省计算资源并提高推理效率。最新研究表明，相关论文已将 ReFT 发表在预印网站 arXiv 上[1]。目前吴政璇和阿拉曼·阿罗拉是共同第一作者，该研究设计思路源于一次实验，最终研发出了 ReFT，有效解决了微调问题。需要注意的是，ReFT 是基于线性子空间概念，无需训练大量的模型参数。

生活常识 07.20

邓超新片《贤惠的媳妇、社恐的儿子、乖巧的女儿和叛逆的爸爸》:妻子的坚韧，儿子的勇敢，女儿的天真，父亲的不屈

邓超的新电影《胜券在握》将在全国上映，主演包括陈赫、王祖蓝、姚晨等明星。女主角孙俪带着一对儿女前来观看，并称赞邓超的表现。此外，电影圈内的多位导演和演员也对该片给予了高度评价。邓超的家庭观得到了众多影迷的认可，而他的敬业精神也让他备受赞扬。

热点资讯 11.10

沙白白的最新生活照曝光，朋友们纷纷解读错她的身份

沙白白的父亲早已做好了准备，并不得不接受女儿的离开。但是她始终保持着坚强和乐观的态度，选择了用自杀的方式来结束自己的生命。虽然这个消息让她的朋友们感到震惊和痛心，但是她们也接受了这个事实，并对沙白白表达了自己的理解和祝福。沙白白是一位美丽的女性，她的决定让人深感敬佩。同时，我们也应该尊重每个人的选择和决定，因为每个人都是独一无二的个体。

热点资讯 11.10

特殊双十一”——网络打假人收徒上课，单个付费几十至几千元

双十一临近，部分职业打假人迎来活跃期。他们通过收徒、卖课等方式谋取利益。职业打假人已衍出完整的产业链，在各大社交平台分享经验和技巧。但他们的风险很高，但高额的收益和模式化的操作仍然吸引了大量人员入坑。

热点资讯 11.10

安徽一幼师体罚学生，官方回应：教师被采取强制措施

安徽金安区阳光欧洲城爱贝贝幼儿园一名女教师虐童，被家长曝光并被采取强制措施。该事件引起广泛关注。监控录像显示，多名教师虐待孩子，包括抓住孩子衣襟、拖拽推搡、扇耳光、拧头发等。女教师的手法熟练，可能系园方招聘人员素质问题。

热点资讯 11.10

经济日报：近期存款挂牌利率跌破2%，影响如何？

国有大行宣布存款优惠，引发存款利率下降潮；中小银行纷纷跟进调降存款利率，大额存单利率也不例外；业内专家指出，存款利率持续下滑或促使投资者理性看待投资收益，并强调不应过分追求高收益而忽视风险控制。

热点资讯 11.10

英国男子巧用南瓜与连体衣成功越狱，被捕后仅用两天时间再归案

英国54岁男子亚伦·伍德企图越狱被捕，他在模仿植物人装扮之后被警方发现。警方正在审理其假释申请。

热点资讯 11.10

普京签署俄朝全面伙伴关系协定：开启新的合作篇章

俄罗斯与朝鲜签署战略伙伴关系协议，彰显了在面对外国侵略时的互帮互助。这份协议明确了双方将会提供军事和其他形式援助，同时坚决反对西方制裁，保障了自身的主权、安全等核心利益。俄罗斯外交官也强调，两国之间的合作无需对外泄露。

热点资讯 11.10

以色列公开视频：哈马斯对巴勒斯坦民众的残酷折磨巴勒斯坦人遭受虐待视频曝光：哈马斯对犹太人的严酷迫害以色列展示视频：哈马斯虐待巴勒斯坦平民事件曝光以色列再次播放巴勒斯坦纪录片：暴行揭示：哈马斯为何如此残忍对待民众揭露以色列残忍真相：哈马斯的虐待行为得到曝光

以色列军方公开了哈马斯对巴勒斯坦平民的残酷拷问过程，包括使用长棍和电击等工具虐待囚犯。这个视频的发现标志着以色列自2007年来持续对加沙地区的长期压制和残酷行为的延续。该事件引起了国际社会的关注，并引发了对人权状况的质疑。哈马斯控制下的加沙地区已经存在了很长时间，很多巴勒斯坦人在这种环境下饱受折磨。面对这样的情况，许多国家呼吁和平解决争端，停止暴力行为。

热点资讯 11.10

托卡耶夫宣布计划，在普京访问前派遣总理访华，并减小对俄的依赖性

国家也会受到制裁的影响。因此，哈萨克斯坦一方面希望摆脱对俄罗斯的依赖，另一方面又不得不面对这些挑战。因此，我们可以说，尽管这是普京的一次重要出访，但对于哈萨克斯坦而言，这不仅仅是一个商业活动，更是一种政治策略。

热点资讯 11.10

艾泽拉斯的神秘面纱：与肯瑞托法师一起告别达拉然的新征程！

城”中，玩家完成了“肯瑞托的命运”任务线。在第一阶段，玩家与卡德加一起找到艾萨斯，并协助他完成奥术荒原的任务线。在第二阶段，玩家与卡雷苟斯一起寻找失落的达拉然魔法物品，同时解决卡雷苟斯提出的疑问。在第三阶段，玩家前往阿兹卡赫特处理魔法物品，并最终完成了“告别，魔城”的任务线。

热点资讯 11.10