LLaMA-2-7B数学能力逼近满分,Xwin-Math用合成数据释放潜力!

2024-03-17 热点资讯 关注公众号
    【机器之心专栏】
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    合成数据革新大模型的数学推理能力边界!
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    近日,一项颠覆性研究由Swin-Transformer团队携手西安交通大学、中国科学技术大学、清华大学以及微软亚洲研究院共同完成,并以《普通7B规模语言模型已展现强大数学能力》为题在arXiv上发布。该研究表明,即使未经大规模数学相关预训练的70亿参数通用预训练模型LLaMA-2-7B,在数学问题解决方面也隐藏着惊人的潜力。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    研究团队首先仅采用7.5K数据对LLaMA-2-7B进行指令微调,随后在GSM8K和MATH基准测试中对其进行评估。实验结果显示,当从256个生成的答案中选出最优答案时,模型在两个测试集上的准确率分别高达97.7%和72.0%,这一突破性结果挑战了以往认为只有超大规模或专业数学预训练模型才具备出色数学推理能力的观点。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    然而,研究人员揭示了一个关键问题:尽管模型具有强大的数学推理潜力,但如何稳定、一致地激活这种潜能是一个核心难题。原始实验显示,如果仅考虑单次生成的答案,模型在GSM8K和MATH上的准确率会骤降至49.5%和7.9%。为了解决这一稳定性问题,研究团队创新性地采用了扩大有监督微调(SFT)数据集的方法,并通过合成数据实现有效扩充。利用GPT-4 Turbo API生成高质量数学问题与解题过程,配合验证提示词确保数据质量,他们成功将SFT数据集扩展至约百万样本,近乎完美遵循缩放定律。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    最终,经过优化的Xwin-Math-7B模型在GSM8K和MATH评测中分别取得了82.6%和40.6%的准确率,不仅大幅超越了先前的SOTA模型,甚至能与部分70B量级模型相媲美,实现了跨级别提升。而Xwin-Math-70B模型在MATH评测集上更是达到了52.8%,显著优于GPT-4早期版本,这是基于LLaMA系列模型首次在MATH上超越GPT-4。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    为了更全面评估模型性能,研究人员引入了Pass@N和PassRatio@N这两个新评测指标,用于衡量模型在N次输出中产生正确答案的概率及其稳定性。随着SFT数据集增大,模型的PassRatio@256大幅提升,证实了基于合成数据的有监督微调策略对提高模型数学能力稳定性的重要性。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    研究进一步深入探究了模型在不同推理复杂性和错误类型下的表现规律。数据显示,模型解决数学问题的准确性与推理步骤数量呈幂律关系,增加长推理步骤训练样本的比例有助于提高解决复杂问题的准确率。同时,计算错误相较于推理错误更容易得到改善。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    值得一提的是,在匈牙利高中数学考试这一检验模型数学推理泛化能力的平台上,Xwin-Math获得了仅次于GPT-4的65%分数,展示了其良好的泛化能力,并证明所采用的合成数据方法并未导致过拟合现象。
    这项研究通过展示合成数据在扩展SFT数据集方面的高效性,为大型语言模型在数学推理能力领域的探索开辟了全新视角。研究团队坚信,他们的工作为未来的研究奠定了坚实基础,有望推动人工智能在数学问题解决方面的重大突破。随着AI技术日新月异的发展,我们有充足的理由期待AI在数学领域展现更加卓越的表现,为人类攻克复杂数学问题提供有力支持。
    欲了解更多关于数据合成方法的消融实验和其他评测指标的详细,请参阅完整论文及附件。

上一篇:盘点女人健康的七大标志
下一篇:大助女人延寿的4招排毒方
更多更酷的内容分享
猜你感兴趣
AI时代的数据孤岛:如何利用技术破冰释放数据效能?

AI时代的数据孤岛:如何利用技术破冰释放数据效能?

数据安全问题日益严重,一方面受到各国监管的压力,另一方面各机构之间的隔阂也日益加深。为解决这个问题,南京航空航天大学研究生院院长陈兵在7月举行的数字中国建设峰会上分享了他的破解思路和方法,包括安全多方计算、差分隐私、集中加密计算和联邦学习等。他认为这些技术可以帮助企业和个人在数据流动与安全之间找到平衡,同时提高数据的利用效率和安全性。

热点资讯 05.25
《数读中国:刺激消费与稳投资,内需潜力加速释放》

《数读中国:刺激消费与稳投资,内需潜力加速释放》

事件起因:用户在查看原图时出现问题。 事件关注爆点:1928K大小。

热点资讯 05.15
充分发挥数据潜力,推动公共数据资源高效开发:这是何等重要的一课

充分发挥数据潜力,推动公共数据资源高效开发:这是何等重要的一课

公共服务产生的公共数据,对于推动经济社会发展具有重要意义。在这一背景下,《关于加快公共数据资源开发利用的意见》发布,旨在破除公共数据流通使用的体制性障碍、机制性梗阻,推进公共数据资源开发利用,提高资源供给质量和利用效率。

热点资讯 10.10
月之暗面:引领新一轮AI挑战的k0-math数学推理模型与OpenAI o1的竞争分析

月之暗面:引领新一轮AI挑战的k0-math数学推理模型与OpenAI o1的竞争分析

"月之暗面发布Kimi数学推理模型k0-math,超越OpenAI系列可公开使用模型。多个数学基准测试中,初代模型表现优秀。"

热点资讯 11.16
乌克兰外交部接收新任中国驻乌克兰大使国书副本

乌克兰外交部接收新任中国驻乌克兰大使国书副本

] [data-exeditor-arbitrary-box=image-box]):hover{ color: var(--news-font-night-color); }

热点资讯 11.23
普京得力助手俄罗斯民众强烈支持

普京得力助手俄罗斯民众强烈支持

根据VTSIOM最新发布的数据,超过75%的俄罗斯民众对弗拉基米尔·普京总统的政策表示赞同。支持率为78.8%,而其余的21.2%则完全否定他的政策。在朋友圈分享这个故事时,可以关注「跟着大事跑的人」,每天了解全球热点。

热点资讯 11.23
拜登继任后:首位德国总理是否愿意与俄罗斯和中国交换立场?

拜登继任后:首位德国总理是否愿意与俄罗斯和中国交换立场?

事件起因是美国试图给乌克兰大量军事援助,而德国在G20峰会上拒绝向乌克兰交付导弹,导致双方在对峙中。在此背景下,欧盟各国开始寻求与其他国家合作,以达成和平解决方案。美国总统拜登政府在这段时间内正全力以赴为乌克兰提供援助。然而,白宫政治环境的变化可能会影响其对乌克兰政策的影响。尽管有各方人士批评美国的行为,但拜登政府依然希望借此机会加强与乌克兰的关系,并重塑俄乌冲突的态势。但是,乌克兰政府对继续获得国际援助持谨慎态度。虽然这种看法已经在多个地区得到证实,但在目前情况下,这对于拜登政府来说确实是一个挑战。

热点资讯 11.23
镇魂街第四季悬念:王国组织阴谋曝光!曹炎兵被困 神珠成关键之谜解开!

镇魂街第四季悬念:王国组织阴谋曝光!曹炎兵被困 神珠成关键之谜解开!

来到了镇魂街第四季,成为了重要的关键元素。然而,当镇魂街第四季首播时,我们并未看到更多的内容。其中,最引人注目的三人是高温凯利、诺拉以及羲和神珠的掌控者:王国组织。他们刚刚出现了,就会开会,并引起了王国组织的阴谋。这个阴谋的目标是抓住曹焱兵并获得羲和神珠。这意味着曹焱兵将会面临极大的危险,而他的逃脱也将考验他们之间的友情和忠诚。镇魂街第四季以曹炎兵逃脱灵域的故事开始,展现了他们的勇气和决心。尽管他们在风雷街上被困,但他们仍成功找到了出路。同时,也揭示了羲和神珠的重要性,它是镇魂街的关键元素之一。最终,他们成功找到羲和神珠,并将其带入镇魂街,开始了他们的冒险之旅。总的来说,镇魂街第四季通过紧张刺激的剧情,展现了角色们的勇敢和智慧,同时也展示了他们面临的挑战和困难。

热点资讯 11.23
星河破碎:萧炎策划庞大婚礼,魂天帝降临迦南学院

星河破碎:萧炎策划庞大婚礼,魂天帝降临迦南学院

萧炎承诺会给萧薰儿一场盛大的婚礼,大战开启前带萧薰儿前往。三族、天府联盟联军已到,将展开生死之战。萧炎拥抱萧薰儿,并许下承诺,化解他们的恩怨。面对魂族侵袭,萧炎全力迎战,最终赢得胜利。这是魂族与魂天帝之间的较量,其中最大的看点莫过于萧炎的崛起。

热点资讯 11.23
排行公布:Faker地位居高不下,Gumayusi位列其次

排行公布:Faker地位居高不下,Gumayusi位列其次

最近T1战队夺冠后,最风光时被媒体大量采访,而Oner选手近日开设油管频道并发布第一个采访类视频。他提到若为队伍制定内部地位,会推选相赫哥为首,但他未透露为何选择Gumayusi作为最后一名。对此,Oner表示他深知观众知情,并认为不必赘述原因。

热点资讯 11.23
Doinb与XLB爆发冲突,怒斥不愿与其争吵:为何这类人无法夺冠?

Doinb与XLB爆发冲突,怒斥不愿与其争吵:为何这类人无法夺冠?

Doinb怒斥直播间的误操作导致与XLB比赛取消,认为对方都是神经病,影响比赛节奏。XLB否认“剧本说”,表示打都没打,直播间的氛围爆炸。

热点资讯 11.23
Uzi与薇恩决战未果,姿态无奈抱头痛哭,无状态仍在甩锅:LPL老头杯形势严峻

Uzi与薇恩决战未果,姿态无奈抱头痛哭,无状态仍在甩锅:LPL老头杯形势严峻

老头杯首阶段结束,各队争斗激烈。Uzi不敌KB,KB笑到最后;ZT与BL激情对决,最终翻盘夺冠。姿态泪洒赛场,成绩不佳却难掩斗志。多位选手状态各异,小组晋级前景扑朔迷离。uzi失误失胜,紧张状态下失去冷静,老戏骨心态显真实。风暴之中成就神话,王者崛起令人振奋。 abbreviations: LPL, Legend Cup,老头杯, Uzi, KB, ZT, BL,死亡宣告, Letme, BGM, 英雄联盟召唤师

热点资讯 11.23
宝马4S店关闭,消保委提醒消费者警惕网络安全风险

宝马4S店关闭,消保委提醒消费者警惕网络安全风险

关闭4S店的原因是因为经营不善导致资金链断裂,这可能导致库存积压、欠款等问题。目前已有多个品牌授权经销商出现类似情况,如福州中宝、福建星德宝等。消保委对此发出消费提醒,告诫消费者警惕4S店突然关闭后的消费风险,并呼吁尽快解决问题以减少经济损失。同时,消保委也提醒宝马经销商要及时更新官方微信号并妥善处理债务问题。这些品牌的关闭可能是由于市场竞争加剧、业绩下滑等原因,同时也暴露出相关企业的管理和服务能力不足等问题。

热点资讯 11.23
哪吒之逆天力量:为何他无法再次诞生?探讨电动势的重要性

哪吒之逆天力量:为何他无法再次诞生?探讨电动势的重要性

哪吒汽车在2024年面临销量下滑、工厂停摆、降薪裁员等问题。然而,哪吒汽车拥有国资背景,大量市场订单,使其在困境中仍具有生存优势。因此,哪吒汽车需要进行内部整顿和战略调整,精简产品线,提高经营效率。

热点资讯 11.23