LLaMA-2-7B数学能力逼近满分,Xwin-Math用合成数据释放潜力!

2024-03-17 热点资讯 关注公众号
    【机器之心专栏】
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    合成数据革新大模型的数学推理能力边界!
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    近日,一项颠覆性研究由Swin-Transformer团队携手西安交通大学、中国科学技术大学、清华大学以及微软亚洲研究院共同完成,并以《普通7B规模语言模型已展现强大数学能力》为题在arXiv上发布。该研究表明,即使未经大规模数学相关预训练的70亿参数通用预训练模型LLaMA-2-7B,在数学问题解决方面也隐藏着惊人的潜力。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    研究团队首先仅采用7.5K数据对LLaMA-2-7B进行指令微调,随后在GSM8K和MATH基准测试中对其进行评估。实验结果显示,当从256个生成的答案中选出最优答案时,模型在两个测试集上的准确率分别高达97.7%和72.0%,这一突破性结果挑战了以往认为只有超大规模或专业数学预训练模型才具备出色数学推理能力的观点。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    然而,研究人员揭示了一个关键问题:尽管模型具有强大的数学推理潜力,但如何稳定、一致地激活这种潜能是一个核心难题。原始实验显示,如果仅考虑单次生成的答案,模型在GSM8K和MATH上的准确率会骤降至49.5%和7.9%。为了解决这一稳定性问题,研究团队创新性地采用了扩大有监督微调(SFT)数据集的方法,并通过合成数据实现有效扩充。利用GPT-4 Turbo API生成高质量数学问题与解题过程,配合验证提示词确保数据质量,他们成功将SFT数据集扩展至约百万样本,近乎完美遵循缩放定律。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    最终,经过优化的Xwin-Math-7B模型在GSM8K和MATH评测中分别取得了82.6%和40.6%的准确率,不仅大幅超越了先前的SOTA模型,甚至能与部分70B量级模型相媲美,实现了跨级别提升。而Xwin-Math-70B模型在MATH评测集上更是达到了52.8%,显著优于GPT-4早期版本,这是基于LLaMA系列模型首次在MATH上超越GPT-4。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    为了更全面评估模型性能,研究人员引入了Pass@N和PassRatio@N这两个新评测指标,用于衡量模型在N次输出中产生正确答案的概率及其稳定性。随着SFT数据集增大,模型的PassRatio@256大幅提升,证实了基于合成数据的有监督微调策略对提高模型数学能力稳定性的重要性。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    研究进一步深入探究了模型在不同推理复杂性和错误类型下的表现规律。数据显示,模型解决数学问题的准确性与推理步骤数量呈幂律关系,增加长推理步骤训练样本的比例有助于提高解决复杂问题的准确率。同时,计算错误相较于推理错误更容易得到改善。
LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力    值得一提的是,在匈牙利高中数学考试这一检验模型数学推理泛化能力的平台上,Xwin-Math获得了仅次于GPT-4的65%分数,展示了其良好的泛化能力,并证明所采用的合成数据方法并未导致过拟合现象。
    这项研究通过展示合成数据在扩展SFT数据集方面的高效性,为大型语言模型在数学推理能力领域的探索开辟了全新视角。研究团队坚信,他们的工作为未来的研究奠定了坚实基础,有望推动人工智能在数学问题解决方面的重大突破。随着AI技术日新月异的发展,我们有充足的理由期待AI在数学领域展现更加卓越的表现,为人类攻克复杂数学问题提供有力支持。
    欲了解更多关于数据合成方法的消融实验和其他评测指标的详细,请参阅完整论文及附件。

上一篇:盘点女人健康的七大标志
下一篇:大助女人延寿的4招排毒方
更多更酷的内容分享
猜你感兴趣
AI时代的数据孤岛:如何利用技术破冰释放数据效能?

AI时代的数据孤岛:如何利用技术破冰释放数据效能?

数据安全问题日益严重,一方面受到各国监管的压力,另一方面各机构之间的隔阂也日益加深。为解决这个问题,南京航空航天大学研究生院院长陈兵在7月举行的数字中国建设峰会上分享了他的破解思路和方法,包括安全多方计算、差分隐私、集中加密计算和联邦学习等。他认为这些技术可以帮助企业和个人在数据流动与安全之间找到平衡,同时提高数据的利用效率和安全性。

热点资讯 05.25
《数读中国:刺激消费与稳投资,内需潜力加速释放》

《数读中国:刺激消费与稳投资,内需潜力加速释放》

事件起因:用户在查看原图时出现问题。 事件关注爆点:1928K大小。

热点资讯 05.15
更强开源大模型Llama 3震撼登场:击败GPT-4,数据量超过Llama 2

更强开源大模型Llama 3震撼登场:击败GPT-4,数据量超过Llama 2

Meta推出开源大模型Llama 3系列,其8B和70B版本分别在多项基准上超过谷歌Gemma和Mistral。这一版本的推出意味着开源社区的一大分水岭,Open Source Models将开启一个新篇章。Llama 3模型基于超过15T个token的公开数据预训练,训练效率提升三倍。Meta CEO扎克伯格宣布基于Llama 3模型,已覆盖Instagram、WhatsApp、Facebook等全系应用,并单独开启了网站。

热点资讯 04.20
吴院士专注把握数据风口,挖掘我国数字经济潜力。

吴院士专注把握数据风口,挖掘我国数字经济潜力。

“信百会‘数据要素×’论坛暨《数据价值网络》白皮书发布研讨会”在京举行,吴世忠指出数据要素具有高度的多维度特性,并强调了推动数据要素更好的发展方向。

热点资讯 03.24
洋河、徽酒与“茅五泸”的竞争:一个洋河可以比肩四大名酒

洋河、徽酒与“茅五泸”的竞争:一个洋河可以比肩四大名酒

江南五虎在江浙地区崛起,占江苏白酒市场份额近40%,竞争日益激烈。 黄山归来,犹如一幅画卷,把古老的中国文化装点得独具魅力。

热点资讯 09.19
女子不堪男子频繁性侵,向公司反映却被回复:这是你的问题,不是我们的责任。

女子不堪男子频繁性侵,向公司反映却被回复:这是你的问题,不是我们的责任。

深圳男子PPT揭露出轨事实,自称曾下跪哀求女友不要举报。

热点资讯 09.19
外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

9月18日,深圳日本人学校10岁学生遭男子刺伤,已被现场捕获。中方继续采取有效措施,保障在外中国人的安全。

热点资讯 09.19
挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

随着《黑神话:悟空》的火热,国内玩家开始调侃欧美玩家的“女拳师”现象,国内一些工作室也试图利用男女话题来吸引眼球。最近一家被称为全女的GHG游戏工作室成立,并承诺将制作出完全由女性参与的3A级别开放世界游戏。然而,由于尚未完成游戏引擎的研发和成本控制,这款游戏可能会成为诈骗的一种手段。对此,我们建议大家保持理性判断,不要轻信不实信息,保护自己的权益不受侵犯。

热点资讯 09.19
大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

沃尔夫斯堡面临前所未有的挑战:汽车电动化、智能化转型和竞争压力加剧导致德国这家百年历史的工业重镇面临倒闭风险。沃尔夫斯堡及其庞大的大众汽车集团总部象征着德国工业复兴,但随着欧洲最大汽车制造商宣布关闭本土工厂,并放弃工作保障承诺,这座城市的12万居民开始担忧未来。沃尔夫斯堡拥有超过4800万辆汽车的生产能力,而在中国汽车市场竞争加剧的影响下,该公司可能会遭受重大打击,需要大幅增加拨备以应对这一冲击。这个消息引发了全球汽车产业的关注。

热点资讯 09.19
罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

米克、亚瑟和涅塔。在这五人当中,涅塔的名字最引人注目,因为他是一名黑帮老大,同时还是一个天才级别的战士。从他的实力来看,他是第五个出场的五大强者之一,绝对不容小觑。 另外,涅塔在预告片中并未完全展示出他的实力,只能猜测他的战斗力应该很强。这次出现在《吞噬星空》动漫中的涅塔,无疑会给观众带来更大的惊喜。 总之,从这次剧情来看,有很多看点,包括主角罗峰的新造型、五大超级强者的登场等,相信这部动漫会有更多的精彩内容等待着观众。

热点资讯 09.19
黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩真主党订购台产寻呼机爆炸,以色列事先破坏并伪装成自杀式袭击。

热点资讯 09.19
梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

标题:奇幻高手晒新装!打造双九黎城阵容及联赛冠军帮! 事件起因及关注爆点:梦幻游戏官方曝光九黎城装备,打造双九黎城阵容;另曝雪山表弟团队欲打造联赛冠军帮,提高团队实力。

热点资讯 09.19
70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

张曼获湖南农行派重任官,时值长沙银行半年后新行长人选揭晓,张曼晋升为副行长,成为湖南省万亿上市银行董事长人选,由她提名成为董事会董事候选人。此前张曼加入长沙银行前是中国农业银行的员工,期间担任过多个职务,包括副行长等,此次晋升为总经理。

热点资讯 09.19
东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

今年初,董宇辉成为东方甄选最高薪酬雇员之一。他在2024财年年度收益高达3.41亿港元,包括年薪、奖金、期权和新公司分润。自7月25日分手后,他自立门户已55天。但近日舆论场对其进行猛烈批评,被指责“没有文化”,并有人称对其进行了“绞杀”。在此期间,他面临各种商业挑战,如稳住人设、守住口碑和带领“与辉同行”前行等。目前,他的抖音账号粉丝数量超过51.7万,“与辉同行”账号粉丝数超过165.7万,显示出良好的发展势头。尽管如此,东方甄选主账号却掉了24.3万粉丝,这无疑给与辉同行带来了竞争压力。在完成一系列直播带货数据后,于近日新增了一家名为“与辉同行”的品牌公司,实现了业绩增长。与辉同行目前的销售额和粉丝数量均超过了东方甄选,与竞争对手相比有着明显优势。在未来的发展中,他还将继续努力稳定形象,提升口碑,并带领“与辉同行”走向更广阔的舞台。

热点资讯 09.19