7B大模型超越GPT-4,微软新研究破解工具调用难题!

2024-03-11 热点资讯 关注公众号
    微软与俄亥俄州立大学联合研究突破大语言模型工具使用瓶颈,STE方法助力 Mistral-Instruct-7B超越GPT-4
7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题    近日,微软联手俄亥俄州立大学的研究团队,在大语言模型工具使用能力方面取得了重大进展。他们发表了一篇开创性论文,并开源了一种名为模拟试错(STE)的新方法,该方法模仿生物学习机制,显著提升了大语言模型在上下文学习和微调设置下的工具学习效能。
7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题    【核心创新点】
7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题    STE法通过整合试错、想象及记忆三大关键元素,利用大模型的“想象力”模拟合理场景下工具的使用,不断尝试适配各种大模型,并基于新反馈持续优化。ToolBench实验结果令人瞩目,表明STE成功将Mistral-Instruct-7B的性能提升46.7%,一举超越了GPT-4,彰显出强大的工具学习能力改进效果。
    【现有难题与挑战】
    当前,尽管在训练大语言模型时引入工具至关重要,但普遍存在的两大问题阻碍了其准确性和灵活性的有效结合。上下文学习虽能确保模型工具使用的灵活性,但在生产力级别的精度上仍有欠缺;而微调方法虽能提高准确性,却无法从根本上优化模型自身的工具运用能力。即便是强大如GPT-4或已针对工具进行微调的开源大语言模型,在实际应用中正确使用工具的比例也仅徘徊在30%至60%之间。
    【STE方法革新应用】
    面对这些挑战,研究团队从生物系统汲取灵感,开发出模拟试错法(STE),以期提升大语言模型对已有工具的使用能力。STE研究过程分为探索阶段和开发阶段。在探索阶段,通过设计一系列模拟实验,让模型设想API应用场景并与其交互,同时建立记忆机制来反思和优化结果。短期记忆帮助细化工具使用的精确性,长期记忆则拓展工具应用的广度,二者共同促进模型工具使用能力的升级。
    【STE带来显著成果】
    经过深入实验与验证,STE方法在ICL和微调两种设置下均展现出卓越效果。当STE应用于不同参数规模的大语言模型后,包括Llama、GPT以及Mistral系列模型在内的API适配能力和正确率均有大幅提升。其中,Mistral-Instruct-7B通过STE微调后的性能跃升高达46.7%,不仅在API匹配能力上超越了80亿参数的GPT-4,而且在正确使用工具的能力上也实现了全面领先。
    【结语展望】
    这一研究成果有力推动了AI爆发时代大语言模型更好地融入各类应用生态,降低大模型适配不同工具的成本。微软的这项测试方法无疑为业界提供了新的启示,预示着大语言模型研究正向更为细分化、实用化的方向迈进,为全球用户打造更高效精准的生产力工具,加速AI技术的实际落地进程。

上一篇:亚洲巨湖突然消失,欧美卫星连续对准!专家:百年最难崩灾难发生
下一篇:生活在3900万年前巨大的“古怪”鲸鱼并非有史以来最重的动物
更多更酷的内容分享
猜你感兴趣
苹果公司研发新型硬件,研究显示其设备端模型ReALM在AI性能上超越GPT-4

苹果公司研发新型硬件,研究显示其设备端模型ReALM在AI性能上超越GPT-4

苹果AI团队提出的新模型ReALM在对不同类型实体进行识别上取得显著提高,性能媲美OpenAI的知名语言模型GPT-4.0。该模型不仅能理解用户屏幕上的内容和操作,还能同时处理这些信息和屏幕实体。这意味着未来Siri的功能会变得更加强大和实用。研究表明,最小的模型在屏幕实体识别上的准确率提高了5%,而更大的模型则表现出明显的优势。这一突破性发现证明了人工智能领域仍有无限潜力等待发掘。

热点资讯 04.05
Clade 推出全新 iOS 版 App,GPT-4 不可阻挡的挑战:最新模型超越了自我!

Clade 推出全新 iOS 版 App,GPT-4 不可阻挡的挑战:最新模型超越了自我!

anthropic 宣布推出Claude移动端 App,主要关注该大模型在执行复杂任务的能力上与GPT-4相当。

热点资讯 05.03
微软推出新AI模型:性能优越,比GPT-3.5更经济实惠,

微软推出新AI模型:性能优越,比GPT-3.5更经济实惠,

微软发布新小型语言模型 Phi-3-mini,具有与GPT-3.5相当的性能,并可在手机上本地使用。低成本模型能吸引更多客户。微软强调该模型在大规模多任务语言理解(MMLU)和Multi-turn(MT)基准测试中的表现优异。

热点资讯 04.25
微软发布新指南,强调AI工具的使用需谨慎

微软发布新指南,强调AI工具的使用需谨慎

微软因为 AI 工具准确性问题引起争议,已开始提醒用户谨慎对待服务。该公司的 AI 工具被更新为辅助工具而非专业建议的替代品。新条款将在下月底生效,以避免用户过度依赖其提供的建议而面临风险。

热点资讯 08.19
70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

张曼获湖南农行派重任官,时值长沙银行半年后新行长人选揭晓,张曼晋升为副行长,成为湖南省万亿上市银行董事长人选,由她提名成为董事会董事候选人。此前张曼加入长沙银行前是中国农业银行的员工,期间担任过多个职务,包括副行长等,此次晋升为总经理。

热点资讯 09.19
东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

今年初,董宇辉成为东方甄选最高薪酬雇员之一。他在2024财年年度收益高达3.41亿港元,包括年薪、奖金、期权和新公司分润。自7月25日分手后,他自立门户已55天。但近日舆论场对其进行猛烈批评,被指责“没有文化”,并有人称对其进行了“绞杀”。在此期间,他面临各种商业挑战,如稳住人设、守住口碑和带领“与辉同行”前行等。目前,他的抖音账号粉丝数量超过51.7万,“与辉同行”账号粉丝数超过165.7万,显示出良好的发展势头。尽管如此,东方甄选主账号却掉了24.3万粉丝,这无疑给与辉同行带来了竞争压力。在完成一系列直播带货数据后,于近日新增了一家名为“与辉同行”的品牌公司,实现了业绩增长。与辉同行目前的销售额和粉丝数量均超过了东方甄选,与竞争对手相比有着明显优势。在未来的发展中,他还将继续努力稳定形象,提升口碑,并带领“与辉同行”走向更广阔的舞台。

热点资讯 09.19
科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯推出全球首款恒压活水洗地机器人地宝X8 PRO PLUS,打破传统洗地模式。此款产品采用滚筒式结构,通过内置恒压系统提供持续的水源,解决了高清洁度和长寿命的问题。此外,它还配备高性能多维视觉模组和业内首个扫地机器人自研大语言模型,实现了智能交互和自主避障,为用户提供便捷高效的生活体验。这一创新突破标志着科沃斯在扫地机器人领域的领先地位,同时也引领了行业的未来发展方向。

热点资讯 09.19
从大小杨到曾志伟:网站编辑成长历程与自我评价

从大小杨到曾志伟:网站编辑成长历程与自我评价

曾志伟率领公司员工全力支持大小杨哥开设的分公司,并为其捧场,以期借此打开新的市场局面。其背后其实是一场互帮互助的好事。曾志伟的入场既是为了捞取后者的人气,也是为了扩张公司的影响力。最终,被挖墙角的不仅是大小杨哥所在的分公司,还有曾经在其中大放异彩的明星们。

热点资讯 09.19
梦幻西游中西栅黑的绰号-麻狼蹲着尿尿与七星地煞奖励2级神秘石

梦幻西游中西栅黑的绰号-麻狼蹲着尿尿与七星地煞奖励2级神秘石

黑总改名为“麻狼蹲着尿尿”,西栅老街黑总的160法暴神链号已被转会至超级联赛。 内容总结:黑总改名成“麻狼蹲着尿尿”,黑总的新号已在超级联赛报名中。

热点资讯 09.19
深一度:深度解读手机通信技术——寻找寻呼机的历史与现实威胁

深一度:深度解读手机通信技术——寻找寻呼机的历史与现实威胁

黎巴嫩发生多个区域的无线通信设备爆炸事件,伤亡人数超过4000人,死亡人数增多至11人。爆炸可能是由装置故障、电池过热等原因引发。目前,真主党方面怀疑是有人通过传呼机发送恶意信号或指令导致电池过热引发爆炸。该情况引起了外交与安全部门的高度关注,目前尚不清楚爆炸的具体原因。

热点资讯 09.19
梦幻西游:150四蓝字扇子与120第一3伤害戒指,价值远超预期的32万交易揭示

梦幻西游:150四蓝字扇子与120第一3伤害戒指,价值远超预期的32万交易揭示

这位热爱游戏的老玩家在鉴定了一把蓝字扇子后被震惊,发现竟然有疾风荡魄、珍宝、绝杀和必中四种蓝字,对此感到十分兴奋。同时,他也发现了新出的80级超简易戒指具有双速度和敏攻双属性,并且其价格预计会受到市场需求的影响。中秋节当天,一位狗托玩家炸出了11技能的谛听,他立即通过传音方式表达了自己的快乐心情,并成功以32.5万的价格售出了该戒指。

热点资讯 09.19
感受新款iPhone 16系列与手表耳机的细微差别:手机真机与图片观感大不相同

感受新款iPhone 16系列与手表耳机的细微差别:手机真机与图片观感大不相同

样触发拍照模式。对于第三方品牌来说,虽然苹果在智能硬件市场一直具有强大的影响力,但是在智能设备的设计与创新方面却始终表现得相对较弱。此次发布的全系新产品中,消费者可以看到大量模仿自家产品的元素,这也是为何众多科技媒体都将此次发布会称为"战场上的传统秀"。 这次苹果发布会,无论是新品还是之前的老款产品,都被展示得各有特色,而且在很多细节之处都有着独特的设计感。比如iPhone 16系列的新配色方案,既没有了上一代的简洁清新,也没有牺牲细节美感,而是通过色彩的对比使得整体更加活泼明亮。而这些变化,在保证外观美观的同时,也为用户带来了更好的视觉体验。 此外,苹果的全新AR技术也在发布会上得到了深度展示。通过全新的眼镜式AR设备,用户可以在家中就能体验到前所未有的沉浸式体验。这种设备不仅能够提供丰富的视觉信息,还可以让用户参与到游戏或者娱乐活动中去,大大提升了用户的参与感和乐趣。 总的来说,苹果发布的新品及新技术都展现了其强大的创新能力,并且在细节之处充满了创新设计。这对于科技行业来说无疑是一个好消息,也是消费者期待已久的表现。

热点资讯 09.19
朝鲜农村出行需办理通行证: 健康的上网与信息交流方式探讨

朝鲜农村出行需办理通行证: 健康的上网与信息交流方式探讨

朝鲜农村与中国的惊人相似,农民出行需具备证明文件、通行证以及家庭口粮供应制度,其中粮食分配约为每日700克。农村串门还需携带口粮,以免对邻居造成不便;女性也有类似的工作量和待遇差异。朝鲜农村仍采用农业为主的生活方式,大部分时间由政府规划,并分配给农民。

热点资讯 09.19
吉利星愿启动预售,挑战友商市场地位

吉利星愿启动预售,挑战友商市场地位

吉利新推出的紧凑型纯电代步车星愿,外观圆润可爱,内饰精致科技感强。该车预计售价在7.88万至10.78万之间,提供高低功率两种电机供消费者选择。电池容量分别为30.12kWh和40.16kWh,最大续航里程分别为310km和410km。

热点资讯 09.19