7B大模型超越GPT-4,微软新研究破解工具调用难题!

2024-03-11 热点资讯 关注公众号
    微软与俄亥俄州立大学联合研究突破大语言模型工具使用瓶颈,STE方法助力 Mistral-Instruct-7B超越GPT-4
7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题    近日,微软联手俄亥俄州立大学的研究团队,在大语言模型工具使用能力方面取得了重大进展。他们发表了一篇开创性论文,并开源了一种名为模拟试错(STE)的新方法,该方法模仿生物学习机制,显著提升了大语言模型在上下文学习和微调设置下的工具学习效能。
7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题    【核心创新点】
7B大模型测试成绩超GPT-4!微软新研究解决工具调用难题    STE法通过整合试错、想象及记忆三大关键元素,利用大模型的“想象力”模拟合理场景下工具的使用,不断尝试适配各种大模型,并基于新反馈持续优化。ToolBench实验结果令人瞩目,表明STE成功将Mistral-Instruct-7B的性能提升46.7%,一举超越了GPT-4,彰显出强大的工具学习能力改进效果。
    【现有难题与挑战】
    当前,尽管在训练大语言模型时引入工具至关重要,但普遍存在的两大问题阻碍了其准确性和灵活性的有效结合。上下文学习虽能确保模型工具使用的灵活性,但在生产力级别的精度上仍有欠缺;而微调方法虽能提高准确性,却无法从根本上优化模型自身的工具运用能力。即便是强大如GPT-4或已针对工具进行微调的开源大语言模型,在实际应用中正确使用工具的比例也仅徘徊在30%至60%之间。
    【STE方法革新应用】
    面对这些挑战,研究团队从生物系统汲取灵感,开发出模拟试错法(STE),以期提升大语言模型对已有工具的使用能力。STE研究过程分为探索阶段和开发阶段。在探索阶段,通过设计一系列模拟实验,让模型设想API应用场景并与其交互,同时建立记忆机制来反思和优化结果。短期记忆帮助细化工具使用的精确性,长期记忆则拓展工具应用的广度,二者共同促进模型工具使用能力的升级。
    【STE带来显著成果】
    经过深入实验与验证,STE方法在ICL和微调两种设置下均展现出卓越效果。当STE应用于不同参数规模的大语言模型后,包括Llama、GPT以及Mistral系列模型在内的API适配能力和正确率均有大幅提升。其中,Mistral-Instruct-7B通过STE微调后的性能跃升高达46.7%,不仅在API匹配能力上超越了80亿参数的GPT-4,而且在正确使用工具的能力上也实现了全面领先。
    【结语展望】
    这一研究成果有力推动了AI爆发时代大语言模型更好地融入各类应用生态,降低大模型适配不同工具的成本。微软的这项测试方法无疑为业界提供了新的启示,预示着大语言模型研究正向更为细分化、实用化的方向迈进,为全球用户打造更高效精准的生产力工具,加速AI技术的实际落地进程。

上一篇:亚洲巨湖突然消失,欧美卫星连续对准!专家:百年最难崩灾难发生
下一篇:生活在3900万年前巨大的“古怪”鲸鱼并非有史以来最重的动物
更多更酷的内容分享
猜你感兴趣
苹果公司研发新型硬件,研究显示其设备端模型ReALM在AI性能上超越GPT-4

苹果公司研发新型硬件,研究显示其设备端模型ReALM在AI性能上超越GPT-4

苹果AI团队提出的新模型ReALM在对不同类型实体进行识别上取得显著提高,性能媲美OpenAI的知名语言模型GPT-4.0。该模型不仅能理解用户屏幕上的内容和操作,还能同时处理这些信息和屏幕实体。这意味着未来Siri的功能会变得更加强大和实用。研究表明,最小的模型在屏幕实体识别上的准确率提高了5%,而更大的模型则表现出明显的优势。这一突破性发现证明了人工智能领域仍有无限潜力等待发掘。

热点资讯 04.05
Clade 推出全新 iOS 版 App,GPT-4 不可阻挡的挑战:最新模型超越了自我!

Clade 推出全新 iOS 版 App,GPT-4 不可阻挡的挑战:最新模型超越了自我!

anthropic 宣布推出Claude移动端 App,主要关注该大模型在执行复杂任务的能力上与GPT-4相当。

热点资讯 05.03
研究人员揭示大模型指令微调新秘密,助力高效低成本定制大模型

研究人员揭示大模型指令微调新秘密,助力高效低成本定制大模型

瑞士洛桑联邦理工学院研究人员发现大模型可以通过上下文学习来执行新任务或改进现有任务,无需梯度更新或微调,只需增加上下文学习中的训练数据即可达到类似效果。此外,他们发现只需考虑增加一小部分上下文学习数据即可带来良好的效果,而不必直接修改大模型参数。这一发现对于减少成本、提高效率具有重要意义,有望在未来改善自然语言处理领域的发展。

生活常识 10.05
微软推出新AI模型:性能优越,比GPT-3.5更经济实惠,

微软推出新AI模型:性能优越,比GPT-3.5更经济实惠,

微软发布新小型语言模型 Phi-3-mini,具有与GPT-3.5相当的性能,并可在手机上本地使用。低成本模型能吸引更多客户。微软强调该模型在大规模多任务语言理解(MMLU)和Multi-turn(MT)基准测试中的表现优异。

热点资讯 04.25
三星Galaxy S24系列手机将率先体验全新的One UI 7系统

三星Galaxy S24系列手机将率先体验全新的One UI 7系统

三星One UI 7 beta 测试启动时间路线图曝光,将于 12 月第 1 周、2-3 周和持续两个月进行测试,最终在 2024 年 2 月正式发布。S24 系列和 S23 系列用户将优先体验,其余系列无法参与。

热点资讯 11.22
华为今日宣布新注册商标:仙界

华为今日宣布新注册商标:仙界

华为即将推出多款新品牌,包括"勇界"、"誓界"、"何界"、"遥界"等,涵盖各种领域,并将防御性地使用知识产权。此外,华为还申请了超过200个"界"的商标,以备未来可能需要。这些新的品牌和商标可能会对市场格局产生影响。

热点资讯 11.22
蒋凡回归:阿里巴巴5000亿运营掌控权的重燃

蒋凡回归:阿里巴巴5000亿运营掌控权的重燃

【重要摘要】阿里巴巴宣布成立电商事业群,任命39岁的蒋凡担任CEO,整合淘宝天猫集团、国际数字商业集团等业务,年收入超5000亿元。蒋凡曾在淘宝天猫集团和国际数字商业集团担任CEO,带领两块业务取得不错成绩,具备丰富的电商经验。 加载更多

热点资讯 11.22
全新iPhone颠覆设计:科技感爆棚的新颖外观技术解析

全新iPhone颠覆设计:科技感爆棚的新颖外观技术解析

iPhone 12以7.4mm厚打破了前作iPhone 11的记录,成为史上最轻薄的iPhone之一。同时,iPhone 12由于搭载的A14处理器存在制造缺陷和电池容量不足等问题,在使用过程中存在续航问题。为了改善这一状况,苹果不断尝试提高电池容量,并推出更多型号的iPhone。然而,对于是否会在明年推出的iPhone 17系列中砍掉Plus版本的问题,目前尚未有明确答案。

热点资讯 11.22
国产一强 1TB 速度王者:彻底解决你的存储问题!

国产一强 1TB 速度王者:彻底解决你的存储问题!

X Fold 4可能采用铜箔层超声波指纹识别技术,提高了识别准确度和稳定性。它还将配备3颗5000万像素镜头组合,包括微距镜头和远摄镜头,提供更好的拍照体验。此外,OPPO Find N5和vivo X Fold 4也将分别采用陶瓷保护壳和玻璃保护壳设计,并具备IP68防尘防水功能。这三款新品都是旗舰级产品,拥有出色的屏幕显示效果、优秀的摄像头系统以及出色的设计和工艺水平,预计会受到市场的热烈欢迎。

热点资讯 11.22
微信缓存问题彻底解决!从此告别微信占用内存烦恼

微信缓存问题彻底解决!从此告别微信占用内存烦恼

微信最新的更新带来了一个重大变化:原图和原视频将在14天后自动清理,避免用户因长期保存原图导致的图片过期或被清理等问题。同时,新的「公众号」功能也将上线,给公众号命名带来了全新的认知。尽管这是以前的老技术,但在微信独特的理解和解释中,这些看似微不足道的变化却是对用户隐私保护的重要提升。

热点资讯 11.22
男子打呼噜因疾病入院索赔,法院判定为轻症,判赔3万

男子打呼噜因疾病入院索赔,法院判定为轻症,判赔3万

李先生被诊断为患有轻症睡眠呼吸暂停低通气综合征,因为他的症状符合轻症理赔标准,但他认为自己的症状不符合轻症理赔标准,并且保险公司认为李先生所患疾病未达到保险合同约定的理赔条件,拒绝理赔。北京市密云区人民法院经过审理认为,李先生所患疾病符合通行的医学诊断标准,因此保险公司应按照合同约定给付保险金3万元。最后,保险公司依据生效判决向李先生支付了保险金。

热点资讯 11.22
《三生三世十里桃花》与《永夜星河》:剧情深度对比分析

《三生三世十里桃花》与《永夜星河》:剧情深度对比分析

传》中的程曦就是他主演的角色之一。《永夜星河》是一部大型仙侠剧,由虞书欣、丁禹兮主演。该剧凭借其精美的场景画面、复杂的剧情设计以及众多美女演员的出色表现受到了广泛好评。其中,女演员们不仅美丽,演技也相当出色,尤其是虞书欣和祝绪丹的表演更是深入人心。该剧中也有许多令人动人的故事线,例如男演员们的美丽外表和鲜明特质,还有异族恋情等等。 然而,也有人指出,《永夜星河》中存在着一些争议点,比如对某些角色的过度粉饰、对原著的改编过于粗糙等。尽管如此,该剧仍然以其精彩的故事情节、美丽的女主角和各种惊险刺激的战斗场面吸引了大量的观众。而它的播出也让人们重新认识到,无论男女主角有多么的美貌,只要他们能够用实际行动来证明自己的实力和才华,就能够赢得大众的认可和喜爱。总的来说,《永夜星河》是一部值得一看的电视剧。

热点资讯 11.22
未盈利:中国观众冷淡,《美国队长4》首日票房只有518万

未盈利:中国观众冷淡,《美国队长4》首日票房只有518万

今年贺岁档首日,《角斗士2》在中国内地票房仅518万,遭遇票房滑铁卢;国产片《好东西》首日票房仅为2139万,口碑不佳;同时,其他几部热门影片票房同样惨淡。随着春节档的脚步渐行渐近,多家影院纷纷推出多部新片,但由于口碑、题材等问题,不少电影票房表现并不理想。有评论指出,好莱坞大片还需调整策略以吸引中国观众。

热点资讯 11.22
被举报剽窃,刀郎经纪人发表声明:否认并报案!

被举报剽窃,刀郎经纪人发表声明:否认并报案!

王金兰女士指责刀郎剽窃20首原创作品,举报视频长达5分钟,疑似侮辱诽谤。面对质疑,刀郎方坚称视频内容为虚假信息,并已向公安机关报案。关于剽窃作品的问题,王金兰女士称仅涉及一首名为《西海情歌》的作品,而非刀郎的所有原创作品。刀郎方认为这是对公众人物的一种恶意炒作。他回应:“虽然大家都爱我,但我不能接受那些根本不存在的事情。”此外,关于是否剽窃,王金兰女士的视频中还显示,他们进行了权钱交易,并否认被剽窃。但这一说法引起了人们的强烈关注和争议。

热点资讯 11.22