科学家研发的多模态大模型,准确锁定图像物体位置,让大模型更懂物理世界。

2024-02-25 热点资讯 关注公众号
    在近几年的社交媒体与影视剧中,父母辅导孩子写作业时发生的种种趣事与崩溃瞬间层出不穷,其中,“看图写话”这一小学语文常见题型更是成为此类现象频发的重要诱因。小学生们面对这类题目,常常给出天马行空、偏离主题的答案,让人啼笑皆非。然而,这一题型的设置初衷是为了培养孩子们的观察力和表达能力,为其日后的写作奠定坚实基础。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    如今,在模拟人类思维技术驱动下诞生的AI,正逐步挑战“看图写话”的难题。ChatGPT的爆火出圈,展示了大语言模型在对话问答、语言翻译、代码编写等多元领域的广泛影响力。在此基础上,科研人员正致力于为大语言模型配备视觉感知模块,使其具备多模态感知能力,能够根据图像生成相应描述或回答问题,如精准定位图片中的对象位置、依据图像信息进行场景描绘等。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    近期,新加坡国立大学的研究团队创新性地提出了名为pix2emb的方法,并基于此训练了一款名为NExT-Chat的多模态大模型。这款模型成功将对话、检测和分割融为一体,能应对复杂对象定位、区域描述及推理等多种对话场景。相关论文《NExT-Chat: An LMM for Chat, Detection and Segmentation》已在arXiv预印本平台上发表,其阵容中,张傲以博士研究生的身份担任第一,姚远作为博士后研究员承担通讯角色。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    值得注意的是,NExT-Chat相较于现有多模态大模型的一大突破在于实现区域级推理的能力,直接定位图像中对象的准确位置。目前多数多模态大模型仅能从整体理解图像,无法处理局部区域的推理任务。针对这一局限,研究者借鉴Pix2seq方法,将对象边界框坐标转化为大语言模型可理解的纯文本标记,进而预测对象位置。但这种方法在生成图像掩膜方面存在不足,无法精确表示对象位置。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    张傲及其团队因此提出pix2emb方法,创造性地将位置信息转化为特征形式,并通过编码解码器统一处理所有对象定位格式。他们引入了特殊标记用于触发定位解码,并嵌入对象位置信息,使模型能够在不同复杂场景下准确检测和分割目标对象。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    经过三个阶段的精心训练,NExT-Chat展现出卓越的性能。定性验证中,该模型不仅能在复杂场景下准确检测和分割对象,还能根据给定边界框生成详细的对象描述,甚至能对图像进行逻辑推理,提供详尽解释。定量验证上,NExT-Chat在与SOTA多模态大模型LLaVA、MiniGPT-4等的对比中,在视觉定位、区域描述等多个任务上表现出色。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    回顾整个研究历程,始于2023年6月,历时半年。研究团队最初目标是实现掩膜定位功能,但在验证过程中发现已有类似工作,于是决定扩展模型功能,使其不仅能描述多个物体位置,还增加了位置输入能力。此外,团队巧妙结合少量昂贵标注和大量廉价标注,有效降低了成本投入,同时保持模型性能不减。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平    展望未来,该团队计划进一步提升NExT-Chat在检测、分割等方面的性能和效率,以便更好地将其应用于手机或其他终端设备。这项研究不仅揭示了人工智能在多模态理解上的新进展,更为教育领域带来了更多可能性,预示着AI在未来或许能更有效地辅助学生完成“看图写话”等富有挑战性的学习任务。
科学家开发多模态大模型,能准确定位图像物体位置,助力提升大模型物理理解水平

上一篇:每逢新春佳节,为何我们把“英雄”二字高高举起?
下一篇:随着时间推移,三类房子将成为“黄金屋”?聪明人已经在悄悄入手
更多更酷的内容分享
猜你感兴趣
独特视角:北大团队在CVPR中胜出,大模型让机器人更懂物理世界。

独特视角:北大团队在CVPR中胜出,大模型让机器人更懂物理世界。

北京大学董豪团队的最新研究成果ManipLLM,让大语言模型通过物体图像预测机械臂操作点和方向,实现精细操作。该模型解决了机器人泛化物体操作的问题,提高了其理解物理世界交互方式的能力。这项技术有望让机器人准确执行各种日常物体操作,实现与人类更自然的交互。

热点资讯 03.04
探究科学奇迹:《语言模型物理学》揭示了大模型的逆转诅咒与突破,揭秘神秘现象的新篇章

探究科学奇迹:《语言模型物理学》揭示了大模型的逆转诅咒与突破,揭秘神秘现象的新篇章

关于人工智能的大语言模型发展,存在不少问题。其中,GPT-4作为一个典型的例子,尽管已经能够对简单问题给出正确答案,但在处理复杂的顺序性和记忆问题上存在问题。为此,FAIR Labs实验室提出了逆转训练解决方案,试图破解大语言模型的困境。近期的研究论文已发布在预印本平台arXiv上,显示逆转训练可能有助于解决大语言模型的逆转诅咒问题。

生活常识 04.14
苹果发布300亿参数MM1多模态大模型,能看图理解语言。

苹果发布300亿参数MM1多模态大模型,能看图理解语言。

苹果公司公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,介绍了一款“MM1”多模态大模型,拥有图像识别和自然语言推理能力。研究团队利用MM1模型做实验,发现图像分辨率和图像标记数量对模型性能影响较大。MM1模型在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试,号称MM1-3B-Chat和MM1-7B-Chat优于市面上绝大多数相同规模的模型。

热点资讯 03.17
大模型与小模型交织,共促科技创新的潮流

或者

引领未来:揭秘科技创新背后的宏大与微观,一同探索「大模型让让,小模型登场」的主题

双引擎并行推动,深度解读科技创新背后的大模型和小模型策略,一起解锁科技发展的新篇章

大模型与小模型交织,共促科技创新的潮流 或者 引领未来:揭秘科技创新背后的宏大与微观,一同探索「大模型让让,小模型登场」的主题 双引擎并行推动,深度解读科技创新背后的大模型和小模型策略,一起解锁科技发展的新篇章

微软推出小语言模型(SLM),在评估语言、编程、数学能力等的基准测试中表现优于GPT-3、5,预示着未来科技公司将更注重成本效率而非数据量。 4月23日,微软推出小语言模型(SLM) Phi-3系列,表现优于同等规模甚至更大规模模型,标志着人工智能市场进入一个全新的发展阶段。 2023年持续更新模型参数,各大科技公司全力投入人工智能的大战。相较于大模型,小模型在不同场景下更具竞争力,尤其适合手机和PC厂商力推的A IPC、AI手机。 虽然大模型对数据和算力的需求高,但其运行成本、具体场景模型调试难度等问题制约了其商业化进程。而小模型因其较高的性能和适应性逐渐成为行业的热门选择。 2024年4月24日,苹果公司发布开源小语言模型 OpenELM,旨在通过适当模型解决问题,并支持“本地+云端”的解决方案,满足不同用户需求。这意味着大模型与小模型的结合将为企业带来更大的灵活性和优势。

热点资讯 05.01
叶珂再遭网友炮轰:网红妖怪揭富婆人设真相,更多秘密曝光

叶珂再遭网友炮轰:网红妖怪揭富婆人设真相,更多秘密曝光

女,这段感情已经持续了好几年,所以双方选择和平分手。同时,叶珂也坦白承认,自己曾经为一个男主播刷过礼物,这个礼物实际上是一些虚拟商品。 总的来说,这场由叶珂与黄晓明引发的“风暴”,涉及到一系列的事件和争议。其中最大的看点是叶珂与黄晓明的出轨传闻以及索要抚养费和怀孕传闻。而妖怪的直播音频更是增添了这种话题的热度。目前,尽管有一些线索和推测,但具体的事件真相还需要进一步的调查和确认。

热点资讯 11.10
周润发曝光已故好友、知名演员刘德华:其罕见公开裸捐高达56亿元!售价仅1300元,却使用了超过17年的诺基亚手机。

周润发曝光已故好友、知名演员刘德华:其罕见公开裸捐高达56亿元!售价仅1300元,却使用了超过17年的诺基亚手机。

周润发透露自己仍在使用诺基亚手机;古天乐使用索尼爱立信W995手机;周润发夫妇捐款56亿港币;发哥与权志龙合影,网友提议发他们在社交账号上合影。

热点资讯 11.10
郑钦文赛后反思,未来期望挑战其他队伍

郑钦文赛后反思,未来期望挑战其他队伍

郑钦文以二盘落败的成绩结束了年终总决赛征程,尽管失利但她仍表示对自己没有做好准备,表示会加强自身在场上的表现。同时,她也提到不会过分看重别人对自己的评价,而是期待下一年与高芙的竞争。

热点资讯 11.10
俄罗斯颁布新法规,没收非法移民财产,驱逐大量难民

俄罗斯颁布新法规,没收非法移民财产,驱逐大量难民

俄罗斯政府通过一项新法案,没收非法移民非法财产。相关文件已发布在俄法行为官网上。白罗斯理想社对这一法规进行了报道。

热点资讯 11.10
卡塔尔单方面中断与美国的谈判,哈马斯领导人面临驱逐威胁

卡塔尔单方面中断与美国的谈判,哈马斯领导人面临驱逐威胁

以色列国防军投下导弹导致加沙地带代尔巴拉赫阿克萨烈士医院发生爆炸,目前正在进行救援工作。数月来,卡塔尔与以色列展开激烈对话,寻求加沙停火和人质释放协议。根据媒体报道,卡塔尔已要求哈马斯官员撤离该国,并向哈马斯发出警告。消息人士否认了哈马斯将在卡塔尔逗留的说法。关于哈马斯官员是否会被驱逐的问题,以色列总理办公室尚未发表评论。

热点资讯 11.10
别以为纳土纳群岛就只是个闲岛:真相揭示其为什么未纳入中国版图

别以为纳土纳群岛就只是个闲岛:真相揭示其为什么未纳入中国版图

九段线是建立在纳土纳群岛上对中国南海所有岛屿和海域的主权的要求,包括大部分南沙岛屿,保障了中国的海洋权益。但是,在详细地图上看,这些岛屿并不完全符合中国设立的九段线。印尼对纳土纳群岛拥有着直接割据的利益,并将其作为其海洋战略地位的重要组成部分。随着时间的推移,纳土纳群岛已经成为中国南海战略支点的一部分。

热点资讯 11.10
梅根罕见同框,深情看向哈里,一白遮百丑显高贵魅力

梅根罕见同框,深情看向哈里,一白遮百丑显高贵魅力

哈里王子和梅根再次出现在公众视野中,参加了哥伦比亚举行的全球暴力侵害儿童问题部长级会议,并发表视频致辞,强调了解决暴力侵害儿童问题的重要性。他们在出席活动时身穿了具有纪念意义的服装,尤其是梅根重穿了在阿奇出生时穿过的拉夫劳伦西装外套,并搭配了图钉耳饰。虽然他们的表情有所不同,但也为近期首次同框画上了圆满句号。

热点资讯 11.10
更新要点:大唐横扫不休息消耗30%气血影响策略评估

更新要点:大唐横扫不休息消耗30%气血影响策略评估

小悟空只有2秒。这个消息让不少梦幻西游的玩家惊呼,原本以为梦幻西游里不可能存在自动抓宝宝的外挂。现在看来,情况果然是这样。看来我们之前还是太过于依赖运气,可能真的是有些大意了。此次事件引发了众多玩家的关注和讨论,有的玩家更是质疑梦幻西游官方的态度。对此,我们只能等待官方的解释。

热点资讯 11.10
乒乓球冠军赛:中国女单选手王艺迪轻松胜出,提前夺得四强荣誉

乒乓球冠军赛:中国女单选手王艺迪轻松胜出,提前夺得四强荣誉

国际乒乓球比赛在今晚继续上演中日焦点对决,国乒世界冠军主力王艺迪面对16岁日本小将张本美和展开激战。比赛中王艺迪多次挫败中国女队领军人物的霸主地位,尽管如此,她仍然保持着积极的心态,并凭借出色的攻势取得胜利。接下来,国乒将与队友王曼昱展开女单决赛,这场关键的比赛无疑会对中国队构成巨大压力。

热点资讯 11.10
1. 孙尚香果甜心皮肤领取指南:小游戏与大作的完美平衡
2. 福利连连!小乔音动骨折皮肤限时特惠,快来领回家吧
3. 官方福利!孙尚香水果甜心皮肤免费领,错过机会要等一年
4. 充值即送!孙尚香皮肤+音效只需一元,剁手党的福利!
5. 内含神秘小秘密?小乔音配音皮肤大公开,谁能获救!

1. 孙尚香果甜心皮肤领取指南:小游戏与大作的完美平衡 2. 福利连连!小乔音动骨折皮肤限时特惠,快来领回家吧 3. 官方福利!孙尚香水果甜心皮肤免费领,错过机会要等一年 4. 充值即送!孙尚香皮肤+音效只需一元,剁手党的福利! 5. 内含神秘小秘密?小乔音配音皮肤大公开,谁能获救!

是古代神话中的女妖,叫做阿古丽·卡西迪,这款皮肤名叫“夏日舞步”。根据官方介绍,这款皮肤是专为夏季设计的,其中包含了各种元素如花、草、阳光等,风格清新活泼,非常适合夏季使用。 这款皮肤受到广大玩家的关注和期待,预计会在接下来一段时间内上线国服。同时,游戏还推出了一个“幸运大抽奖”活动,参与该活动的玩家有机会获得永久皮肤和积分等奖励。需要注意的是,尽管该活动有一定的几率获得永久皮肤,但并非保证一定能抽中,因此玩家可以适当尝试几次,以确保自己的好运。

热点资讯 11.10