科学家研发的多模态大模型，准确锁定图像物体位置，让大模型更懂物理世界。

2024-02-25 热点资讯关注公众号

在近几年的社交媒体与影视剧中，父母辅导孩子写作业时发生的种种趣事与崩溃瞬间层出不穷，其中，“看图写话”这一小学语文常见题型更是成为此类现象频发的重要诱因。小学生们面对这类题目，常常给出天马行空、偏离主题的答案，让人啼笑皆非。然而，这一题型的设置初衷是为了培养孩子们的观察力和表达能力，为其日后的写作奠定坚实基础。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

如今，在模拟人类思维技术驱动下诞生的AI，正逐步挑战“看图写话”的难题。ChatGPT的爆火出圈，展示了大语言模型在对话问答、语言翻译、代码编写等多元领域的广泛影响力。在此基础上，科研人员正致力于为大语言模型配备视觉感知模块，使其具备多模态感知能力，能够根据图像生成相应描述或回答问题，如精准定位图片中的对象位置、依据图像信息进行场景描绘等。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

近期，新加坡国立大学的研究团队创新性地提出了名为pix2emb的方法，并基于此训练了一款名为NExT-Chat的多模态大模型。这款模型成功将对话、检测和分割融为一体，能应对复杂对象定位、区域描述及推理等多种对话场景。相关论文《NExT-Chat: An LMM for Chat, Detection and Segmentation》已在arXiv预印本平台上发表，其阵容中，张傲以博士研究生的身份担任第一，姚远作为博士后研究员承担通讯角色。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

值得注意的是，NExT-Chat相较于现有多模态大模型的一大突破在于实现区域级推理的能力，直接定位图像中对象的准确位置。目前多数多模态大模型仅能从整体理解图像，无法处理局部区域的推理任务。针对这一局限，研究者借鉴Pix2seq方法，将对象边界框坐标转化为大语言模型可理解的纯文本标记，进而预测对象位置。但这种方法在生成图像掩膜方面存在不足，无法精确表示对象位置。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

张傲及其团队因此提出pix2emb方法，创造性地将位置信息转化为特征形式，并通过编码解码器统一处理所有对象定位格式。他们引入了特殊标记用于触发定位解码，并嵌入对象位置信息，使模型能够在不同复杂场景下准确检测和分割目标对象。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

经过三个阶段的精心训练，NExT-Chat展现出卓越的性能。定性验证中，该模型不仅能在复杂场景下准确检测和分割对象，还能根据给定边界框生成详细的对象描述，甚至能对图像进行逻辑推理，提供详尽解释。定量验证上，NExT-Chat在与SOTA多模态大模型LLaVA、MiniGPT-4等的对比中，在视觉定位、区域描述等多个任务上表现出色。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

回顾整个研究历程，始于2023年6月，历时半年。研究团队最初目标是实现掩膜定位功能，但在验证过程中发现已有类似工作，于是决定扩展模型功能，使其不仅能描述多个物体位置，还增加了位置输入能力。此外，团队巧妙结合少量昂贵标注和大量廉价标注，有效降低了成本投入，同时保持模型性能不减。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

展望未来，该团队计划进一步提升NExT-Chat在检测、分割等方面的性能和效率，以便更好地将其应用于手机或其他终端设备。这项研究不仅揭示了人工智能在多模态理解上的新进展，更为教育领域带来了更多可能性，预示着AI在未来或许能更有效地辅助学生完成“看图写话”等富有挑战性的学习任务。
科学家开发多模态大模型，能准确定位图像物体位置，助力提升大模型物理理解水平

上一篇:每逢新春佳节，为何我们把“英雄”二字高高举起？
下一篇:随着时间推移，三类房子将成为“黄金屋”？聪明人已经在悄悄入手

更多更酷的内容分享

猜你感兴趣

独特视角：北大团队在CVPR中胜出，大模型让机器人更懂物理世界。

北京大学董豪团队的最新研究成果ManipLLM，让大语言模型通过物体图像预测机械臂操作点和方向，实现精细操作。该模型解决了机器人泛化物体操作的问题，提高了其理解物理世界交互方式的能力。这项技术有望让机器人准确执行各种日常物体操作，实现与人类更自然的交互。

热点资讯 03.04

探究科学奇迹：《语言模型物理学》揭示了大模型的逆转诅咒与突破，揭秘神秘现象的新篇章

关于人工智能的大语言模型发展，存在不少问题。其中，GPT-4作为一个典型的例子，尽管已经能够对简单问题给出正确答案，但在处理复杂的顺序性和记忆问题上存在问题。为此，FAIR Labs实验室提出了逆转训练解决方案，试图破解大语言模型的困境。近期的研究论文已发布在预印本平台arXiv上，显示逆转训练可能有助于解决大语言模型的逆转诅咒问题。

生活常识 04.14

苹果发布300亿参数MM1多模态大模型，能看图理解语言。

苹果公司公布了一篇名为《MM1：Methods， Analysis & Insights from Multimodal LLM Pre-training》的论文，介绍了一款“MM1”多模态大模型，拥有图像识别和自然语言推理能力。研究团队利用MM1模型做实验，发现图像分辨率和图像标记数量对模型性能影响较大。MM1模型在预训练指标中实现了最好的性能表现，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试，号称MM1-3B-Chat和MM1-7B-Chat优于市面上绝大多数相同规模的模型。

热点资讯 03.17

大模型与小模型交织，共促科技创新的潮流或者引领未来：揭秘科技创新背后的宏大与微观，一同探索「大模型让让，小模型登场」的主题双引擎并行推动，深度解读科技创新背后的大模型和小模型策略，一起解锁科技发展的新篇章

微软推出小语言模型（SLM），在评估语言、编程、数学能力等的基准测试中表现优于GPT-3、5，预示着未来科技公司将更注重成本效率而非数据量。 4月23日，微软推出小语言模型（SLM） Phi-3系列，表现优于同等规模甚至更大规模模型，标志着人工智能市场进入一个全新的发展阶段。 2023年持续更新模型参数，各大科技公司全力投入人工智能的大战。相较于大模型，小模型在不同场景下更具竞争力，尤其适合手机和PC厂商力推的A IPC、AI手机。虽然大模型对数据和算力的需求高，但其运行成本、具体场景模型调试难度等问题制约了其商业化进程。而小模型因其较高的性能和适应性逐渐成为行业的热门选择。 2024年4月24日，苹果公司发布开源小语言模型 OpenELM，旨在通过适当模型解决问题，并支持“本地+云端”的解决方案，满足不同用户需求。这意味着大模型与小模型的结合将为企业带来更大的灵活性和优势。

热点资讯 05.01

甘肃银行资产规模遭遇‘退步’情况，需要关注并进行应对措施

甘肃银行资产规模增长放缓，近7年来股价缩水90%；资产规模增长速度落后全国平均水平；市场份额倒数第三；罚金25万元；合规管理和金融违规受到关注。未来，甘肃银行还需面对内外挑战。

热点资讯 11.23

黄仁勋：英伟达股价将持续上涨，他预测的关键因素包括营收增长和技术创新

Nvidia 公司宣布，在 2025 财年第三季度其营收达到创历史最高纪录的 351 亿美元。该成就得益于两个关键趋势：一是价值万亿美元的传统 IT 架构的现代化改造，二是人工智能工厂的兴起，前者以支持机器学习和人工智能为目标，后者则旨在制造具有自主 AI 特性的基础设施。Nvidia Hopper 和 Blackwell 架构芯片、Omniverse 平台等产品对这两个趋势起到了重要作用。此外，随着新技术的发展，Nvidia 还受益于新的业务增长机会，包括在全球范围内加速建设和运营区域性的 AI 基础设施。

热点资讯 11.23

中国顶级数据服务商幻方量化，或因涉及‘券商业务’被查！高管团队人已神秘失踪

上海一家知名量化对冲基金公司幻方量化市场总监李橙因涉嫌涉及“券商会佣”被抓。据公司消息，李橙目前正在进行协助调查。公司确认李橙正参与此事，但具体情况尚未得知。该事件未对公司的正常运营产生负面影响，且产品表现尚可。此外，该公司年内已自购2.5亿元，并购买了一只名为“九章幻方沪深300量化多策略1号”的产品，该产品的收益超过10%。对此，业界人士认为，该公司所在的行业佣金水平相对较低，此次事件可能与这个因素有关。

热点资讯 11.23

中小商家渴望“流量平权”

今年双11，各大电商平台将商家减负作为比拼重点，并采取措施降低流量成本，同时电商需要将流量控制权部分交还给商家以实现所有商家的成本下降。面对越来越多的商家，特别是中小商家对双11高度内卷say no，他们选择退出大促。流量价格问题仍未得到真正缓解，中小商家要想在这场竞争中获胜，就需要提高获取自然流量的能力。电商平台需要寻找平衡，既要保护商家权益又要保证消费者的购物体验。

热点资讯 11.23

中颖电子受益于AMOLED显示驱动芯片量产后，有望释放强劲业绩驱动力

中颖电子强调专注芯片设计，尤其是偏专用MCU领域的份额。在全球市场，AMOLED显示驱动芯片正处于品牌市场进攻期。四季度为销售旺季，预计公司将实现营收增长。但需等待导入品牌后方可带来较好业绩驱动力。

热点资讯 11.23

中国联通准备与华为和中兴开展5G设备竞争性谈判采购，争夺市场份额

中国联通将启动2024年5G网络设备集中采购，建议关注合作谈判供应商的竞争性谈判结果。

热点资讯 11.23

非洲智能手机市场季度增长3%，出货量达1840万部

非洲智能手机市场第三季增长2%，份额创历史最高；平均售价下降6%，但仍有巨大潜力。功能机占比过高限制发展。

热点资讯 11.23

阿里电商双重策略布局，稳内稳外反内卷增长

天猫双11当天，集团业务优先级进行梳理，明确了“好货、好价、好服务”的战略，其中，对淘宝天猫开启了大刀阔斧的改革措施，包括停止不必要的试错，全面反行业内卷等。这些改革举措使得阿里巴巴电商业务得到了进一步发展，实现了电商业务乃至整个行业的价值回归。

热点资讯 11.23

保持清醒，警惕AI的「一本正经胡说八道」

美国大学生与谷歌AI聊天机器人对话中遭遇惊人荒诞回复，引发多方质疑。谷歌公司裁定为“荒谬”，否认可能引发悲剧。人工智能频繁出错，并可能造成认知幻觉。未来应加强行业规范和监管，保障人工智能学习环境良好。

热点资讯 11.23

《小巷人家》结局：王尚文陈蕾放弃，庄图南李佳幸福

失去了耐心和热情。最后，在一次家庭聚会中，庄图南提出要与李佳结婚，而李佳则明确表示，她不会为了庄图南而牺牲自己的家庭利益。这就是故事的真相，是不是让人感到意外呢？或许只是因为两个人都是那么优秀的男子汉，他们在各自的道路上都有着各自的目标和追求，这也是一种令人感动的爱情吧。

热点资讯 11.23