苹果大模型震撼登场:300亿参数、多模态、MoE架构,华人作者占半数以上!

2024-03-17 热点资讯 关注公众号
    苹果公司在人工智能领域的雄心壮志已昭然若揭,特别是在生成式人工智能(GenAI)方面投入了前所未有的关注与资源。在2024年的股东大会上,苹果CEO蒂姆·库克明确表示,今年将是苹果在GenAI领域实现重大突破的一年。此外,苹果造车项目的部分团队转战至GenAI领域,这进一步印证了苹果对GenAI技术的坚定追求。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    当前,多模态GenAI技术正处在炙手可热的发展阶段,OpenAI的Sora项目尤为引人注目,而苹果公司显然不甘示弱,力图在这一前沿领域建立自己的技术壁垒。近日,苹果科研团队在题为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的联合署名论文中,首次公开了自家研发的大型多模态基础模型研究成果,该模型参数规模高达30B。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    通过访问论文链接:https://arxiv.org/pdf/2403.09611.pdf,我们可以深入了解苹果的研究成果。研究团队细致探讨了架构组件、数据选择等关键因素,并通过一系列实验总结出了一系列设计原则。具体而言,论文主要贡献集中于三个方面:
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    首先,研究人员通过小规模消融实验,在模型架构决策和预训练数据选择上揭示了几条重要的趋势。其中,图像分辨率、视觉编码器损失与容量以及视觉编码器预训练数据的选择被证实具有显著的重要性顺序。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    其次,研究者采用三种类型的预训练数据——图像字幕、交错图像文本和纯文本数据,发现对于少样本及纯文本性能,交错和纯文本训练数据至关重要;而对于零样本性能,则以字幕数据最为重要。这些发现在监督微调后仍然得以保持,证明了预训练阶段的性能表现和建模决策在微调过程中能够得到延续。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    最后,苹果团队构建了一个名为MM1的多模态模型系列,其最大参数量达到惊人的300亿(其他版本为30亿、70亿),由密集模型和混合专家(MoE)变体构成。MM1不仅在预训练指标上达到了行业领先水平,在经过监督微调后,更是在一系列多模态基准测试上展现出了强劲的竞争力。在少样本设置下,MM1在字幕任务和问答任务上的表现超越了Emu2、Flamingo和IDEFICS等现有模型。而在监督微调后的12个多模态基准测试中,MM1也取得了颇具竞争力的成绩。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    得益于大规模多模态预训练,MM1在上下文预测、多图像推理及思维链分析等方面表现出色,并且在指令调优后展现出强大的少样本学习能力。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    深入探究MM1的构建过程,研究者详细阐述了创建高性能多模态大型语言模型(MLLM)所需的关键决策。他们聚焦于架构设计、数据选择和训练程序三大核心方向:
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    - 架构层面,研究团队考察了不同的预训练图像编码器,并探索了如何将LLM与这些编码器有效连接的各种方法。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    - 数据层面,团队考虑了不同类型的数据及其相对混合权重。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    - 训练程序层面,讨论了如何优化MLLM的训练过程,包括超参数设定以及何时训练模型的各个部分。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    在资源有限的前提下,团队采用了简化版的消融设置,通过零样本和少样本(4个和8个样本)在多种VQA和图像描述任务上的性能评估,进行了详尽的组件消融试验。在图像编码器预训练、视觉语言连接器的设计以及预训练数据的选择等方面进行了深入剖析,并得出了多个关键性结论。
苹果大模型杀入场:300亿参数、多模态、MoE架构,超半数是华人    最终,基于上述消融试验结果,研究者确定了MM1多模态预训练的最优配置方案,并通过逐步扩大LLM参数规模至3B、7B乃至30B,同时利用AXLearn框架进行训练,使得MM1在预训练和监督微调后的性能均得到了显著提升。
    在监督微调实验中,MM1的表现尤为突出,不仅在多个基准测试如VQAv2、TextVQA、ScienceQA、MMMBench和MathVista上超越了同等规模的竞争对手,而且在引入MoE架构后,苹果的MoE模型在几乎全部基准测试中都优于对应的密集模型,显示出MoE架构在未来拓展中的巨大潜力。
    综上所述,苹果凭借MM1大型多模态模型的卓越表现,不仅彰显了其在多模态GenAI领域的深厚实力,也为未来可能推出的基于此模型的文生图产品奠定了坚实的基础,让我们共同期待苹果在这一前沿科技领域创造更多激动人心的突破。

上一篇:男人急性子压力小?
下一篇:男人护肝的6个“金点子”
更多更酷的内容分享
猜你感兴趣
苹果发布300亿参数MM1多模态大模型,能看图理解语言。

苹果发布300亿参数MM1多模态大模型,能看图理解语言。

苹果公司公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,介绍了一款“MM1”多模态大模型,拥有图像识别和自然语言推理能力。研究团队利用MM1模型做实验,发现图像分辨率和图像标记数量对模型性能影响较大。MM1模型在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试,号称MM1-3B-Chat和MM1-7B-Chat优于市面上绝大多数相同规模的模型。

热点资讯 03.17
一文读懂:中国复制Sora的模型架构、参数规模、数据规模和训练成本

一文读懂:中国复制Sora的模型架构、参数规模、数据规模和训练成本

出门问问算法团队发布万字长文,解构中国如何复刻OpenAI的Sora。尽管Sora在视频生成领域实现了碾压式超越,但其技术细节并未公开。本文基于实战经验和相关文献,对Sora的技术路线进行有理有据的猜想,并探讨复刻Sora所需关注的重点。

热点资讯 03.01
Kimi迅速走红,星辰发布了万亿参数的MoE(大规模并行增强学习)模型。现在,大模型之间的竞争进入了一个新的阶段。

Kimi迅速走红,星辰发布了万亿参数的MoE(大规模并行增强学习)模型。现在,大模型之间的竞争进入了一个新的阶段。

阶梯星辰发布其新款Step系列通用大模型,包括多种语言模型,优化了多模态能力和文本能力,并成功推动了公司业绩增长。此外,Kimi智能助手凭借长上下文窗口技术实现了无损长度提升,公司已进行多次扩容并计划3月25日上线。未来,AI相关行业将逐渐成为主流,并结合海外市场创新趋势有助于推进AI产业链的发展。投资者可以关注相关公司的股票。

热点资讯 03.25
蚂蚁百灵大模型震撼发布,20亿参数遥感科技,地貌地物尽在掌握!

蚂蚁百灵大模型震撼发布,20亿参数遥感科技,地貌地物尽在掌握!

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense,该模型在17项评测中均超过国际上最新的遥感模型。SkySense是基于蚂蚁百灵大模型平台能力开发的多模态遥感模型,实现了文本、红外光、可见光、SAR雷达多种模态、多分辨率的时序遥感影像建模,在多样化的任务中展现出优异性能。SkySense可广泛应用于城市规划、森林保护、应急救灾、绿色金融、农业监测等重要领域,目前通过蚂蚁内部MEarth平台提供数据与识别服务。蚂蚁集团正在计划开放Skysense模型参数,与行业共建,促进智能遥感技术与应用发展。

热点资讯 02.28
黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩真主党订购台产寻呼机爆炸,以色列事先破坏并伪装成自杀式袭击。

热点资讯 09.19
梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

标题:奇幻高手晒新装!打造双九黎城阵容及联赛冠军帮! 事件起因及关注爆点:梦幻游戏官方曝光九黎城装备,打造双九黎城阵容;另曝雪山表弟团队欲打造联赛冠军帮,提高团队实力。

热点资讯 09.19
70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

张曼获湖南农行派重任官,时值长沙银行半年后新行长人选揭晓,张曼晋升为副行长,成为湖南省万亿上市银行董事长人选,由她提名成为董事会董事候选人。此前张曼加入长沙银行前是中国农业银行的员工,期间担任过多个职务,包括副行长等,此次晋升为总经理。

热点资讯 09.19
东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

今年初,董宇辉成为东方甄选最高薪酬雇员之一。他在2024财年年度收益高达3.41亿港元,包括年薪、奖金、期权和新公司分润。自7月25日分手后,他自立门户已55天。但近日舆论场对其进行猛烈批评,被指责“没有文化”,并有人称对其进行了“绞杀”。在此期间,他面临各种商业挑战,如稳住人设、守住口碑和带领“与辉同行”前行等。目前,他的抖音账号粉丝数量超过51.7万,“与辉同行”账号粉丝数超过165.7万,显示出良好的发展势头。尽管如此,东方甄选主账号却掉了24.3万粉丝,这无疑给与辉同行带来了竞争压力。在完成一系列直播带货数据后,于近日新增了一家名为“与辉同行”的品牌公司,实现了业绩增长。与辉同行目前的销售额和粉丝数量均超过了东方甄选,与竞争对手相比有着明显优势。在未来的发展中,他还将继续努力稳定形象,提升口碑,并带领“与辉同行”走向更广阔的舞台。

热点资讯 09.19
科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯推出全球首款恒压活水洗地机器人地宝X8 PRO PLUS,打破传统洗地模式。此款产品采用滚筒式结构,通过内置恒压系统提供持续的水源,解决了高清洁度和长寿命的问题。此外,它还配备高性能多维视觉模组和业内首个扫地机器人自研大语言模型,实现了智能交互和自主避障,为用户提供便捷高效的生活体验。这一创新突破标志着科沃斯在扫地机器人领域的领先地位,同时也引领了行业的未来发展方向。

热点资讯 09.19
从大小杨到曾志伟:网站编辑成长历程与自我评价

从大小杨到曾志伟:网站编辑成长历程与自我评价

曾志伟率领公司员工全力支持大小杨哥开设的分公司,并为其捧场,以期借此打开新的市场局面。其背后其实是一场互帮互助的好事。曾志伟的入场既是为了捞取后者的人气,也是为了扩张公司的影响力。最终,被挖墙角的不仅是大小杨哥所在的分公司,还有曾经在其中大放异彩的明星们。

热点资讯 09.19
梦幻西游中西栅黑的绰号-麻狼蹲着尿尿与七星地煞奖励2级神秘石

梦幻西游中西栅黑的绰号-麻狼蹲着尿尿与七星地煞奖励2级神秘石

黑总改名为“麻狼蹲着尿尿”,西栅老街黑总的160法暴神链号已被转会至超级联赛。 内容总结:黑总改名成“麻狼蹲着尿尿”,黑总的新号已在超级联赛报名中。

热点资讯 09.19
深一度:深度解读手机通信技术——寻找寻呼机的历史与现实威胁

深一度:深度解读手机通信技术——寻找寻呼机的历史与现实威胁

黎巴嫩发生多个区域的无线通信设备爆炸事件,伤亡人数超过4000人,死亡人数增多至11人。爆炸可能是由装置故障、电池过热等原因引发。目前,真主党方面怀疑是有人通过传呼机发送恶意信号或指令导致电池过热引发爆炸。该情况引起了外交与安全部门的高度关注,目前尚不清楚爆炸的具体原因。

热点资讯 09.19
梦幻西游:150四蓝字扇子与120第一3伤害戒指,价值远超预期的32万交易揭示

梦幻西游:150四蓝字扇子与120第一3伤害戒指,价值远超预期的32万交易揭示

这位热爱游戏的老玩家在鉴定了一把蓝字扇子后被震惊,发现竟然有疾风荡魄、珍宝、绝杀和必中四种蓝字,对此感到十分兴奋。同时,他也发现了新出的80级超简易戒指具有双速度和敏攻双属性,并且其价格预计会受到市场需求的影响。中秋节当天,一位狗托玩家炸出了11技能的谛听,他立即通过传音方式表达了自己的快乐心情,并成功以32.5万的价格售出了该戒指。

热点资讯 09.19
感受新款iPhone 16系列与手表耳机的细微差别:手机真机与图片观感大不相同

感受新款iPhone 16系列与手表耳机的细微差别:手机真机与图片观感大不相同

样触发拍照模式。对于第三方品牌来说,虽然苹果在智能硬件市场一直具有强大的影响力,但是在智能设备的设计与创新方面却始终表现得相对较弱。此次发布的全系新产品中,消费者可以看到大量模仿自家产品的元素,这也是为何众多科技媒体都将此次发布会称为"战场上的传统秀"。 这次苹果发布会,无论是新品还是之前的老款产品,都被展示得各有特色,而且在很多细节之处都有着独特的设计感。比如iPhone 16系列的新配色方案,既没有了上一代的简洁清新,也没有牺牲细节美感,而是通过色彩的对比使得整体更加活泼明亮。而这些变化,在保证外观美观的同时,也为用户带来了更好的视觉体验。 此外,苹果的全新AR技术也在发布会上得到了深度展示。通过全新的眼镜式AR设备,用户可以在家中就能体验到前所未有的沉浸式体验。这种设备不仅能够提供丰富的视觉信息,还可以让用户参与到游戏或者娱乐活动中去,大大提升了用户的参与感和乐趣。 总的来说,苹果发布的新品及新技术都展现了其强大的创新能力,并且在细节之处充满了创新设计。这对于科技行业来说无疑是一个好消息,也是消费者期待已久的表现。

热点资讯 09.19