Mamba被ICLR无情拒绝,却意外带火了“年度最佳技术原理解读”!

2024-02-27 热点资讯 关注公众号
    # Mamba:Transformer挑战者虽遭ICLR拒绝,热度不减反增,年度最佳解读出炉
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    近日,被寄予厚望的Transformer挑战者——Mamba,在学术界引发了广泛关注。尽管Mamba已被国际学习表征会议(ICLR)正式拒绝,但这并未影响其在研究圈内的“顶流”地位。一篇由牛津互联网研究院研究员Jack Cook撰写,曾在MIT、英伟达和微软任职的通俗解读文章新鲜出炉,迅速在网络上引发热议,并收获了众多网友点赞与收藏,甚至被誉为“年度最佳解读”。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### Mamba核心架构:基于S4的状态空间模型
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    Mamba的核心架构建立在最新的状态空间模型(SSM)架构——S4之上。S4旨在通过中间状态h(t)将输入x(t)映射至输出y(t),特别适合处理连续数据如音频、传感器数据和图像。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    S4通过连续参数矩阵A、B和C实现这一映射,体现在两个关键方程(Mamba论文中的1a和1b)。针对离散数据如文本,需要对SSM进行离散化处理,引入第四个特殊参数Δ,将连续参数转化为离散参数。转化后的离散方程(Mamba论文中的2a和2b)以递归形式运作,类似于RNN网络中每个时间步t中结合前一时间步ht−1的隐藏状态与当前输入xt生成新的隐藏状态ht。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    有趣的是,S4不仅能作为递归神经网络(RNN)使用,还能变形为卷积神经网络(CNN)。通过扩展离散方程计算h3时,可以预计算卷积核,进而用CNN方式高效计算y,表现为方程3a和3b。这两种循环和卷积形式在数学上是等价的,使得S4可根据应用场景灵活转换形态,同时保证输出的一致性。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### 第一个主要思想:可选性
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    Mamba首次引入的重要创新理念是“可选性”。不同于S4中恒定不变的离散参数AB和C,Mamba使其根据输入变化,赋予模型选择性或输入依赖性。这意味着Mamba能够根据任务需求对输入的不同部分给予不同程度的关注,例如在句子理解中区分重要和次要词汇。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    然而,这种选择性带来了训练难题。由于离散参数不再固定,无法预先计算并保存卷积核,导致训练过程中不能采用高效的CNN模式,只能转而采用RNN模式。但RNN模式训练速度较慢,尤其是在面对长序列数据时。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### 第二个主要思想:无需卷积的快速训练
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    为解决上述问题,Mamba提出了第二个重大创新点:在保持RNN模式下实现非常快速的训练。其灵感来源于扫描算法(即前缀和),利用并行计算技术显著加速训练过程。通过借鉴并行前缀和算法原理,Mamba发现在RNN模式下也可以实现近乎O(logn)的时间复杂度,从而大大提升训练效率。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    尽管最初的并行扫描实现并未达到理想效果,但在借鉴了FlashAttention工作后,通过应用内存感知平铺方法进行优化,最终使Mamba在所有序列长度上都超越了已知最快的Transformer实现FlashAttention-2。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### 实验结果与拒稿原因
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    实验结果显示,Mamba在涉及语言、基因组学和音频等多个序列建模任务中表现出色,特别是在人类基因组项目DNA建模和钢琴音乐数据集音频建模方面达到了最先进的水平。而在语言建模任务上,Mamba即使在较小模型规模下也展现出卓越性能,优于同类尺寸的其他模型。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    遗憾的是,Mamba在提交ICLR评审的过程中遭到“二连拒”。审稿人提出的主要驳回理由包括缺乏在公认长序列建模基准LRA上的评估,以及仅依赖困惑度作为主要评价指标可能不足以反映生成性能。对此,有网友表示,论文接收与否并不总能准确反映其对社区的实际贡献价值。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    回顾历史,十年前Word2vec也曾遭遇ICLR的拒绝,但最终在NeurIPS获得了时间检验奖的认可。对于Mamba,我们不禁思考,时间是否会为其带来同样的“正名”机会?各界翘首以待,静观未来进展。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了

上一篇:老年人气虚怎么补 四款药膳效果好
下一篇:老年人气血不足的症状 老年人气血不足表现
更多更酷的内容分享
猜你感兴趣
8/8/6/3的Mamba论文,尽管出色,ICLR 2024还是给出了拒绝。网友感叹:期待的心落空了。

8/8/6/3的Mamba论文,尽管出色,ICLR 2024还是给出了拒绝。网友感叹:期待的心落空了。

Mamba,被视为Transformer的强劲竞争者,在ICLR 2024最终接收结果中被彻底拒绝。这篇论文得到了8/8/6/3的高分,但由于审稿人认为其评估方法存在争议,特别是在缺少LRA基准和评估指标方面,导致了拒稿决定。

热点资讯 02.25
华为P70闪拍功能:CIO亲自解析技术原理,网友热议创新性技术开启手机拍照新篇章!

华为P70闪拍功能:CIO亲自解析技术原理,网友热议创新性技术开启手机拍照新篇章!

博主通过视频展示了一款名为华为P70的手机的抓拍功能。这款手机的抓拍功能异常强大,可以在极短时间内捕捉到高清大图和视频抽帧的结果。该机搭载了一种名为“XD Motion”的运动引擎,能够实现双快门、双曝光,同时配合AI算法,进行高清复原。在拍摄高速运动的物体时,该引擎可以准确地记录下相对固定的背景信息,并且通过计算让两者进行优势互补,有效提高了信噪比,保障了图片的清晰度。此外,该引擎还支持抓拍时速300km/h的运动物体。这一创新技术的应用,对于许多摄影师来说都是一个巨大的福音。

热点资讯 04.23
了解并尊重他人意愿的最高级情商:拒绝的艺术与智慧

了解并尊重他人意愿的最高级情商:拒绝的艺术与智慧

拒绝也是一种智慧,"大胆拒绝,勇敢说不"是生活中最高级的情商。这种理解让我们明白,不要为了别人的一碗水没有端平而做出不必要的牺牲,学会拒绝是最重要的。

民俗文化 07.10
深度解析:OpenAI的O1技术原理及其对互联网行业的深远影响

深度解析:OpenAI的O1技术原理及其对互联网行业的深远影响

【事件概况】OpenAI发布o1模型,该模型在AIME 2024数学竞赛中取得了令人瞩目的成绩。 【重要信息】经过两周的评估,o1模型展现出强大的逻辑推理能力,准确率高达83.3%。相较于GPT-4o,其提高程度达到6倍,展现出了强大的计算力。 【结论与启示】随着o1模型的不断优化和积累,我们看到了人们对人工智能的信心与期待,它为我们揭示了理解复杂问题的新途径。同时,这也提醒我们在追求技术创新的同时,不应忽视词语工程的重要性。未来,我们期待看到更多优秀的人工智能产品出现,共同推动世界的发展。

热点资讯 09.25
腾讯与支付宝涉足零工就业:互联网新趋势的深度解析

腾讯与支付宝涉足零工就业:互联网新趋势的深度解析

11月20日,支付宝官方微信号发布《找工作吗?活多、日结、离家近》一文,提出面向零工群体上线了“日结”专区功能,已在27个大中型城市上线超过15万个零工岗位。而10月17日,腾讯官方微信号发布《腾讯推出新功能:附近的工作》一文,提出在“出行服务”中推出了“零工市场”服务,用户可在此直接查询附近的零工信息,腾讯推出的新功能让零工就业服务更加便捷。 文章指出,近年来,零工需求呈旺盛增长态势,供给端和需求端都有所变化。一方面,随着经济发展,越来越多的人开始从事灵活就业,如自由职业者、兼职等;另一方面,新型灵活就业求职者的比例不断提高,这使得零工市场需求持续攀升。为了满足零工群体的需求,两个巨头已经推出了一些服务,包括支付宝推出的“日结”专区功能和腾讯推出的“零工市场”。未来,线上零工市场将面临一些挑战,比如年龄较大的零工可能无法适应在线工作,并且相关的技术和岗位也会逐渐饱和。因此,规范化和规范化的线下零工市场对于保护零工群体的合法权益至关重要。

热点资讯 11.23
华东重机:成功研发并批量生产GPU芯片,开启智能化新时代

华东重机:成功研发并批量生产GPU芯片,开启智能化新时代

锐信图芯已实现GPU芯片量产和批量供货

热点资讯 11.23
蒋凡回归阿里核心层:谣言粉碎剂的再度出山

蒋凡回归阿里核心层:谣言粉碎剂的再度出山

阿里巴巴集团宣布全面整合淘宝天猫集团、国际数字商业集团等电商业务,成立电商事业群,由蒋凡负责。这标志着阿里核心层期待已久的回归,也为阿里带来了新的惊喜和改变。

热点资讯 11.23
《小巷人家》大结局:意外真相揭示,李佳替‘娘家’还贷20年,黄玲失独痛苦

《小巷人家》大结局:意外真相揭示,李佳替‘娘家’还贷20年,黄玲失独痛苦

夫们打算把庄图南调走,让他去做小姨丈。第四个,他们提出了希望庄图南带着弟弟去养老院的想法。 最荒唐的是李佳居然觉得给娘家居住,给娘家居住已经是她对李家婚姻的最大让步。 庄图南被李佳全家拿捏。这是原著中的重要情节,描述了李佳一家如何利用家庭的力量操控庄图南的决定,展现了他们冷漠无情的态度。同时,这也是小说揭示主题的关键部分,即李佳和庄图南的关系与社会价值观之间的冲突。

热点资讯 11.23
众行致远,巴西之旅:习主席提出共同目标

众行致远,巴西之旅:习主席提出共同目标

二十国集团强调共同发展、减贫,中国推出多项举措支持非洲、南亚国家经济发展。中国通过参与“一带一路”倡议,带动相关国家基础设施建设、文化交流和经济发展。同时,中国也在新能源领域致力于清洁和可再生能源的研发与应用。

热点资讯 11.23
《太阳星辰》:隐藏在繁星背后的连环杀手真相揭开,寻找凯晴的父母,揭示惊人秘密

《太阳星辰》:隐藏在繁星背后的连环杀手真相揭开,寻找凯晴的父母,揭示惊人秘密

法医陈子俊在《太阳星辰》最新剧情中怀疑家杰与星遥父女关系,经过DNA鉴定证实两人并非父女关系。此情节突显了案件背后的复杂性,同时揭示了人物间的深意纠葛和情感转变。家杰与星遥父女重逢或许喜怒哀乐交织,但作为养父母的陈子俊对此反应尤为奇怪。他发现星遥是麦志鸿绑架的牺牲品,但却觉得这一切都是陈法医夫妇精心策划的一场戏。陈法医夫妇利用麦志鸿的疯狂和残忍制造连环杀人事端,他们就是真正的幕后黑手。最后,只有周曼仪才能揭示真相,陈法医妻子的存在为整个故事增加了深度。

热点资讯 11.23
王宝强被冤屈?简单算一算账,真相曝光!

王宝强被冤屈?简单算一算账,真相曝光!

宝强个人在此次事件中面临争议,原因在于其自导自演的电影《八角笼中》票房大卖。这次事件引发了王宝强再度成为公众关注焦点。在这次事件中,有人指出小演员未能收到资助,导致王宝强形象受损。同时,一名孩子家长晒出的聊天记录还还原了王宝强的真实做法。然而,据俱乐部老板的说法,王宝强已经向俱乐部支付了票房的百分之一作为回报,因此并未获得剩余的百分之一。此事件引发了一场广泛的社会讨论,许多网友认为王宝强涉嫌欺骗和勒索。最终,警方介入并对此事进行了调查,结果显示并没有证据证明王宝强有任何不当行为。电影《八角笼中》的票房为22亿元,扣除必要的税收后,真实票房约为91.7亿元。此外,还涉及到制片方、发行方以及影院等多个环节,但具体分配比例尚未明确。虽然目前尚无法确定王宝强是否受到了欺诈和勒索,但在媒体和社会各界的关注下,王宝强未来仍有可能面临法律诉讼。总之,此次事件对于王宝强的声誉造成了影响,并且引发了广泛的社会讨论。

热点资讯 11.23
厦门一夜:妲己同框,老艺术家惹毛背后的故事曝光

神秘厦门之夜:老艺术家和妲己罕见同框,背后的秘辛引人深思

厦门一夜:妲己同框,老艺术家惹毛背后的故事曝光 神秘厦门之夜:老艺术家和妲己罕见同框,背后的秘辛引人深思

第37届金鸡奖颁奖典礼在厦门举行,明星纷至沓来。其中,赵丽颖、王一博、马丽等人出现在现场,表现出极高的颜值和实力。同时,红毯上的名场面也不少,赵丽颖凭借裹披肩的动作赢得了一众好评。此次金鸡奖的奖项设置也体现了明星的社会地位和实力对比。总的来说,这是一个非常值得一看的电影节盛宴。

热点资讯 11.23
霍建华与林心如7岁女儿同台演出,华哥专注全场,眼神透露紧张情绪

霍建华与林心如7岁女儿同台演出,华哥专注全场,眼神透露紧张情绪

这段视频记录了一位台湾明星夫妇霍建华和林心如参加孩子的演出,他们在人群中发现了一对即将进行中文圣诞歌曲演唱的小朋友,两人都没有佩戴口罩。然而,他们并未使用手机拍摄女儿,而是更加用心地照顾孩子。两人在演出后离开现场时还特意回头向他们的女儿方向致意。这使得周围的家长也习以为常,并认为他们是普通人。此外,林心如与霍建华曾因为一个小女孩而发生争执,但是最终他们都选择了和平解决。疫情期间,霍建华休息了三年,每天都会陪孩子,接送孩子上下学。林心如也表示会继续在事业上努力,因为她觉得霍建华是一位非常有责任感的父亲。对于这段关系,林心如并不希望人们过度解读,只是希望能与丈夫一起度过美好的时光。

热点资讯 11.23
巴西主动提出在关键领域帮中国航行的飞船提供帮助,凸显了两国友好的合作关系

巴西主动提出在关键领域帮中国航行的飞船提供帮助,凸显了两国友好的合作关系

中国领导人访问秘鲁,宣布并揭开了钱凯港,标志着南美国家钱凯港正式投入运营。巴西提出了“南美一体化路线”项目,将把巴西与南美洲的所有贸易和发展中心都连接起来。在这样的背景下,巴西也主动提出帮助中国解决问题,包括能源转型、工业和创新发展以及包容性增长。巴西前驻华大使路易斯也支持两国加强合作。

热点资讯 11.22