Mamba被ICLR无情拒绝,却意外带火了“年度最佳技术原理解读”!

2024-02-27 热点资讯 关注公众号
    # Mamba:Transformer挑战者虽遭ICLR拒绝,热度不减反增,年度最佳解读出炉
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    近日,被寄予厚望的Transformer挑战者——Mamba,在学术界引发了广泛关注。尽管Mamba已被国际学习表征会议(ICLR)正式拒绝,但这并未影响其在研究圈内的“顶流”地位。一篇由牛津互联网研究院研究员Jack Cook撰写,曾在MIT、英伟达和微软任职的通俗解读文章新鲜出炉,迅速在网络上引发热议,并收获了众多网友点赞与收藏,甚至被誉为“年度最佳解读”。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### Mamba核心架构:基于S4的状态空间模型
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    Mamba的核心架构建立在最新的状态空间模型(SSM)架构——S4之上。S4旨在通过中间状态h(t)将输入x(t)映射至输出y(t),特别适合处理连续数据如音频、传感器数据和图像。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    S4通过连续参数矩阵A、B和C实现这一映射,体现在两个关键方程(Mamba论文中的1a和1b)。针对离散数据如文本,需要对SSM进行离散化处理,引入第四个特殊参数Δ,将连续参数转化为离散参数。转化后的离散方程(Mamba论文中的2a和2b)以递归形式运作,类似于RNN网络中每个时间步t中结合前一时间步ht−1的隐藏状态与当前输入xt生成新的隐藏状态ht。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    有趣的是,S4不仅能作为递归神经网络(RNN)使用,还能变形为卷积神经网络(CNN)。通过扩展离散方程计算h3时,可以预计算卷积核,进而用CNN方式高效计算y,表现为方程3a和3b。这两种循环和卷积形式在数学上是等价的,使得S4可根据应用场景灵活转换形态,同时保证输出的一致性。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### 第一个主要思想:可选性
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    Mamba首次引入的重要创新理念是“可选性”。不同于S4中恒定不变的离散参数AB和C,Mamba使其根据输入变化,赋予模型选择性或输入依赖性。这意味着Mamba能够根据任务需求对输入的不同部分给予不同程度的关注,例如在句子理解中区分重要和次要词汇。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    然而,这种选择性带来了训练难题。由于离散参数不再固定,无法预先计算并保存卷积核,导致训练过程中不能采用高效的CNN模式,只能转而采用RNN模式。但RNN模式训练速度较慢,尤其是在面对长序列数据时。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### 第二个主要思想:无需卷积的快速训练
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    为解决上述问题,Mamba提出了第二个重大创新点:在保持RNN模式下实现非常快速的训练。其灵感来源于扫描算法(即前缀和),利用并行计算技术显著加速训练过程。通过借鉴并行前缀和算法原理,Mamba发现在RNN模式下也可以实现近乎O(logn)的时间复杂度,从而大大提升训练效率。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    尽管最初的并行扫描实现并未达到理想效果,但在借鉴了FlashAttention工作后,通过应用内存感知平铺方法进行优化,最终使Mamba在所有序列长度上都超越了已知最快的Transformer实现FlashAttention-2。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    ### 实验结果与拒稿原因
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    实验结果显示,Mamba在涉及语言、基因组学和音频等多个序列建模任务中表现出色,特别是在人类基因组项目DNA建模和钢琴音乐数据集音频建模方面达到了最先进的水平。而在语言建模任务上,Mamba即使在较小模型规模下也展现出卓越性能,优于同类尺寸的其他模型。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    遗憾的是,Mamba在提交ICLR评审的过程中遭到“二连拒”。审稿人提出的主要驳回理由包括缺乏在公认长序列建模基准LRA上的评估,以及仅依赖困惑度作为主要评价指标可能不足以反映生成性能。对此,有网友表示,论文接收与否并不总能准确反映其对社区的实际贡献价值。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了    回顾历史,十年前Word2vec也曾遭遇ICLR的拒绝,但最终在NeurIPS获得了时间检验奖的认可。对于Mamba,我们不禁思考,时间是否会为其带来同样的“正名”机会?各界翘首以待,静观未来进展。
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了

上一篇:老年人气虚怎么补 四款药膳效果好
下一篇:老年人气血不足的症状 老年人气血不足表现
更多更酷的内容分享
猜你感兴趣
8/8/6/3的Mamba论文,尽管出色,ICLR 2024还是给出了拒绝。网友感叹:期待的心落空了。

8/8/6/3的Mamba论文,尽管出色,ICLR 2024还是给出了拒绝。网友感叹:期待的心落空了。

Mamba,被视为Transformer的强劲竞争者,在ICLR 2024最终接收结果中被彻底拒绝。这篇论文得到了8/8/6/3的高分,但由于审稿人认为其评估方法存在争议,特别是在缺少LRA基准和评估指标方面,导致了拒稿决定。

热点资讯 02.25
华为P70闪拍功能:CIO亲自解析技术原理,网友热议创新性技术开启手机拍照新篇章!

华为P70闪拍功能:CIO亲自解析技术原理,网友热议创新性技术开启手机拍照新篇章!

博主通过视频展示了一款名为华为P70的手机的抓拍功能。这款手机的抓拍功能异常强大,可以在极短时间内捕捉到高清大图和视频抽帧的结果。该机搭载了一种名为“XD Motion”的运动引擎,能够实现双快门、双曝光,同时配合AI算法,进行高清复原。在拍摄高速运动的物体时,该引擎可以准确地记录下相对固定的背景信息,并且通过计算让两者进行优势互补,有效提高了信噪比,保障了图片的清晰度。此外,该引擎还支持抓拍时速300km/h的运动物体。这一创新技术的应用,对于许多摄影师来说都是一个巨大的福音。

热点资讯 04.23
了解并尊重他人意愿的最高级情商:拒绝的艺术与智慧

了解并尊重他人意愿的最高级情商:拒绝的艺术与智慧

拒绝也是一种智慧,"大胆拒绝,勇敢说不"是生活中最高级的情商。这种理解让我们明白,不要为了别人的一碗水没有端平而做出不必要的牺牲,学会拒绝是最重要的。

民俗文化 07.10
深度解析:OpenAI的O1技术原理及其对互联网行业的深远影响

深度解析:OpenAI的O1技术原理及其对互联网行业的深远影响

【事件概况】OpenAI发布o1模型,该模型在AIME 2024数学竞赛中取得了令人瞩目的成绩。 【重要信息】经过两周的评估,o1模型展现出强大的逻辑推理能力,准确率高达83.3%。相较于GPT-4o,其提高程度达到6倍,展现出了强大的计算力。 【结论与启示】随着o1模型的不断优化和积累,我们看到了人们对人工智能的信心与期待,它为我们揭示了理解复杂问题的新途径。同时,这也提醒我们在追求技术创新的同时,不应忽视词语工程的重要性。未来,我们期待看到更多优秀的人工智能产品出现,共同推动世界的发展。

热点资讯 09.25
梦幻西游:六千万梅花酒换三倍回报,挖掘地图春意盎然

梦幻西游:六千万梅花酒换三倍回报,挖掘地图春意盎然

最近一个兄弟逆袭成功,通过隐藏宝藏和打书得到珍贵装备,但也花掉大量资金。另一个兄弟遭遇新手陷阱,买到假冒商品并损失惨重。最后,主播马头头成功打造一只全红金绕僧,但还需继续努力追全红。喜欢的同学可以关注、分享和收藏。

热点资讯 11.10
比正派更帅气的阿拉戈四魔将:魔神坛斗士:比正派更强力的战斗力与独特魅力的阿拉戈四魔将

比正派更帅气的阿拉戈四魔将:魔神坛斗士:比正派更强力的战斗力与独特魅力的阿拉戈四魔将

魔神坛斗士是一部改编自原作《铠传》的日本漫画,因其强大的人物塑造和剧情吸引而备受瞩目。其中的鬼魔将阿拉戈四魔将实力强大,同时又具有强烈的复仇精神,特别是剧中饰演的那哑挫角色,智商高、战斗经验丰富,但形象却给人一种冷酷无情的感觉。另外,暗魔将恶奴弥守和幻魔将螺咒罗也各有特点,但在总体上,他们都展现了出色的战斗技巧和人格魅力。

热点资讯 11.10
Uzi陷入困境,MLXG出手相援,LPL传奇杯感动一幕引热议

Uzi陷入困境,MLXG出手相援,LPL传奇杯感动一幕引热议

Uzi参加传奇杯后陷入困境,老OMG上单Gogoing、中单无状态只剩两人,多名解说质疑传奇杯官方立场。最终, MLXG助力Uzi在关键时刻选中了西门夜说,Uzi粉丝大受鼓舞。

热点资讯 11.10
AG4-1KSG的五年辉煌,挑战总决赛的冠军可能

AG4-1KSG的五年辉煌,挑战总决赛的冠军可能

拿下了五场比赛的胜利,并且在第四场的比赛中以4-1击败了KSG,晋级到总决赛。这一战的胜利为AG超玩会带来了巨大的荣誉,并且也打破了KSG战队在KPL赛事中的无敌记录。尽管这个结果并不如预期,但AG超玩会展现出了他们的实力和毅力,证明了他们是今年最强的队伍之一。AG超玩会的胜利也让我们看到了KPL赛事的魅力和精彩。我们期待他们在未来的比赛中能够继续保持这样的高水平表现。

热点资讯 11.10
2024年全球各国新能源汽车渗透率分析:日美印度落后,我国提升至2.9%

2024年全球各国新能源汽车渗透率分析:日美印度落后,我国提升至2.9%

当前全球汽车市场呈现稳定增长态势,其中新能源汽车尤其引人关注。中国在2024年新能源汽车市场的表现异常抢眼,占全球市场份额近六成。欧洲和北美市场也在加大投入推广新能源汽车,但总体来看,中国仍占据主导地位。各国对新能源汽车的推动政策不断优化,有望进一步提高新能源汽车的普及率。

热点资讯 11.10
小鹏P7+引领行业革新:仅需4小时即达成31528台预定目标

小鹏P7+引领行业革新:仅需4小时即达成31528台预定目标

截至11月7日24点,小鹏P7+收获31528台大定订单。小鹏P7+有多成功呢?这个数据超过了小鹏过往所有的纪录,而之前被认为“爆款”的MONA M03,达到3万大定用了48小时。未来周末,随着到店看车、试驾的潜客增加,P7+的订单还有望迎来第二波增长高峰。虽然最终P7+给出的上市价格还未公布,但其成功已无需过多解读,因为其背后是对科技的追求和对品质的坚持。小鹏汽车通过全新SoC解析技术,提升了0.6km的续航里程,使得P7+具备极高的能耗表现。它的成功证明,即使面对激烈的市场竞争和价格战,也能保持产品的核心竞争力。

热点资讯 11.10
特朗普政府推动,中国汽车降价潮或将持续

特朗普政府推动,中国汽车降价潮或将持续

11月7日,特朗普总统赢得选举,他的上台对全球产业格局产生巨大影响,电动车是否受到欢迎备受关注。特斯拉CEO马斯克的胜利不仅推动了股价猛涨,也为特斯拉带来了新的发展机遇。然而,电动车在美国的发展仍面临诸多困难,如政策阻力、规模效应及海外市场不确定性等。特斯拉能否在未来成功,还需进一步观察。

热点资讯 11.10
第三季度加仓首选:险资抢滩那些热门股票

第三季度加仓首选:险资抢滩那些热门股票

今年来,保险资金举牌次数创五年新高,累计达12次,涉及700多家上市公司,总投资规模超过1.6万亿。同时,险资加大对私募股权投资基金的投资布局,包括中国人寿、新华保险、陕煤业、伊利股份等。这一现象反映出保险资金对长期资本市场的信心,并带来了投资收益的增长。未来,监管部门将继续推动保险业的高质量发展,包括扩大保险资金长期投资改革试点等。

热点资讯 11.10
红杉中国:郭山汕创立新投资机构,成功引领拼多多与极兔快递等领域重大项目

红杉中国:郭山汕创立新投资机构,成功引领拼多多与极兔快递等领域重大项目

郭山汕自2024年10月创办熵管理投资机构,涉足公开市场股权投资、基金投资和慈善活动,其中投资拼多多、中通快递、极兔速递、满帮集团、BOSS直聘、得物、货拉拉、达达-京东到家等公司。投资界曾报道,红杉中国合伙人郭山汕在2016年末参与拼多多投资时完成尽调,并由麦肯锡出身的他确认数据真实性,下注拼多多。

热点资讯 11.10
巨额投资下,泡泡玛特再次海外布局:泰国寻求疗伤之旅?

巨额投资下,泡泡玛特再次海外布局:泰国寻求疗伤之旅?

11月2日,泡泡玛特在菲律宾的首个快闪店开业,实现了在东南亚六国的线下门店全面覆盖。 2021年以来,泡泡玛特在新加坡开出东南亚首店,之后一直保持稳步增长。数据显示,2023年全年,海外市场营收同比增长134.9%。这意味着它已经成为推动海外业务的关键力量。 泡泡玛特重视线下实体店,与当地艺术家合作,打造有文化感的品牌,并且强调品牌文化对用户吸引力的重要性。

热点资讯 11.10