特斯拉马斯克公开了巨大的Grok参数库。它可以免费使用,并且有超过3140亿的参数。这是一个非常强大的工具!

2024-03-18 热点资讯 关注公众号

鱼羊 克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

马斯克说到做到:

旗下大模型Grok现已开源

代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——

就是说,这是当前开源模型中参数量最大的一个。

消息一出,Grok-1的GitHub仓库已揽获4.5k标星,并且还在库库猛涨。

表情包们,第一时间被吃瓜群众们热传了起来。

而ChatGPT本Chat,也现身Grok评论区,开始了和马斯克新一天的斗嘴……

那么,话不多说,来看看马斯克这波为怼OpenAI,究竟拿出了什么真东西。

Grok-1说开源就开源

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。

具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。

结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家,总参数量为314B(3140亿),处理Token时,其中的两个专家会被激活,激活参数量为86B。

单看这激活的参数量,就已经超过了密集模型Llama 2的70B,对于MoE架构来说,这样的参数量称之为庞然大物也毫不为过。

不过,在GitHub页面中,官方也提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。

这里MoE层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。

模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。

而且这个“足够的GPU”,要求不是一般的高——YC上有网友推测,如果是8bit量化的话,可能需要8块H100。

除了参数量前所未有,在工程架构上,Grok也是另辟蹊径——

没有采用常见的Python、PyTorch或Tensorflow,而是选用了Rust编程语言以及深度学习框架新秀JAX。

而在官方通告之外,还有许多大佬通过扒代码等方式揭露了Grok的更多技术细节。

比如来自斯坦福大学的Andrew Kean Gao,就针对Grok的技术细节进行了详细解释。

首先,Grok采用了使用旋转的embedding方式,而不是固定位置embedding,旋转位置的embedding大小为 6144,与输入embedding相同。

当然,还有更多的参数信息:

窗口长度为8192tokens,精度为bf16

Tokenizer vocab大小为131072(2^17),与GPT-4接近;

embedding大小为6144(48×128);

Transformer层数为64,每层都有一个解码器层,包含多头注意力块和密集块;

key value大小为128;

多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;

密集块(密集前馈块)扩展因子为8,隐藏层大小为32768。

除了Gao,还有英伟达AI科学家Ethan He(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同——

Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。

而至于有没有更多细节,可能要看官方会不会发布进一步的消息了。

另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是说,商用友好

为怼OpenAI怒而Open

大家伙知道,马斯克因为OpenAI不Open,已经向旧金山高等法院提起诉讼,正式把OpenAI给告了。

不过当时马斯克自己搞的Grok也并没有开源,还只面向的付费用户开放,难免被质疑双标。

大概是为了堵上这个bug,马斯克在上周宣布:

本周,xAI将开源Grok。

虽然时间点上似乎又是马斯克一贯的迟到风格,但xAI的这波Open如今看来确实不是口嗨,还是给了网友们一些小小的震撼。

有xAI新晋员工感慨说:

这将是激动人心的一年,快系好安全带吧。

有人已经期待起Grok作为一个开源模型,进一步搅动大模型竞争的这一池水。

不过,也并不是每个人都买马斯克的账:

不过说归说,多线并进的马斯克,最近大事不止开源Grok这一件。

作为多公司、多业务的时间管理大师,马斯克旗下,特斯拉刚刚全线推出了端到端纯视觉的自动驾驶系统FSD V12,所有北美车主用户,都OTA更新升级,可以实现所有道路场景的任意点到点AI驾驶。

SpaceX则完成了第三次星舰发射,虽然最后功败垂成,但又史无前例地迈进了一大步。

推特则开源了推荐算法,然后迎来了一波自然流量新高峰。

别人都是 you can you up, no can no bb…马斯克不一样,bb up不选择,边喊边干,还都干成了。

参考链接:

[1]https://github.com/xai-org/grok-1

[2]https://x.ai/blog/grok-os


通过以上,我们可以看出马斯克对于开源大模型的态度是非常坚决的,他不仅自己公开了Grok-1的基础模型权重和网络架构,而且还邀请了众多业界人士对其进行了详细的解读。同时,马斯克表示,下周AIAI也会开源Grok。
从这些消息可以看出,马斯克正在积极寻求将自家的大模型成果进行开源,以推动人工智能的发展。他的坚持和决心得到了市场的认可,这也使得他成为了人工智能领域的代表人物之一。
不过,我们也应该看到,开源是一种挑战,如何保证源代码的质量和稳定性,防止其被恶意修改,甚至被盗用,都是非常重要的问题。因此,马斯克开源Grok的决定,可能会引发关于AI版权保护的问题。对于这个问题,我们需要从多个角度来考虑,包括技术创新、市场需求、法律法规等多个方面。

上一篇:复盘MWC24:RAN产业如何搭上AI列车?
下一篇:2024年的楼市,是抄底的好时机吗?5方面分析告诉你“答案”!
更多更酷的内容分享
猜你感兴趣
有实际行动的特斯拉王——马斯克宣布开源Grok,免费提供高达3140亿参数。我们的目标是推动技术进步,让每个人都能使用到。

有实际行动的特斯拉王——马斯克宣布开源Grok,免费提供高达3140亿参数。我们的目标是推动技术进步,让每个人都能使用到。

马斯克成功开源Grok-1大型语言模型,具有参数量高达3140亿,远超GPT-3.5的参数量,具备语言外的能力,预计未来将成为多模态的大模型。Grok-1已经集成到社交媒体平台X中,并可以通过回复来提供尖锐的回复,可商用。不过,目前无法直接体验到对话应用,且还没有针对特定任务进行微调,适合各种应用场景。

热点资讯 03.19
马斯克发布的Grok-1开源项目,有超过3140亿个参数,是迄今为止最大的。

马斯克发布的Grok-1开源项目,有超过3140亿个参数,是迄今为止最大的。

特斯拉CEO马斯克的AI创企xAI宣布发布3140亿参数的混合专家模型Grok-1,参数量远超OpenAI GPT-3.5。此外,该模型具有高智能和批判性思维,并将在LML和MMLU等评测中取得优异成绩。

热点资讯 03.18
特斯拉CEO马斯克日前发布了全球最大的开源人工智能模型。这个模型有3140亿个参数,击败了OpenAI的Grok,再次展现了他的创新能力和科技实力。

特斯拉CEO马斯克日前发布了全球最大的开源人工智能模型。这个模型有3140亿个参数,击败了OpenAI的Grok,再次展现了他的创新能力和科技实力。

马斯克宣布开源自家公司的大模型(Grok-1)。该模型参数达到3140亿,为最大开源大模型。王煜全对此表示理解并提出判断未来发展的两个关键因素——趋势和模式。 anthropic公司推出的Claude 3大模型有望影响未来,因其具有多个模态和多agent处理能力。

热点资讯 03.19
马斯克的AI公司今日发布了最新大模型Grok-1,其参数量高达3140亿。这款模型将为AI技术提供强大的支撑。

马斯克的AI公司今日发布了最新大模型Grok-1,其参数量高达3140亿。这款模型将为AI技术提供强大的支撑。

美国埃隆·马斯克旗下的人工智能初创公司xAI发布了其大语言模型Grok-1的基本模型权重和网络架构,并已经开源。

热点资讯 03.18
荷兰抵制通过2758号决议

荷兰抵制通过2758号决议

题上并不是第一次采取这样的行动,最近的动作尤为嚣张,这显然不是和平的方式解决问题。荷兰的行为已经引发了很多国家的关注,尤其是对中国来说,这无疑是又一次挑衅。中国坚决反对任何对国际法的践踏和对国际秩序和规则的公然挑战,对于荷兰的做法,中国必须坚决回击。中国的立场鲜明且坚定,相信在不久的将来,国际社会会看到公正与和平的一面。

热点资讯 09.19
华为三折叠手机是否将于近期发布?小米荣耀的布局动作是否值得关注?

华为三折叠手机是否将于近期发布?小米荣耀的布局动作是否值得关注?

小米2022年12月21日提交三折叠手机外观设计专利

热点资讯 09.19
新款电动车强制性国标发布,新增多项标准让你出行更安心

新款电动车强制性国标发布,新增多项标准让你出行更安心

工业和信息化部等多部门对《电动自行车安全技术规范》进行公开征求意见,做了很多改进和提升,提高了防火阻燃性能、防范非法改装行为,优化了电动车额定功率和最高转速的测试方法,提升了产品实用性,包括降低火灾事故风险、减少非法篡改行为、动态安全监测、提升续航里程等。此次新修订的标准旨在提升电动自行车产品的安全水平,促进行业的规范化发展,保护人民群众生命财产安全。

热点资讯 09.19
IBM裁员人数超过1000人,其中大部分集中在50-55岁的职场精英群体

IBM裁员人数超过1000人,其中大部分集中在50-55岁的职场精英群体

本文报道称,根据一位IBM内部员工透露的信息,该公司的美国总部近期秘密进行了大规模裁员,受影响的数千人。裁员的原因与传统裁员不同,本次裁员未经正式通知。该员工表示他的经理告诉他必须签署保密协议才能讨论具体细节。据悉,IBM在全球约有288,000名员工,且在2023年末,已经裁员3,900人。该公司正在考虑调整人力配置以满足AI需求,并在印度和其他地区招聘新职位以确保员工数量稳定。该裁员可能导致约5,200个职位减少,涉及4亿美元的费用。目前还不清楚在这次裁员中哪些职位会被关闭或转至印度。此外,由于泄露事件的影响,一些招聘信息已被替换为招聘其他地点。至于新职位的具体位置和时间,公司方面尚未给出明确答复。该公司股价在过去三个月内上涨了33%。

热点资讯 09.19
2023年中国MCU市场规模持续扩大至282亿美元,领先全球

中国MCU市场规模稳步增长至282亿美元,占据全球主导地位

2023年中国MCU市场有望突破282亿美元,引领全球消费电子趋势

中国MCU市场增长强劲,已超全球平均水平,未来前景广阔

2023年中国MCU市场规模持续扩大至282亿美元,领先全球 中国MCU市场规模稳步增长至282亿美元,占据全球主导地位 2023年中国MCU市场有望突破282亿美元,引领全球消费电子趋势 中国MCU市场增长强劲,已超全球平均水平,未来前景广阔

新冠疫情期间加剧芯片供应紧张,推动MCU价格上涨;厂商逐渐转向成本更低、性能更强的Arm生态系;但取代率上升可能促使MCU价格继续下滑。预计未来几年MCU平均单价会跌至0.88美元。整体来看,MCU价格将持续波动。

热点资讯 09.19
越南欲通过新铁路项目加强与中国老挝的合作

越南欲通过新铁路项目加强与中国老挝的合作

越南政府成立特别工作组,负责实施连接越南与中国和老挝的铁路投资项目。

热点资讯 09.19
重庆紧急发布高温红色预警,最高温预计将达40摄氏度以上!

重庆紧急发布高温红色预警,最高温预计将达40摄氏度以上!

重庆市气象局发布高温红色预警信号,预计未来15小时内,重庆市13个区县海拔400米以下地区将出现高温天气,并伴有强烈日照和酷热感,需注意防暑降温。 详细信息:重庆气象局发布高温红色预警信号,预计未来15小时内,重庆市13个区县海拔400米以下地区将出现高温天气,并伴有强烈日照和酷热感,需注意防暑降温。

热点资讯 09.19
蔚来将收购比利时奥迪工厂:激进还是稳健之举?

蔚来将收购比利时奥迪工厂:激进还是稳健之举?

蔚来打算收购奥迪在比利时沃斯特的工厂,以降低关税并提升产品在欧洲的销售能力。尽管面临国内市场竞争和欧洲不确定性的风险,但收购被认为是一个合理的决策。目前,该工厂已在挪威、德国、荷兰、瑞典和丹麦等地启动运营,并已成功交付首批用户。

热点资讯 09.19
港媒揭示:美国持续投入巨额补贴仍未能撼动中国稀土的地位

港媒揭示:美国持续投入巨额补贴仍未能撼动中国稀土的地位

场上的领导地位不可动摇。在稀土资源开发方面,中国将继续占据主导地位,这得益于其丰富的资源储备和多年的技术积累。然而,西方国家为了摆脱对中国的依赖,正在采取一系列措施,包括投资建设稀土工厂以增强供应链自主性,但成效有限。面对稀土价格波动这一难题,中国政府增加了稀土开采配额并遏制了市场供应过剩,这让其他国家的稀土项目发展受到了影响。同时,一些企业也面临着资金困境和市场竞争压力。综合来看,中国将继续掌控全球稀土市场,并有望在未来发挥更大的影响力。

热点资讯 09.19
Marvell联合创始人周秀文逝世,科技界损失一位重要人物

Marvell联合创始人周秀文逝世,科技界损失一位重要人物

周秀文于9月18日在印度尼西亚雅加达出生并学习汽车配件店零件组装知识,然后在美国攻读了电机工程学士和博士学位,并在加州大学伯克利分校获得硕士和博士学位。其团队创建了Marvell Technology公司,希望制造出能产生“奇妙”效果的设备。周秀文去世的消息引发广泛关注,尽管传统观点认为这种方法不切实际,但Marvell很快成为了许多全球领先的科技公司的重要合作伙伴。

热点资讯 09.19