世界最强模型改朝换代,GPT-4被全面碾压

2024-03-05 热点资讯 关注公众号
    【全新发布】Anthropic AI震撼宣布:Claude 3系列模型强势登场,直接撼动行业基准!
全球最强大模型一夜易主,GPT-4被全面超越    来自凹非寺的前沿报道,量子位公众号QbitAI带来了最新的科技动态。Anthropic作为OpenAI的主要竞争对手,此次推出的Claude 3模型家族以其旗舰版Claude 3 Opus为代表,宣称其“已近乎实现与人类相当的理解能力”。该模型在推理、数学、编码、多语言理解及视觉处理等多领域全面超越包括GPT-4在内的所有大型预训练模型,无疑为整个行业设定了全新的标准。
全球最强大模型一夜易主,GPT-4被全面超越    Claude 3的成绩单令人瞩目,在数个数学评测中,它以零样本学习的方式力压GPT-4的四至八次采样结果。此外,Claude系列新模型提供前所未有的200K上下文窗口,并能接受超过100万Tokens的输入,展现了其卓越的长文本处理能力。
全球最强大模型一夜易主,GPT-4被全面超越    目前,用户可以免费体验Claude 3家族中的Sonnet,而最强版本Claude 3 Opus则供付费用户专享,但大模型竞技场同样提供了试用机会,引发网友们的热烈追捧和实验热潮。同时,Opus和Sonnet均已开放API访问权限,开发者们可立即启用这一最新成果。
全球最强大模型一夜易主,GPT-4被全面超越    面对Claude 3的强大性能,有人甚至半开玩笑地向OpenAI喊话:“好了,你们现在可以推出GPT-5了。”不过,OpenAI可能正忙于应对马斯克的诉讼案件。
全球最强大模型一夜易主,GPT-4被全面超越    Claude 3家族共包含三个型号——小杯Haiku、中杯Sonnet以及大杯Opus,三者成本与性能逐级递增。全系模型在多个维度进行了显著提升,其中Opus在MMLU、GPQA、GSM8K等多个评估基准上傲视群雄。在视觉能力方面,Claude 3能够处理包括照片、图表、图形和技术图表在内的多种视觉格式。
全球最强大模型一夜易主,GPT-4被全面超越    爱丁堡大学博士生符尧,同时也是中文大模型知识评估基准C-Eval的提出者之一,指出在MMLU / GSM8K / HumanEval等基准测试中,各模型表现已高度饱和,真正区分模型性能的是MATH和GPQA等更为严苛的测试。值得一提的是,Claude 3在拒绝回答不恰当或无法准确回答的问题方面取得了重大进步,显著降低了拒绝回答的可能性。
全球最强大模型一夜易主,GPT-4被全面超越    在上下文理解和记忆能力上,Anthropic采用NIAH测试方法,结果显示Claude 3 Opus在海量数据中精准检索信息的能力极其出色,实现了接近完美的召回率(超过99%的准确率),并且在某些情况下还能识别出人为插入的“针”句,体现出对评估局限性的敏锐洞察力。
全球最强大模型一夜易主,GPT-4被全面超越    Claude 3在生物知识、网络相关知识等方面也有所突破,虽然仍处于安全级别ASL-2,但在智能与反应速度上的优化十分明显。无论是小杯Haiku能在短短三秒内理解含图表的约10k token arXiv论文,还是中杯Sonnet在保持高智能水平的同时,响应速度比Claude 2和Claude 2.1快两倍,特别擅长快速的知识检索和自动化销售场景;再到大杯Opus虽智能最高却未牺牲速度,与前代Claude模型相近,都体现了Anthropic对于模型性能和效率的极致追求。
全球最强大模型一夜易主,GPT-4被全面超越    官方对三种型号有明确的应用定位:大杯Opus适用于复杂的任务自动化、研发与策略制定;中杯Sonnet性价比出众,更利于规模化应用,适合进行数据处理、RAG任务以及在中等复杂度工作流程中节省时间;小杯Haiku凭借超快响应速度和亲民价格,成为实时互动及简单工作流程自动化场景的理想选择。
全球最强大模型一夜易主,GPT-4被全面超越    在定价策略上,最经济的小杯Haiku每1M tokens输入收费0.25美元,而顶级配置的大杯Opus则为75美元/1M tokens输入,尽管相比GPT-4 Turbo价格略高,但这也反映了Anthropic对其产品的强大信心和品质保证。
全球最强大模型一夜易主,GPT-4被全面超越    随着Claude 3官网更新,众多用户已第一时间体验到了这款模型的图像理解和处理功能,如风格改进推荐、从图像提取文本、前端代码转换、复杂方程解析以及手写笔记转录等。即便是模糊且年代久远的手稿文档,Claude 3也能准确进行OCR识别。
全球最强大模型一夜易主,GPT-4被全面超越    尽管由于访问人数过多,部分用户在初次尝试时遭遇了连接失败,但热心网友们已经分享了许多Claude 3的实际应用案例,比如让Sonnet成功解答谜题、解读ASCII码,甚至在编程任务上展示出了较GPT-4更为严谨的态度。而在面对用户的巧妙试探时,Claude 3 Opus展现出了极高的智能水平,轻松避开各种陷阱。
全球最强大模型一夜易主,GPT-4被全面超越    总体来看,Claude 3的初步效果给人留下了深刻印象。此时此刻,或许我们可以向OpenAI发问:“GPT-5何时问世?”对Claude 3感兴趣的朋友们,不妨即刻点击下方链接亲自体验一番吧!
全球最强大模型一夜易主,GPT-4被全面超越    访问链接:https://claude.ai/
全球最强大模型一夜易主,GPT-4被全面超越

上一篇:创新药“倒爷”落幕?
下一篇:权,钱,性
更多更酷的内容分享
猜你感兴趣
超越GPT-4!Anthropic的Claude 3,OpenAI的强劲对手,全面爆发!

超越GPT-4!Anthropic的Claude 3,OpenAI的强劲对手,全面爆发!

人工智能初创公司Anthropic推出Claude 3大模型,声称具有接近人类的理解能力,是当前最强大的大模型之一。Claude 3分为三个版本,其中Opus在行业基准测试中表现优于OpenAI的GPT-4和谷歌的Gemini Ultra。该公司由OpenAI前高层创立,目标是开发与OpenAI竞争的生成式人工智能模型。在过去一年里,Anthropic完成了五笔融资交易,总额约为73亿美元,估值达到184亿美元。

热点资讯 03.05
科创板日报记者亲测:Claude 3模型威力炸裂,超越GPT-4?

科创板日报记者亲测:Claude 3模型威力炸裂,超越GPT-4?

Anthropic发布的Claude 3模型被誉为超越GPT-4的最快、最强大的人工智能模型。该系列包括三个模型,具有强大的视觉能力。然而,《科创板日报》记者测试发现,尽管Claude 3 Opus在图片识别上有更多细节表现,但在准确率和本科生知识水平上并未展现出明显优势。

热点资讯 03.08
新一代大模型即将问世:GPT-3与GPT-4的全新升级及潜力解析

新一代大模型即将问世:GPT-3与GPT-4的全新升级及潜力解析

"米拉·穆拉蒂透露,将在一年半后发布"博士生水平"的人工智能,这标志着GPT-5将在一年半后发布,而在某些领域将超过人类。相比之下,Claude 3.5 Sonnet在研究生级推理、本科级知识和编码能力方面已刷新了SOTA,被宣布为史上最智能模型。这个模型打破了现有纪录,使得普通博士在GPQA上的得分为34%,领域内专业博士的得分为65%,而Claude 3.5 Sonnet无疑已经超越了他们。此外,主持人为这个问题提出了一个假设性的问答。"

热点资讯 06.27
全新换代途观L震撼发布:颠覆性的技术革新,让您碾压Q7与X5!

全新换代途观L震撼发布:颠覆性的技术革新,让您碾压Q7与X5!

全新途观L PRO于4月10日正式发布,并推出三种配置车型,包括300TSI/330TSI两驱车以及380TSI四驱车。新车高度还原海外版车型,拥有R-Line运动前脸和先锋前脸两种造型,配备了IQ.Light智慧投影大灯等智能化配置。内饰方面,新车进行了全方面的调整。

热点资讯 04.12
百度引领创新潮流,全网搜索盈利提升17%:AI财富密码的探寻之路

百度引领创新潮流,全网搜索盈利提升17%:AI财富密码的探寻之路

度云计算方面,百度智能云在第三季度实现营收49亿元,同比增长11%。非GAAP经营利润率也因此提升了2个百分点。这一成果充分体现了百度以AI为长期战略,以应用驱动为主要路径的战略导向。在自动驾驶领域,百度自动驾驶出行服务已经在全国范围内累计提供了超过800万次的乘车服务,并在此期间共提供了98.8万次的乘车服务,同比增长了20%。而这一切都离不开百度自研的超级应用——百度大脑。据李彦宏介绍,百度将在2025年初发布文心大模型的新版本。从数字层面来看,百度正在全面开花。其中,三季度推出了一系列增强的轻量级模型,使得百度在人工智能领域获得了更广泛的应用认可。

热点资讯 11.23
三星考虑进一步升级折叠屏技术:三屏Galaxy Fold即将发布?

三星考虑进一步升级折叠屏技术:三屏Galaxy Fold即将发布?

三星正在研发新款三屏折叠屏手机,并计划推出一款特别版。折叠屏市场竞争激烈,三星有望在此领风骚。

热点资讯 11.23
AI眼镜巨头崭露头角:大厂已提前布局,竞争格局正逐步显现

AI眼镜巨头崭露头角:大厂已提前布局,竞争格局正逐步显现

“AI眼镜”作为科技前沿的产品类型之一,以更先进的功能、个性化的体验以及合理的定价,引领着全球AI硬件的新一轮潮流。凭借其多模态交互、个性信息处理能力、高性价比的特点,已经在国内外引发了广泛的关注。然而,市场上的AI眼镜产品依然存在同质化、价格高昂等问题,且尚未摆脱芯片性能、续航能力和光学显示技术的限制,竞争仍将持续。随着未来市场环境的变化,这一新兴行业的竞争格局或将逐渐明朗。在未来的发展过程中,无论是技术进步还是市场接受度,都需要有应对策略和适应变化的能力。总体来看,AI眼镜行业未来有可能会出现10至20家主流厂商并存的市场格局。

热点资讯 11.23
拼多多:变革之路与市场策略探析

拼多多:变革之路与市场策略探析

拼多多业绩出现下滑,主要原因是盈利能力和经营利润率出现大幅下降。对此,拼多多管理层强调认为,他们更重视生态系统的投资回报,并取消了只退款的惩罚机制,鼓励商家申请售后。同时,他们加大了全站推广力度,为白牌商家提供了更多的流量获取渠道。这些举措试图优化用户体验,引导消费者转向更高品质的产品和服务。

热点资讯 11.23
《下一战歌手》全国决赛再掀热潮,备受瞩目的《歌手2025》首发名单悬念揭晓!

《下一战歌手》全国决赛再掀热潮,备受瞩目的《歌手2025》首发名单悬念揭晓!

《歌手2025》将有五位新声歌手争夺直通名额,其中白举纲、伯远、持修、李佩玲、姚晓棠五人将竞争最后的权。此外,冯巩也将带来特别表演《世上最美的旋律》。整季节目的最高关注度话题是《伯远MAMA舞台》、白举纲的新歌首唱、李佩玲的有一种悲伤等。今晚的比赛中,大众评审将对歌手们的表演进行评分。最终得分最高的歌手将获得参加《歌手2025》首发阵容的机会。

热点资讯 11.23
《锦衣之下》作者去世:谭松韵任嘉伦发文悼念病情迅速令人惋惜

《锦衣之下》作者去世:谭松韵任嘉伦发文悼念病情迅速令人惋惜

天知道为什么会在这么年轻的时候离世,但她的作品依然深深吸引了粉丝。今天,我们收到了蓝色狮的丈夫,著名演员任嘉伦的帖子来悼念这位已经离开的朋友。任嘉伦表示,他有幸与蓝色狮一起走过了一段重要的人生旅程,并对她充满了敬意。而谭松韵则表达了自己对于蓝色狮才华的认可和惋惜之情。她回忆起跟蓝色狮相处的日子,感叹这是一段快乐且有意义的经历。事实上,除《锦衣之下》外,蓝狮还出版过其他几部小说,其中,《士为知己》、《一片冰心在玉壶》、《灵犀》和《明月漫千山》等都被改编成了电视剧。其中,以《锦衣之下》最为知名。遗憾的是,今天蓝狮终于离世,我们都感到十分震惊。正如网上众多网友所言,蓝狮是一位非常出色的作家,她的作品深入人心,赢得了许多人的喜爱。我们也希望她在天堂里一切安好。

热点资讯 11.23
余文乐大陆曝光,颜值引发热议:幸福家庭背后的艰辛与美好

余文乐大陆曝光,颜值引发热议:幸福家庭背后的艰辛与美好

余文乐宣布离婚,原因是因工作压力患上了恐慌症;但仍经常晒出恩爱照片,证明两人感情稳定。近被曝出容貌下降,引发争议。有人认为是因为脱发、秃顶;有人则将其比作蛋包饭,称赞其帅。

热点资讯 11.23
56岁张敏罕见出席张纪中女儿满月宴,瘦成骨架透出老态,网友惊呼不敢认

56岁张敏罕见出席张纪中女儿满月宴,瘦成骨架透出老态,网友惊呼不敢认

近日,港台女演员张敏罕见出席张纪中执导的女儿满月宴,她不仅吸引了众人的目光,更引发了一些争议。张敏于1986年出道,凭借高颜值和出色的演技获得了极高的人气。近年来,张敏开始尝试转型成为女商人,并专注于商界的发展。尽管其事业略有起伏,但她始终保持积极的态度和决心。此次张敏出现在张纪中女儿满月宴上,引发了广泛关注。

热点资讯 11.23
印度网友:为何美国害怕中国超越他们,却毫无担忧印度的崛起?

印度网友:为何美国害怕中国超越他们,却毫无担忧印度的崛起?

2024年9月22日,印度总理莫迪在华盛顿与美国总统拜登举行会晤。两国宣布一系列合作计划,意图在国防和科技领域与中国抗衡。然而,美国近期不断加大对我国的围堵力度,包括芯片禁令和军事演习。这引发了印度网友的疑惑:为何美国不敢惧怕中国崛起,却对中国动用如此强硬的手段呢?印度需要认清,无论是经济实力还是高科技产业,都已经成为全球领先者。面对美国的威胁,印度无需过于焦虑。其军队实力不容小觑,尤其是在海军方面。至于美国是否会对印度构成威胁,则需具体情况具体分析。

热点资讯 11.23
时间跨度达两百年:土耳其为什么一直对中国新疆表现出过度的关注?我国有何应对策略?

时间跨度达两百年:土耳其为什么一直对中国新疆表现出过度的关注?我国有何应对策略?

土耳其对外长发表声明称参观乌鲁木齐和喀什两座古城引起争议。土耳其与新疆的历史渊源是原因。

热点资讯 11.23