新V观海外: Claude的3个实际体验过得不太满意。

2024-03-18 热点资讯 关注公众号

陈沛/文 OpenAI竞争对手Anthropic近期发布了新款大模型Claude 3系列,其中包括三款子模型Haiku、Sonnet和Opus。根据Anthropic发布的测试结果,Claude 3中性能最优的Opus模型在多项基准测试中的得分都超过了OpenAI的GPT-4,次优的Sonnet模型的得分也基本可与GPT-4相媲美。

尽管AI业界近年来有所弱化基准测试得分的重要性,越来越强调大模型的产品能力和用户实际体验才是关键衡量标准。但是能在多项测试中全面超过长期占据头名的GPT-4,表明Claude 3或是一个值得尝试的大模型服务。

我已经使用了Claude 3,目前Sonnet模型可免费限量使用,Opus模型则需支付每月20美元的订阅费用。根据我的对话体验,Claude长期以来反复强调的在长文本输入和安全性等方面的优势,在实际产品使用中并不突出。

例如我输入了一篇长新闻,让Claude 3总结其中的主要结论和关键数字,Claude 3输出的主要结论尚可,但找出的关键数字却完全是凭空捏造的。

Claude 3的长文本输入能力还受限于文档处理能力。Claude 3目前支持单次上传5个文档,每个文档10Mb以内。与现在主流AI大模型产品相比,这种处理能力并不突出。就算我上传了一个只有4Mb的研究论文进行测试,Claude 3也提示过长无法处理。而同样的研究论文,我已在其它AI大模型产品中成功做过测试。

在产品体验方面,Claude 3目前还处于测试阶段,对话数量限制也在调整之中。由于没有类似“每3小时发送50条”的明确限制,导致有时先发送一条输入,Claude 3会提示“超出限制”报错信息,但重复试几次就又可以输出了。

Claude 3官网还重点宣传了它的图片输入理解能力,提供了Claude 3读取图片中手写文稿的示例。但我使用官网截图进行输入,Claude 3能理解图片的数量、主题信息和位置关系,但在手写文稿截图不清的情况下,却给出了完全捏造的手写文稿识别结果。

最后,Claude 3已明确表示不支持搜索互联网的。这种选择虽然会让它在推理时的输出相对更快一些,但与其它主流AI大模型产品相比,这个短板或许会导致Claude 3难以让个人用户做出长期付费订阅的决定。

实际使用后,总体上可以感觉到Claude 3或许是一个优秀的研究成果,但与优秀的用户产品相比,还有距离。


总结起来,最近阿尔法狗团队研发出的一款新模型——Claude 3在多项基准测试中表现出色,尤其在长文本输入和安全性等方面有明显优势。然而,在实际应用中,其长文本输入能力仍然受到局限,特别是对于文档处理能力的要求较高。
此外,Claude 3的功能设计也存在问题,例如输入过多的数据或复杂的语句可能会触发错误提示,这可能会影响用户体验。并且,该模型不支持在线搜索,这也使得它与其他主流AI大模型存在一定的差距。
在产品体验方面,虽然Claude 3有很强的图片识别能力,但是在手写文稿识别方面的表现相对较弱。因此,它可能更适合用于快速决策或者初步的文档分析任务,而对于需要长时间思考的任务,如深度学习或自然语言处理,其他主流AI大模型可能会更加合适。
总的来说,Claude 3在某些领域有着强大的潜力,但如果想要提高其在特定领域的表现,还需要进一步优化算法和数据处理方式。同时,用户也需要根据自身的需求来选择适合自己的AI模型。

上一篇:华星创业:三体元宇宙MR沉浸式体验产品计划在年内推出
下一篇:第三方工具不兼容微软 3 月更新,导致 Win11 任务栏变透明
更多更酷的内容分享
猜你感兴趣
揭秘新V观海外:国内Kimi与海外GPT-4、Claude-3的异同体验分析

揭秘新V观海外:国内Kimi与海外GPT-4、Claude-3的异同体验分析

我需要了解你的问题,但是你提供的文本没有明确的事件、话题或者想要回答的问题。请提供更多的信息,我会尽力帮助你。

热点资讯 04.02
全新奥迪Q5海外亮相:现款优惠15万,外观满意度如何?

新奥迪Q5海外发布:新款优惠15万,外观表现如何?

全新奥迪Q5海外亮相:现款优惠15万,外观满意度如何? 新奥迪Q5海外发布:新款优惠15万,外观表现如何?

奥迪宣布将在2024年推出其新一代Q5,它将搭载第二代数字OLED技术和主动数字灯光,同时引入国内,并且可能配备华为车机系统和智驾系统。而宝马X3也将进行车身加长,轴距提升到2975mm。

热点资讯 11.01
新V观海外:数据集与基准测试的变革,预示着AI能力的突变

新V观海外:数据集与基准测试的变革,预示着AI能力的突变

近年来,数据层面的变革在推动AI发展中起到了关键作用。例如,Data Science Institute的研究表明,大规模文本数据是构建强大AI系统的关键因素之一。为此,研究人员开始寻找高质量多模态数据集,并利用它们对AI模型进行训练和微调。在基准测试方面,谷歌的DOCI、字节跳动的COCONut、Reka AI的Vibe-Eval和MBZUAI的CVRR-ES等多模态高质量数据集正在被广泛应用于评估AI模型的性能。尽管如此,我们还需要考虑,如果AI模型仅针对某一基准进行训练微调,可能会导致过拟合现象。因此,实时动态测试平台Chatbot Arena的推出,有助于更好地衡量AI模型的实际能力。

热点资讯 05.29
新V观海外:ChatGPT加速探索,展现更强大的图像编辑能力,引领新的流量增长趋势

新V观海外:ChatGPT加速探索,展现更强大的图像编辑能力,引领新的流量增长趋势

这篇新闻报道讨论了ChatGPT最新的图像编辑功能,用户在尝试使用时发现它与理想预期相差较大。由于尚未完全实现图像编辑功能的完美程度,尽管增加了其他一些辅助工具如DALL-E和Code Interpreter,但用户的反馈显示这个功能仍然存在一些问题,例如保留之前的元素以及调整效果不够理想。因此,OpenAI正在与一部分开发者密切合作,探索如何让GPT商店的收入分成方案更加完善。虽然目前还没有提供具体的营收分成方案,但OpenAI显然已经开始考虑采用基于模型用量的模式来增加GPT商店的收入。

热点资讯 04.18
越南电商公司Shein因假货争议受阻,东南亚各国强化跨境电商监管

越南电商公司Shein因假货争议受阻,东南亚各国强化跨境电商监管

在中国和新加坡两国的支持下,泰国电子商务巨头Shopee正在与越南工贸部洽谈业务注册事宜。然而,由于缺乏必要的手续,Shopee等跨境电商平台将在越南结束业务,并面临被封锁的应用程序及域名的问题。虽然部分博弈已完成,但一旦注册失败,将对企业造成严重影响。此外,电商平台还需面对来自东南亚其他国家的监管加强。因此,电商平台必须做好充分准备,以应对可能出现的挑战。

热点资讯 11.23
探讨电商与汽车企业家的智慧与盲目:我选择圆润幸福的企业之路

探讨电商与汽车企业家的智慧与盲目:我选择圆润幸福的企业之路

"胖东来创始人于东来表示要活得圆润幸福,并呼吁大家少走弯路,活出自己的美好。"

热点资讯 11.23
小米将承担 SU7 自动泊车异常维修费用/麦当劳和支付宝力推「碰一下点餐」/OpenAI 正考虑推出自研浏览器

小米将承担 SU7 自动泊车异常维修费用/麦当劳和支付宝力推「碰一下点餐」/OpenAI 正考虑推出自研浏览器

苹果正在研发更智能的新版Siri谷歌被要求强拆Chrome浏览器和Android系统美国司法部已向联邦法院提出请求,要求谷歌出售其Chrome浏览器和可能的Andr 这个文本概括了两个主要事件:苹果正在研发新的Siri;谷歌被要求强制拆解Chrome浏览器和Android系统。同时,还提到了中美之间的司法纠纷以及可能出现的其他消息或声明。

热点资讯 11.23
32岁的叶珂线下生图曝光:气质女神形象全貌展示

32岁的叶珂线下生图曝光:气质女神形象全貌展示

黄晓明已经有过多名前女友,如果叶珂的颜值真的超过她们的话,可能会吸引一些粉丝的关注。但是从现在的评论来看,大部分网友对叶珂并不满意,认为她在颜值和身材上存在水分,而且还是通过整形等方式获得的。最近,又有几张叶珂看演唱会的线下生图在网上曝光,这张照片中她身穿黑色礼服,留着披肩长发,脚踩高跟鞋,看起来十分专业和优雅,但与精修照相比仍然有所差距。

热点资讯 11.23
庄图南在《小巷人家》中的角色:他如果不是个真正的角色,黄玲的真实面目可能不会被揭露

庄图南在《小巷人家》中的角色:他如果不是个真正的角色,黄玲的真实面目可能不会被揭露

黄玲则睡一个小房间,可以看出黄玲对庄图南非常溺爱。 庄超英反对庄筱婷选择广州工作的原因是担心她会依赖他。 黄玲希望庄筱婷能自主选择未来的生活方式,但她对女儿的冷漠让黄玲感到失望。 黄玲对待庄筱婷的态度发生了变化,她开始关心和理解女儿,并且更加珍视母女关系。

热点资讯 11.23
郭德纲公关危机:从「菜是原罪」的思考深度解析

郭德纲公关危机:从「菜是原罪」的思考深度解析

郭德纲遇到的公关危机主要是由于过多的负面反馈导致的,如他的回旋镖言论和双标的做法都引发了网友的质疑。这些批评主要来源于评论他的普通网友、自媒体、相声演员以及老纲丝,其中一些还直接指向了他的老朋友。因此,郭德纲的主要问题是过度的公关宣传和负面批评,这也导致了他的形象受到了负面影响。

热点资讯 11.23
教育部发布《中小学校园食品安全与膳食经费管理指引》,助力校园饮食规范

教育部发布《中小学校园食品安全与膳食经费管理指引》,助力校园饮食规范

教育部印发新指引,明确校园餐安全管理要求,细化管理流程和规范标准,要求保障食品安全和膳食经费管理规范化、精细化、科学化水平,推动餐饮业健康发展。

热点资讯 11.23
【挑战权威】王宝强的慈善事业:立人设、虚假合同与赔偿纠纷交织,揭露其敛财真相

【挑战权威】王宝强的慈善事业:立人设、虚假合同与赔偿纠纷交织,揭露其敛财真相

王宝强被恩波格斗俱乐部指控欺诈,双方因合同变更引发争议。双方各执一词,恩波律师已起诉王宝强。目前,恩波还在寻求赔偿。王宝强表示会履行承诺,但是否真的亏待恩波仍未知。这起事件涉及到合同欺诈、责任分配等多个问题,期待法律对此事作出公正裁决。

热点资讯 11.23
薛佳凝疑曝光新恋情:男友高大帅气,亲昵相拥咬耳朵甜蜜至极

薛佳凝疑曝光新恋情:男友高大帅气,亲昵相拥咬耳朵甜蜜至极

紧紧握着薛佳凝的手,语气温柔,看上去十分关心对方。尽管这次恋情只是谣言的再次炒作,但对于那些曾陪伴过薛佳凝的人来说,这是一个令人欣慰的消息。 薛佳凝和胡歌这对曾经的恋人已经分开多年,分手后的他们都找到了自己的幸福。胡歌的事业发展依旧稳定,而薛佳凝也在新的工作中取得了一些成就。他们用和平的方式结束了这场曾经让他们备受争议的感情,这无疑是对他们的最好的祝福。

热点资讯 11.23
中国帮毛里塔尼亚发展渔业,彻底打击《纽约时报》的谎言!

中国帮毛里塔尼亚发展渔业,彻底打击《纽约时报》的谎言!

毛里塔尼亚的奴隶制历史和现状令人担忧。虽然官方宣布废除了奴隶制,但仍有几十万人生活在现代奴隶制阴影下。在商业利益和道德伦理之间,该国面临严重的挑战,包括如何应对人权问题和消除社会不平等。这不仅是关于经济发展的问题,也是关于国际社会对毛里塔尼亚社会发展问题的回应。

热点资讯 11.23