新V观海外: Claude的3个实际体验过得不太满意。

2024-03-18 热点资讯 关注公众号

陈沛/文 OpenAI竞争对手Anthropic近期发布了新款大模型Claude 3系列,其中包括三款子模型Haiku、Sonnet和Opus。根据Anthropic发布的测试结果,Claude 3中性能最优的Opus模型在多项基准测试中的得分都超过了OpenAI的GPT-4,次优的Sonnet模型的得分也基本可与GPT-4相媲美。

尽管AI业界近年来有所弱化基准测试得分的重要性,越来越强调大模型的产品能力和用户实际体验才是关键衡量标准。但是能在多项测试中全面超过长期占据头名的GPT-4,表明Claude 3或是一个值得尝试的大模型服务。

我已经使用了Claude 3,目前Sonnet模型可免费限量使用,Opus模型则需支付每月20美元的订阅费用。根据我的对话体验,Claude长期以来反复强调的在长文本输入和安全性等方面的优势,在实际产品使用中并不突出。

例如我输入了一篇长新闻,让Claude 3总结其中的主要结论和关键数字,Claude 3输出的主要结论尚可,但找出的关键数字却完全是凭空捏造的。

Claude 3的长文本输入能力还受限于文档处理能力。Claude 3目前支持单次上传5个文档,每个文档10Mb以内。与现在主流AI大模型产品相比,这种处理能力并不突出。就算我上传了一个只有4Mb的研究论文进行测试,Claude 3也提示过长无法处理。而同样的研究论文,我已在其它AI大模型产品中成功做过测试。

在产品体验方面,Claude 3目前还处于测试阶段,对话数量限制也在调整之中。由于没有类似“每3小时发送50条”的明确限制,导致有时先发送一条输入,Claude 3会提示“超出限制”报错信息,但重复试几次就又可以输出了。

Claude 3官网还重点宣传了它的图片输入理解能力,提供了Claude 3读取图片中手写文稿的示例。但我使用官网截图进行输入,Claude 3能理解图片的数量、主题信息和位置关系,但在手写文稿截图不清的情况下,却给出了完全捏造的手写文稿识别结果。

最后,Claude 3已明确表示不支持搜索互联网的。这种选择虽然会让它在推理时的输出相对更快一些,但与其它主流AI大模型产品相比,这个短板或许会导致Claude 3难以让个人用户做出长期付费订阅的决定。

实际使用后,总体上可以感觉到Claude 3或许是一个优秀的研究成果,但与优秀的用户产品相比,还有距离。


总结起来,最近阿尔法狗团队研发出的一款新模型——Claude 3在多项基准测试中表现出色,尤其在长文本输入和安全性等方面有明显优势。然而,在实际应用中,其长文本输入能力仍然受到局限,特别是对于文档处理能力的要求较高。
此外,Claude 3的功能设计也存在问题,例如输入过多的数据或复杂的语句可能会触发错误提示,这可能会影响用户体验。并且,该模型不支持在线搜索,这也使得它与其他主流AI大模型存在一定的差距。
在产品体验方面,虽然Claude 3有很强的图片识别能力,但是在手写文稿识别方面的表现相对较弱。因此,它可能更适合用于快速决策或者初步的文档分析任务,而对于需要长时间思考的任务,如深度学习或自然语言处理,其他主流AI大模型可能会更加合适。
总的来说,Claude 3在某些领域有着强大的潜力,但如果想要提高其在特定领域的表现,还需要进一步优化算法和数据处理方式。同时,用户也需要根据自身的需求来选择适合自己的AI模型。

上一篇:华星创业:三体元宇宙MR沉浸式体验产品计划在年内推出
下一篇:第三方工具不兼容微软 3 月更新,导致 Win11 任务栏变透明
更多更酷的内容分享
猜你感兴趣
揭秘新V观海外:国内Kimi与海外GPT-4、Claude-3的异同体验分析

揭秘新V观海外:国内Kimi与海外GPT-4、Claude-3的异同体验分析

我需要了解你的问题,但是你提供的文本没有明确的事件、话题或者想要回答的问题。请提供更多的信息,我会尽力帮助你。

热点资讯 04.02
新V观海外:数据集与基准测试的变革,预示着AI能力的突变

新V观海外:数据集与基准测试的变革,预示着AI能力的突变

近年来,数据层面的变革在推动AI发展中起到了关键作用。例如,Data Science Institute的研究表明,大规模文本数据是构建强大AI系统的关键因素之一。为此,研究人员开始寻找高质量多模态数据集,并利用它们对AI模型进行训练和微调。在基准测试方面,谷歌的DOCI、字节跳动的COCONut、Reka AI的Vibe-Eval和MBZUAI的CVRR-ES等多模态高质量数据集正在被广泛应用于评估AI模型的性能。尽管如此,我们还需要考虑,如果AI模型仅针对某一基准进行训练微调,可能会导致过拟合现象。因此,实时动态测试平台Chatbot Arena的推出,有助于更好地衡量AI模型的实际能力。

热点资讯 05.29
新V观海外:ChatGPT加速探索,展现更强大的图像编辑能力,引领新的流量增长趋势

新V观海外:ChatGPT加速探索,展现更强大的图像编辑能力,引领新的流量增长趋势

这篇新闻报道讨论了ChatGPT最新的图像编辑功能,用户在尝试使用时发现它与理想预期相差较大。由于尚未完全实现图像编辑功能的完美程度,尽管增加了其他一些辅助工具如DALL-E和Code Interpreter,但用户的反馈显示这个功能仍然存在一些问题,例如保留之前的元素以及调整效果不够理想。因此,OpenAI正在与一部分开发者密切合作,探索如何让GPT商店的收入分成方案更加完善。虽然目前还没有提供具体的营收分成方案,但OpenAI显然已经开始考虑采用基于模型用量的模式来增加GPT商店的收入。

热点资讯 04.18
全球化趋势下,人工智能与多模态的融合——新一代社交产品的未来可能

利用先进技术塑造未来的社交体验——浅析新V观海外多模态AI融入的新时代社交产品

全球化趋势下,人工智能与多模态的融合——新一代社交产品的未来可能 利用先进技术塑造未来的社交体验——浅析新V观海外多模态AI融入的新时代社交产品

AI视频应用Rune、Suno推出的新功能使多模态AI具备更好的用户体验和传播能力,特别是Streamline和Scenes功能,以视觉内容为基础生成音乐,提升了用户的沉浸感。此外,Viggle凭借其简单的输入提示词门槛和人性化的娱乐内容,吸引了大量用户并成功推广了AI技术的应用。

热点资讯 10.30
新进展:男生未满14岁仍因泼开水烫伤女童未被行政处罚

新进展:男生未满14岁仍因泼开水烫伤女童未被行政处罚

广东乳源被烫伤女童事件中,14岁男生故意伤害事件引发广泛关注。目前,丘先生已将女儿带到陕西某医院治疗。据初步鉴定,女孩被高年级学生泼开水烫伤,经警方调查,认定其行为属故意伤害。同时,家属称开水浇了整个额头。警方已对涉事男生做出处罚,案件仍在进一步处理中。

热点资讯 10.30
如何准确判断炒新股票是否能一夜暴富?> 

请问我还可以帮你做些什么吗?

如何准确判断炒新股票是否能一夜暴富?> 请问我还可以帮你做些什么吗?

29日,长联科技报收505元/股,较发行价跌落55%。 综上所述,新股市场近期波动较大,投资者对新股热情高涨,造成新股上市出现非理性地上涨,动辄10倍的涨幅,使得部分个股偏离了基本面,加剧了市场的波动性风险。此外,在实施注册制的背景下,投资者需要注意投资风险和股市价值。

热点资讯 10.30
福州航空回应飞机厕所内突发事件:涉事马桶已修复并清空

福州航空回应飞机厕所内突发事件:涉事马桶已修复并清空

福州航空曝卫生间的异味事件已得到初步确认,部分托运行李中可能含有酸菜、腌菜、虾酱等味道较重的液体。对此,福州航空已与旅客取得联系,并向他们表示诚挚歉意。目前,事件正在调查处理中。

热点资讯 10.30
多名员工遭遇抑郁症,基金公司管理规模缩小20%

多名员工遭遇抑郁症,基金公司管理规模缩小20%

华润元大基金被曝通过虚构检查打压、骚扰、威胁员工,导致多名员工患上抑郁症。华润元大方面表示否认,称其内部治理结构健全。从上述信息可以看出,华润元大基金通过虚构检查打压员工,甚至让已离职的同事背锅,侵犯了员工权益;同时,股东无视基金法规,违规检查基金底层资产进行内斗,导致管理规模下滑。目前华润元大旗下的基金经理任职年限普遍较短。对于该报道的真实性有待确认。

热点资讯 10.30
男子醉驾致人伤亡引路人众围观:妻子‘顶包’被判刑两年

男子醉驾致人伤亡引路人众围观:妻子‘顶包’被判刑两年

男子酒驾致1死1伤,妻子冒充对方称"顶包"。其驾车行至息烽县路段时撞倒行人,幸亏报警及时,但仍被判刑两年。法院根据其行为判定其涉嫌交通肇事罪,判处有期徒刑两年并赔偿损失。

热点资讯 10.30
山东书记亲上阵,房地产调控大动作显现:最高规格关注与改革措施发布!

山东书记亲上阵,房地产调控大动作显现:最高规格关注与改革措施发布!

济南市委书记刘强实地调研房地产项目,强调政策支持和市场信心的重要性。政府已出台史上优惠购房政策,加大宣传力度。预计楼市将迎来新的暖意。

热点资讯 10.30
女副省长被调查后,她的丈夫简历失传

女副省长被调查后,她的丈夫简历失传

国家税务局陕西省税务局局长包东红简历从官网上被撤下引发了广泛关注。据报道,数日前任上落马的甘肃省副省长赵金云是其妻子,目前正接受国家监委监察调查。

热点资讯 10.30
新的西部战略新引擎:贵州第二城+成渝的崛起意味着什么?

新的西部战略新引擎:贵州第二城+成渝的崛起意味着什么?

成渝黔新“西三角”概念日益升温,成渝遵将成为贵州全省对接双城经济圈的桥头堡。

热点资讯 10.30
小米SU7 Ultra的真实价值:雷军的疑问与解答

雷军对小米SU7 Ultra的质疑和答案:真实价值解析

小米SU7 Ultra的真实价值:雷军的疑问与解答 雷军对小米SU7 Ultra的质疑和答案:真实价值解析

三言科技博主微博发文称中国豪华汽车品牌已经立住了,并引用价排行榜显示,中国豪华车品牌销量榜上有华为P50、比亚迪秦Pro DM-i、特斯拉Model Y等车型位列前茅。此事引发了业界广泛关注,雷军回应认为BBA确实值得学习,但他强调,国产品牌也正在逐步崛起。此话题引起热烈讨论和反思。

热点资讯 10.30
万亿GDP城市:上海、北京、深圳继续领先,天津站上新的高度

万亿GDP城市:上海、北京、深圳继续领先,天津站上新的高度

截至10月30日,佛山仍未公布今年前三季度主要经济数据。根据最新数据,17个城市的GDP增速高于全国,但整体来看,各城市GDP总量排名变化不大。一线城市天津和宁波继续保持领先地位,而苏州、成都、杭州、武汉、南京、天津、宁波、青岛、无锡、长沙、郑州等城市则成为万亿俱乐部成员。青岛与其他城市的竞争也日益激烈,尤其是青岛和天津的差距仅为274.77亿元。泉州、福州两地表现优异,分别实现GDP增长率6.6%和5.4%。此外,广州、西安经济增长相对较慢,第三季度GDP增速分别为4.0%和4.7%。随着长三角地区的万亿GDP城市加速扩容,四地间的竞争愈发激烈。

热点资讯 10.30