陈沛/文 OpenAI竞争对手Anthropic近期发布了新款大模型Claude 3系列,其中包括三款子模型Haiku、Sonnet和Opus。根据Anthropic发布的测试结果,Claude 3中性能最优的Opus模型在多项基准测试中的得分都超过了OpenAI的GPT-4,次优的Sonnet模型的得分也基本可与GPT-4相媲美。
尽管AI业界近年来有所弱化基准测试得分的重要性,越来越强调大模型的产品能力和用户实际体验才是关键衡量标准。但是能在多项测试中全面超过长期占据头名的GPT-4,表明Claude 3或是一个值得尝试的大模型服务。
我已经使用了Claude 3,目前Sonnet模型可免费限量使用,Opus模型则需支付每月20美元的订阅费用。根据我的对话体验,Claude长期以来反复强调的在长文本输入和安全性等方面的优势,在实际产品使用中并不突出。
例如我输入了一篇长新闻,让Claude 3总结其中的主要结论和关键数字,Claude 3输出的主要结论尚可,但找出的关键数字却完全是凭空捏造的。
Claude 3的长文本输入能力还受限于文档处理能力。Claude 3目前支持单次上传5个文档,每个文档10Mb以内。与现在主流AI大模型产品相比,这种处理能力并不突出。就算我上传了一个只有4Mb的研究论文进行测试,Claude 3也提示过长无法处理。而同样的研究论文,我已在其它AI大模型产品中成功做过测试。
在产品体验方面,Claude 3目前还处于测试阶段,对话数量限制也在调整之中。由于没有类似“每3小时发送50条”的明确限制,导致有时先发送一条输入,Claude 3会提示“超出限制”报错信息,但重复试几次就又可以输出了。
Claude 3官网还重点宣传了它的图片输入理解能力,提供了Claude 3读取图片中手写文稿的示例。但我使用官网截图进行输入,Claude 3能理解图片的数量、主题信息和位置关系,但在手写文稿截图不清的情况下,却给出了完全捏造的手写文稿识别结果。
最后,Claude 3已明确表示不支持搜索互联网的。这种选择虽然会让它在推理时的输出相对更快一些,但与其它主流AI大模型产品相比,这个短板或许会导致Claude 3难以让个人用户做出长期付费订阅的决定。
实际使用后,总体上可以感觉到Claude 3或许是一个优秀的研究成果,但与优秀的用户产品相比,还有距离。
总结起来,最近阿尔法狗团队研发出的一款新模型——Claude 3在多项基准测试中表现出色,尤其在长文本输入和安全性等方面有明显优势。然而,在实际应用中,其长文本输入能力仍然受到局限,特别是对于文档处理能力的要求较高。
此外,Claude 3的功能设计也存在问题,例如输入过多的数据或复杂的语句可能会触发错误提示,这可能会影响用户体验。并且,该模型不支持在线搜索,这也使得它与其他主流AI大模型存在一定的差距。
在产品体验方面,虽然Claude 3有很强的图片识别能力,但是在手写文稿识别方面的表现相对较弱。因此,它可能更适合用于快速决策或者初步的文档分析任务,而对于需要长时间思考的任务,如深度学习或自然语言处理,其他主流AI大模型可能会更加合适。
总的来说,Claude 3在某些领域有着强大的潜力,但如果想要提高其在特定领域的表现,还需要进一步优化算法和数据处理方式。同时,用户也需要根据自身的需求来选择适合自己的AI模型。