新手博主挑战世界首款AI程序员自制视频,全程仅完成代码任务,令人震惊:破案真相浮出水面?

2024-04-14 热点资讯 关注公众号
近日,新智元报导YouTube博主揭露了世界首个AI程序员Devin被曝光造假事件,指其完成的Upwork任务并非独立完成,而是伪造假象。博主亲自复制了该任务,并花费约36分钟完成,但Devin仅用去了至少6小时甚至可能超过一天的时间。有人认为这是营销和炒作行为,而非真实能力。目前,Cognition已经更换了其官方博客并停止使用Devin。

  新智元报道  

:桃子

【新智元导读】全球首个AI程序员Devin被爆视频造假?YouTube博主近日揭露了背后明星初创公司Cognition的谎言,通过逐帧分析发现,Devin并不能独立完成Upwork工作。

全网爆火的世界首个AI程序员Devin,如今被爆出视频竟是作假?

最近,一位有35年软件工程师经验的YouTube博主去逐帧复现了,Devin完成Upwork任务的宣传视频。

却意外发现,AI并不能像人类工程师一样完成任务,而且非常糟糕。

他将25分钟「揭穿Devin的谎言」视频公开后,一时间引爆全网并在HN、Reddit等社交平台上掀起轩然大波。

更有意思的是,博主自己复制了Devin尝试做的任务,花费了大约36分钟。

然而,Devin用了至少6个小时,甚至可能超过一天。

有网友表示,「正如博主详细解释的那样,尽管其试图在演示中暗示,Devin并不能独立完成Upwork的工作。它正在创建混乱、过于复杂的代码」。

也有人认为,Devin从诞生之初,就更多的是营销和炒作,而不是现实。

说来,Devin视频真的是作假了吗?

逐帧分析,揭穿Devin的谎言

Devin发布之初,背后初创公司Cognition AI更新的官方博文中,通过七个视频介绍了这一AI的「魔力」。

其中,一个视频是,让Devin自主完成了全球最大的综合类自由职业平台Upwork的一项任务。

当时,网友看后惊讶地表示,没想到AI智能体都可以做副业了。

Cognition的开发者You挑选了一项「用计算机视觉模型做推理」的工作,具体要求是:

- 我希望利用该资源库中的模型进行推断。(https://github.com/mahdi65/roadDamageDetection2020)

- 您的交付成果将是关于如何在AWS的EC2实例中进行操作的详细说明。

- 请提供您完成这项工作的评估报告。我不会回复没有评估的报告。

如下是Devin在官方视频中,完成任务的表现。

接下来,一起看下YouTube博主如何逐帧分析,Devin在真正实操中的能力。

博主称,我们首先看到Devin并不是能做Upwork上的任何工作,而是在这项任务中,研究者精心挑选了「road damage」任务。

当然,这并非说Devin就是欺骗性的,而是代表其在别的任务中的表现,一定要比这个差。

然后,在实际对话中,开发者You向Devin提出的要求如下,「我想用这个储存库中的模型进行推理,请弄清楚」。

值得注意的是,客户的要求是「你需要在亚马逊EC2实例中提交这一操作的详细说明」,与开发者提出要求显然不同。

然而,根据Devin的视频末尾,实际上它并没有按照客户要求完成工作。

在博主看来,完成这项任务之前,你需要明确怎样开始这项工作。

这就需要向客户询问:

- 实例的大小,类型

- 是更倾向于一个运行更快但成本更高的实例,还是一个更经济但运行较慢的实例?

- 这个系统需要持续在线吗?

......

如何处理自己需要进行推理分析的资料/图片?你将怎样把这些上传到服务器?

比如,可以建立一个网页界面来处理,也可以通过SSH上传,或者放在S3 bucket里。那输出结果的访问方式又是怎样的呢?

这些都是你必须了解的问题。

总而言之,博主称,这也是我之前视频里提到的,软件开发者的工作中最难的、最关键的、最耗时的一部分:

主要是与客户、领导及其他利益相关者的沟通。

这些都是 AI 目前无法完成的任务,而这些恰恰是我们所做的非常重要的事情。

Devin实际上做了什么?

如下是视频中的一个截图,提到了一个Repo。

这是一个名为 requirements.txt 的文件,它规定了代码的依赖库版本。

不过,这个代码库最初依赖的一些库是四年前的版本,而现在其中一些库已经不再提供下载,所以不得不进行修改。

再此,视频中提到了Devin更新了代码。博主表示,「Devin能够做到这一点确实令人赞叹」。

与客户的要求相比,他们基本上希望建立自己的推理能力。

Devin被告知只使用样例数据就可以,因此这正是博主复现Devin操作时所做的。

Devin很早就遇到了一个错误,这是一个命令行错误:

在顶部,遇到了与打开图像、文件未找到、无此文件或目录相关的错误。

这个错误出现在一个名为visualize_detections.py的代码文件中。博主称自己并没有遇到这一问题,是因为在代码库中不存在名为visualize_detections.py的文件。

回到命令行,如果放大窗口的其他部分,便会看到,Devin将一些写入一个名为inspect_results.py的文件中,接着运行Python执行这个文件,结果出现了语法错误。

在Python文件中使用/n是不行,而且echo命令也不该这么使用。这整个过程都是错误的毫无意义。

Devin在创建这些含错误的文件后,又进行了修正。视频中提到,Devin实际上是在进行打印行调试。这是一个很常见的做法,很多人都会用到。

评论里说,「Devin正在添加代码,追踪数据流直至彻底理解」。

博主对此怀疑道,我不相信Devin真的能理解任何事物。

放大观察这一部分,可以看到一个奇特的循环。它正在读取一个文件,并把数据读入一个缓冲区。这是update_image_ids.py文件。

再次说明,这个文件在客户要求使用的代码仓库中不存在。

实际上,博主在GitHub上搜索了所有可能的位置,只有2处存在带有这个名称的文件。

屏幕上显示三个的原因是,其中一个是另一个的分支版本,它们与Devin正在使用的文件完全不同。

但问题在于Devin此处正在调试一个自己创建的文件,而这个文件完全不在项目代码仓库中,非常不妥。

其实,Devin并不是在修正自己在网上发现的代码,也不是在处理客户指定的问题代码,而是在修正自己生成的错误代码。

更糟糕的是,这样做并无必要。这是那个代码库中的readme文件。

该库中有一个名为infer.py的文件,正如视频中Devin所做的那样。

readme文件说明了其功能及使用方法。在右侧,甚至还有一个小按钮,可以复制整条命令,粘贴至命令行窗口,然后按下回车。

博主认为开发这个「检测道路损坏」的代码仓库的人已经尽可能地简化了使用说明,但Devin似乎还是没能理解。

因此,Devin不得不自己创建了一个混乱的项目。

正如Devin正在发现的,复杂,难以处理,很容易出现小错误,这样的代码很难调试。

半小时复现,AI却用了6小时

接下来,博主计划自己去复现Devin尝试做的任务。

他表示,自己用了大约36分的时间,完成所做的事。

下一张幻灯片中,实际上有一个需要修复的错误,在名为dataset.py的文件第33行。

问题是torch模块缺少一个名为underscore six的属性。

博主在谷歌上搜索了这个问题,找到了GitHub上的一个相关评论。

他按照该评论中的建议修改了代码行,这样确实解决了问题。

「解决这个问题总共花了我大约一分钟七秒的时间,只需这么短的时间我就修正了错误。这只是一个快速的谷歌搜索而已」。

以下是博主所做的修改的具体,这是最初状态和最后状态之间的差异。

这是requirements.txt文件的一处修改,最开始使用的是torch 1.4.0版本,博主使用了最新版本的torch 2.2.2。

然后在右边,这是Devin视频中的最后一屏,左边是我的视频,也就是最后的输出。

它们两个大同小异。博主的框是黄色的,Devin是红色的。

根据Devin官方视频中时间,从最初2024年3月9日3:25pm开始,一直到9:41pm完成,中间经历了6个小时。

最后再看下,Devin完成工作的效果及其评价。

为了复制Devin的结果,博主只需要在云实例上设置合适硬件的环境,并实际运行两个带有正确路径的命令。

这些东西看起来就像Devin做了很多工作,完成了很多任务。

然而,只要你设置好环境,实际上你只需要运行2个命令。些代码修正全都无关紧要,因为它们都是 Devin 自生成的代码。

在视频的最后,研究者You表示Devin做得好。而实际上,Devin完成的任务对于AI来说的确很酷。

AI程序员,全网沸腾

3月初,还记得Devin发布时,全网都在疯转这个AI。

在SWE-bench基准测试中,它的表现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成绩!

它不仅能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型!

网友纷纷恐慌,Devin会偷走我们的工作吗?难道程序员真的不存在了?!

甚至,背后十人初创团队的励志故事也被人挖了出来。

核心创始人首席执行官Scott Wu,以及弟弟Neal Wu等人共揽收十枚IOI金牌。

也就不到一个月的时间,各种AI程序员相继诞生。

比如,普林斯顿团队提出的SWE-agent,可以在真实的GitHub仓库里修bug,还有OpenDevin,Devika开源项目。

不过,关于AI程序员能否解决真实问题的能力,却是还应该持有保留态度。

因为,即便是借助了GPT-4 Turbo的能力,AI也并非是万能的。

参考资料:

https://x.com/0interestrates/status/1779268441226256500

https://www.reddit.com/r/programming/comments/1c1g0fn/debunking_devin_first_ai_software_engineer_upwork/


上一篇:菜鸟驿站年后初几开门2024、"24小时不间断,自助取件更方便:我们的在线服务"
下一篇:相声表演艺术家陈涌泉去世,享年92岁,曾与李金斗合作近30年
更多更酷的内容分享
猜你感兴趣
阿里云宣布!首位AI程序员入职,KPI一人写完公司20%的代码

阿里云宣布!首位AI程序员入职,KPI一人写完公司20%的代码

中国第一个 AI 工程师团队孵化出来的 AI 程序员——「通义灵码」已在阿里云内完成了多次轮岗,并取得了良好效果。 1. 让我们一起回顾一下事件起因及关注点: (1)AI 技术发展:随着技术的进步,部分人对编程产生了转变,认为未来的编程将会交给 AI。 (2)行业的转变:文章提到,编程界似乎出现了转向,即今后编程交给 AI 就行了。 (3)双职:通义灵码是工程师的工作助手,同时也是阿里云的一部分员工。 (4)成果:经过几个月的实习期后,通义灵码积累了丰富的项目经验并具备良好的完成任务能力。 2. 找出一句概括性强、表达事件的关键句子: “其实不然,现在 AI 还只是程序员的工作助手。” 3. 该事件给我们的启示: (1)注重培养新一代人才。 (2)AI 技术的广泛应用以及可能带来的挑战与机遇。 (3)重视职业培训和个人兴趣选择,避免被市场趋势裹挟。

热点资讯 04.03
AI程序员突然揭露真相:硅谷再次震动!首个程序操作被揭露为假

AI程序员突然揭露真相:硅谷再次震动!首个程序操作被揭露为假

Cognition AI 使用 Devin 培训一个人工智能软件工程师,在测试大语言模型的项目中取得了令人惊叹的成果,但也暴露出了AI可能失业的问题。在YouTube博主的评测下,开发者Devin表现出的完美只是一种幻象,这引发了对AI人才是否将取代程序员的担忧。同时,我们也会帮你找到视频剪辑的原文链接。

热点资讯 04.13
国产AI程序员崛起!秒杀需求分钟内完成应用开发

国产AI程序员崛起!秒杀需求分钟内完成应用开发

这篇文章主要介绍了来自凹非寺量子位的AI程序员能自主写代码的能力。该AI程序员能在短短的10分钟内完成一款奥运会赛事日程应用的开发,涵盖了网页开发、编写Python文件处理程序以及运行、调试、修改代码等工作。AI程序员背后的人类程序员可以根据工作流上的不同关键角色进行开发特性,提高系统的效率。相较于基于通义大模型的技术打造的“阿里1号AI员工”通义灵码,AI程序员更注重交互方式,改变了软件工程专业分工,通过与人协同赋能开发提效。文章最后强调了阿里云认为,"人机协同模式的改变"是大模型给软件研发带来的重要变化。

热点资讯 06.23
博主打假AI程序员Devin!却可能再次反转!:真相揭露!

博主打假AI程序员Devin!却可能再次反转!:真相揭露!

犯的错误,而不仅仅是为了完美的执行任务或解决问题。

热点资讯 04.21
一线城市全面取消非普宅标准,这对房地产市场有何影响?

一线城市全面取消非普宅标准,这对房地产市场有何影响?

广州取消普通住宅和非普通住宅标准,12月1日起施行。这是为了满足改善性需求购房者的需求。其中,普通住宅和非普通住宅的定义由各地标准决定,契税额也由不同区间规定。这次政策的实施将减轻购房者的负担,使得更多的购房者有机会购买到适合自己的房子。同时,也有利于房地产市场的稳定和发展。

热点资讯 11.23
权重股动荡,指数破3300寻求市场修复性机会

权重股动荡,指数破3300寻求市场修复性机会

电器等板块涨幅最大。 综合来说,本周市场呈现震荡探底走势,权重股低迷,但题材股活跃。对于下周,建议投资者关注政策面变化和成交量变化,控制好风险。具体操作上,可以关注调控政策的变化,以及行业基本面和业绩预告等信息。

热点资讯 11.23
电商出海:拉丁美洲市场解析与投资机遇

电商出海:拉丁美洲市场解析与投资机遇

疫情改变了消费者的购物习惯,拉美电商平台迎来快速发展,其中跨境电商卖家积极布局。据估计,预计2028年拉美地区电商市场规模将突破2050亿美元。虽然各国市场潜力各异,但有部分卖家已早早预见到这可能是一个难得的机遇,并开始在美客多等平台上展开竞争。

热点资讯 11.23
AI技术开启新篇章:搜索引擎市场的新一轮竞争风暴正在展开

AI技术开启新篇章:搜索引擎市场的新一轮竞争风暴正在展开

以下是一段关于AI搜索产品推出的新闻概述: 越来越多的互联网厂商推出AI搜索产品,其中最著名的是知乎直答、搜狗输入法和360集团。这些产品的推出反映了AI搜索技术的不断提升,预计在未来一段时间内,用户使用成本将会与传统搜索引擎相近。同时,它们也是对AI搜索逻辑与传统搜索逻辑差异性的突破,尤其是后者更关注场景侧的深入程度。尽管当前AI搜索产品仍存在用户习惯问题和产品升级需求等问题,但随着技术的发展和市场的需求,这些问题有望得到解决。在整体上,AI搜索正在改变我们的生活,并将继续推动数字化转型。

热点资讯 11.23
印尼欲求更多:苹果1亿美元投资仍无法解iPhone 16封杀令?

印尼欲求更多:苹果1亿美元投资仍无法解iPhone 16封杀令?

苹果面临印尼市场禁令困境,寻求解除或增加投资,可能寻求双倍回报。印尼政府希望能获得更大的投资,以换取其在手机制造方面的支持。

热点资讯 11.23
亚马逊海外官方旗舰店入驻京东:跨境巨头的激战升级还是新一轮较量?

亚马逊海外官方旗舰店入驻京东:跨境巨头的激战升级还是新一轮较量?

亚马逊海外官方旗舰店已正式入驻京东,旨在为全球消费者提供更多选择。亚马逊中国副总裁李岩川表示,他们将扩大采销、售前服务和支付方式的合作机会。同时,两家公司也将探索社交媒体电商和直播电商领域的投资和布局。

热点资讯 11.23
纳芯微王升杨:中国模拟芯片行业并购整合的必然趋势,你的浏览器可能需要更新一下

纳芯微王升杨:中国模拟芯片行业并购整合的必然趋势,你的浏览器可能需要更新一下

芯片制造商面临毛利率下降的压力。然而,纳芯微有限公司董事长王升杨表示,他有信心带领企业走出困境,走向更广阔的发展空间。他在采访中指出,在未来,中国芯片企业在市场竞争中将更加注重产品的定位和定义,以及与用户的深入沟通。此外,他也认为,当前的芯片行业正逐渐迈向稳健发展的阶段,关键在于企业的技术进步和创新能力。最后,他表示,中国汽车芯片产业将持续发展,为全球汽车行业注入新的动力。

热点资讯 11.23
苹果即将对Siri进行重大变革:发布会日期曝光!

苹果即将对Siri进行重大变革:发布会日期曝光!

苹果正开发更强大且具有对话功能的Siri数字助手,旨在赶超OpenAI的ChatGPT和其他语音服务。此新型Siri将采用高级的语言模型,支持双向对话,并且更精准地控制第三方应用。此项目已进行了13年,但仍然落后于Google的Gemini等竞争对手。苹果计划最早在2025年发布新的Siri,但确切日期仍有不确定性。此外,近期发布的招聘信息也显示,苹果计划推出更强大的Siri。

热点资讯 11.23
37岁导演再次开山之作:《庆余年2》演绎主角,他的新挑战引行业热议

37岁导演再次开山之作:《庆余年2》演绎主角,他的新挑战引行业热议

本文主要讲述了悬疑剧《宿敌》上线后引发的关注度,以及多个演员在其中的角色塑造。包括男主角廖凡、女主角黄萧、胡夏峰和国安警官肖波等,他们分别在剧中表现出层次感分明、立体饱满的人物形象和出色的表演。沈晓海作为一名熟知多年的老戏骨,在《宿敌》中的出色表现也受到了观众的一致好评。这些演员们在剧中共同营造了一个引人入胜的故事,并且展现出各自的特色和魅力。文章最后强调了这部电视剧的价值所在,呼吁更多优秀的影视作品出现。

热点资讯 11.23
《小巷人家》全体告别成员致敬与告别:王安宇手书歌词,周洁琼弹琵琶,闫妮蒋欣言简意赅

王安宇告别《小巷人家》,留下手写歌词与心声;周洁琼、闫妮、蒋欣齐唱,歌曲简单却深情。告别日常,致敬同行!

《小巷人家》全体告别成员致敬与告别:王安宇手书歌词,周洁琼弹琵琶,闫妮蒋欣言简意赅 王安宇告别《小巷人家》,留下手写歌词与心声;周洁琼、闫妮、蒋欣齐唱,歌曲简单却深情。告别日常,致敬同行!

度,乐观且坚强的林栋哲,犹如一缕阳光照亮了整个小巷。面对结束,四人分别发布告别信,感谢付出与陪伴。蒋欣饰演的宋莹圆满告别华妃的角色,闫妮塑造的黄玲突破难关,郭晓东塑造的庄超英深具责任感,李光洁扮演的林武峰则令人称赞。最后四位主角以微笑告别,完美谢幕。剧中情感深厚,让人感慨万千。

热点资讯 11.23