Windows 11
微软最新的操作系统

首个AI程序员Devin发布

首个AI程序员Devin发布

Cognition发布首位AI软件工程师Devin,这个演示相当惊艳。Devin 是一个自主Agents,它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。

Devin成功通过了知名人工智能公司的实际工程面试,甚至还在 Upwork 上完成了实际工作。

Devin 在无辅助情况下正确解决了 13.86% 的问题,远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。

它可以学习如何使用不熟悉的技术,可以为成熟的生产资源库做出贡献,可以训练和微调自己的人工智能模型,甚至试着在 Upwork 上给 Devin 提供真实的工作,它也能完成。

Cognition还发布了他们的AI程序员Devin的技术报告,他们自己设计了一个很复杂的代码能力测试SWE-bench。

同时然后用这个测试集对Devin进行测试,Devin在没有辅助的情况下成功解决了13.86%的问题,之前最好的模型也只解决了4.80%的问题。

Claude 2都这么强吗?GPT-4这个成绩有点拉的。

SWE-bench的自动化基准测试方案:

该测试包含从GitHub上流行的开源Python仓库中抓取的2,294个问题和拉取请求。

SWE-bench的目标是测试系统编写实际代码的能力,每个实例包括一个GitHub问题和解决它的拉取请求,拉取请求必须包括一个在代码更改前失败、更改后通过的单元测试。

Devin测试结果:

Devin在没有辅助的情况下成功解决了13.86%的问题,远超过之前未辅助基线的最高记录1.96%。

即使在提供确切需要编辑的文件的“辅助”情况下,之前最好的模型也只解决了4.80%的问题。

Devin的成功归因于其能够执行多步骤计划并从环境中获得反馈,72%的通过测试需要超过10分钟完成,表明迭代能力对于成功至关重要。

赞(0) 打赏
未经允许不得转载:Win 11系统之家 » 首个AI程序员Devin发布

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏