介绍
在 SWE-bench 编码基准上创下新纪录。认识一下世界上第一位完全自主的 AI 软件工程师 Devin。
德文 (Devin) 是一位不知疲倦、技术娴熟的队友,他既愿意与您一起建设,也愿意独立完成任务供您审查。
有了 Devin,工程师可以专注于更有趣的问题,工程团队可以努力实现更宏伟的目标。
Devin 的能力
凭借我们在长期推理和规划方面的进步,Devin 可以规划和执行需要做出数千个决策的复杂工程任务。Devin 可以回忆起每一步的相关背景,随着时间的推移不断学习并改正错误。
我们还为 Devin 配备了常见的开发工具,包括沙盒计算环境中的 shell、代码编辑器和浏览器——人类完成工作所需的一切。
最后,我们赋予了 Devin 与用户积极协作的能力。Devin 会实时报告其进度,接受反馈,并根据需要与您一起设计选择。以下是 Devin 可以执行的操作示例:
德文可以学习如何使用不熟悉的技术。
在阅读了一篇博客文章后,Devin 在 Modal 上运行 ControlNet 为 Sara 制作了带有隐藏信息的图像。
Devin 可以端到端地构建和部署应用程序
Devin 制作了一个模拟生命游戏的交互式网站!它逐步添加用户请求的功能,然后将应用程序部署到 Netlify。
Devin 可以自主查找并修复代码库中的错误
德文帮助安德鲁维护和调试他的开源竞技编程书籍。
Devin 可以训练和微调自己的 AI 模型
Devin 仅给出了 GitHub 上研究存储库的链接,便可为大型语言模型设置微调。
Devin 可以解决开源存储库中的错误和功能请求
只需给出 GitHub 问题的链接,Devin 就会完成所有必要的设置和上下文收集。
Devin 可以为成熟的生产存储库做出贡献。
此示例是 SWE-bench 基准测试的一部分。Devin 解决了 sympy Python 代数系统中对数计算的一个错误。Devin 设置了代码环境,重现了错误,并自行编写代码和测试修复程序。
我们甚至尝试在 Upwork 上为 Devin 提供真正的工作,它也能做到!
在这里,Devin 编写并调试代码以运行计算机视觉模型。Devin 对结果数据进行采样并在最后编写报告。
Devin 的表演
我们在SWE-bench上对 Devin 进行了评估,这是一项具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的实际 GitHub 问题。
Devin 端到端正确解决了 13.86%* 的问题,远远超过之前最先进的 1.96%。即使给出了要编辑的确切文件,之前最好的模型也只能解决 4.80% 的问题。
Devin 是在数据集的随机 25% 子集上进行评估的。Devin 没有得到任何帮助,而其他所有模型都得到了帮助(这意味着模型会被告知哪些文件需要编辑)。
我们计划很快发布更详细的技术报告——敬请关注更多详细信息。
关于认知
我们是一家专注于推理的应用 AI 实验室。我们正在打造能力远超当今现有 AI 工具的 AI 队友。通过解决推理问题,我们可以在广泛的学科中解锁新的可能性——代码只是开始。我们希望帮助世界各地的人们将他们的想法变成现实。
我们资金充足,包括由 Founders Fund 领投的 2100 万美元 A 轮融资。我们非常感谢行业领袖的支持,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 等。