Devin是什么?
Devin 是由AI初創公司 Cognition 開發的全球首個全自主 AI 軟件工程師,具備自主學習新技術、端到端構建和部署應用、自主查找和修復代碼 Bug、訓練和微調 AI 模型的能力。在 SWE-bench 基準測試中,Devin 展現出超越其他 AI 模型的性能,正確解決了實際編程問題。
官方介紹視頻:
Devin的主要功能
- 長期推理與規劃:能夠規劃和執行需要數千個決策的復雜工程任務,記住每一步的相關上下文,隨時間學習,并修復錯誤。
- 使用開發者工具:配備了包括 shell、代碼編輯器和瀏覽器在內的常見開發者工具,在一個沙盒化計算環境中工作。
- 主動協作:能夠實時報告進度,接受反饋,并根據需要與用戶共同進行設計選擇。
- 學習新技術:通過閱讀博客文章等資料,學習如何使用不熟悉的技術。
- 端到端應用構建和部署:能夠從頭開始構建并部署應用程序,如模擬生命游戲的交互式網站,并將其部署到 Netlify。
- 自主查找和修復代碼庫中的 Bug:幫助維護和調試開源競賽編程書籍。
- 訓練和微調 AI 模型:設置大型語言模型的微調,只需提供一個 GitHub 研究倉庫的鏈接。
- 處理開源倉庫的問題:只需提供一個 GitHub 問題的鏈接,Devin 就能完成所有設置和上下文收集工作。
- 對成熟生產倉庫做出貢獻:作為 SWE-bench 基準測試的一部分,Devin 解決了 sympy Python 代數系統中的對數計算錯誤。
- 執行實際工作:在 Upwork 上完成實際的編程工作,編寫和調試運行計算機視覺模型的代碼,并在最后編譯報告。

Devin的評測結果
Devin 在 SWE-bench 基準測試中的表現非常出色,這是一個挑戰性的基準測試,要求參與者解決開源項目(如 Django 和 scikit-learn)中的實際 GitHub 問題。Devin 正確解決了 13.86% 的問題,這一比例遠遠超過了之前的技術水平,后者只能解決 1.96% 的問題。即使在只給定要編輯的確切文件的情況下,以往的最佳模型也只能解決 4.80% 的問題。Devin 在評估時是獨立完成的,而其他模型則得到了輔助(即模型被告知需要編輯哪些文件)。這一結果顯示了 Devin 在理解和解決實際編程問題方面的巨大優勢。

如何使用Devin?
Devin已開放使用,Devin官網地址:https://devin.ai/

?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。



