
Большие надежды возлагались на сервис Devin — инновационного виртуального помощника для разработчиков. Однако детальное тестирование показало, что искусственный интеллект пока справляется лишь с небольшой частью поставленных задач. Успешность выполнения составляет около 15%, что говорит о большом потенциале для дальнейшего развития.
Реальный ум лучше виртуального
Сервис Devin, позиционируемый как первопроходец в области автоматизированной разработки программного обеспечения, продемонстрировал ограниченные возможности при решении практических задач. Тестирование выявило, что искусственный интеллект способен успешно справиться только с каждой седьмой поставленной задачей.
Проект разработан компанией Cognition AI и был представлен публике в марте 2024 года. На протяжении 9 месяцев проводилось закрытое бета-тестирование, в ходе которого разработчики совершенствовали функционал системы. В декабре 2024 года сервис стал доступен широкой аудитории.
Искусственный интеллект демонстрирует большой потенциал, но пока уступает человеческому разуму
Доступ к сервису осуществляется по подписке стоимостью $500 (49,1 тыс. руб. по курсу ЦБ на 24 января 2025 г.) в месяц.
Слишком много обещаний
Согласно официальной документации Cognition AI, Devin представляет собой автономного программного инженера на базе искусственного интеллекта. Заявленный функционал включает написание, тестирование и отладку кода, помощь в индивидуальных и командных проектах. Разработчики утверждают, что система способна анализировать запросы на изменение кода, осуществлять его миграцию, создавать веб-приложения и даже выполнять функции персонального ассистента.
Взаимодействие с пользователем происходит через корпоративный мессенджер Slack, а основная среда разработки размещена в контейнере Docker, включающем терминал, браузер, редактор кода и планировщик задач.
Важным преимуществом является поддержка интеграции API с внешними сервисами, что позволяет, например, отправлять email через SendGrid от имени пользователя.
У семи нейросетей программист без знаний
Devin представляет собой комплексную систему искусственного интеллекта, использующую несколько обученных моделей, включая GPT-4 от OpenAI. Такая архитектура теоретически позволяет компенсировать недостатки отдельных моделей и использовать сильные стороны каждой из них.
На практике система способна решать разнообразные задачи, включая миграцию кода. Использование передовых нейросетей с хорошей репутацией создавало оптимистичные ожидания, однако реальные результаты оказались скромнее.
Профессиональные разработчики обнаружили существенные недостатки в работе системы. После анализа демонстрационных материалов эксперты выявили серьезные проблемы с безопасностью и эффективностью работы сервиса.
Группа специалистов по обработке данных из лаборатории Answer.AI провела комплексное тестирование в январе 2025 года, спустя почти год после запуска проекта. Результаты показали, что из 20 тестовых заданий успешно выполнены только три.
Пример корректной работы Devin
Исследовательская группа в составе Хамеля Хусейна, Айзека Флата и Джоно Уитакера отметила, что на начальном этапе система демонстрировала хорошие результаты. Например, успешно выполнила перенос данных между Notion и Google Таблицами, а также создала трекер планет для астрономических расчетов.
Однако дальнейшее тестирование выявило серьезные проблемы. Даже простые задачи требовали неоправданно много времени, система часто заходила в технические тупики и предлагала неоптимальные решения. Особенно проблематичной оказалась тенденция продолжать работу над заведомо нерешаемыми задачами.
Показательным стал случай с попыткой развертывания приложений на платформе Railway, когда Devin потратил более суток на поиск несуществующих решений.
Неутешительный итог
Результаты тестирования показали, что из 20 заданий система успешно справилась только с тремя, включая упомянутые выше задачи и создание бота для Discord на Python. Три задания получили неоднозначную оценку, а 14 проектов завершились неудачей.
Исследователи отметили качественный пользовательский интерфейс системы, который производил хорошее впечатление в редких случаях корректной работы.
Наиболее существенной проблемой оказалась непредсказуемость результатов. Даже задачи, аналогичные успешно решенным ранее, могли привести к неудаче, требуя значительных временных затрат. Автономность системы, изначально считавшаяся преимуществом, на практике оказалась недостатком — Devin тратил время на поиск решений в ситуациях, где их принципиально не могло быть.
Источник: www.cnews.ru



