ГлавнаяБизнесЧеловеческий разум пока держит первенство ИИ для программирования успешно справляется только с...

Человеческий разум пока держит первенство ИИ для программирования успешно справляется только с базовыми задачами

ii6.jpg
Фото: cnews.ru

Большие надежды возлагались на сервис Devin — инновационного виртуального помощника для разработчиков. Однако детальное тестирование показало, что искусственный интеллект пока справляется лишь с небольшой частью поставленных задач. Успешность выполнения составляет около 15%, что говорит о большом потенциале для дальнейшего развития.

Реальный ум лучше виртуального

Сервис Devin, позиционируемый как первопроходец в области автоматизированной разработки программного обеспечения, продемонстрировал ограниченные возможности при решении практических задач. Тестирование выявило, что искусственный интеллект способен успешно справиться только с каждой седьмой поставленной задачей.

Проект разработан компанией Cognition AI и был представлен публике в марте 2024 года. На протяжении 9 месяцев проводилось закрытое бета-тестирование, в ходе которого разработчики совершенствовали функционал системы. В декабре 2024 года сервис стал доступен широкой аудитории.

Искусственный интеллект демонстрирует большой потенциал, но пока уступает человеческому разуму

Доступ к сервису осуществляется по подписке стоимостью $500 (49,1 тыс. руб. по курсу ЦБ на 24 января 2025 г.) в месяц.

Слишком много обещаний

Согласно официальной документации Cognition AI, Devin представляет собой автономного программного инженера на базе искусственного интеллекта. Заявленный функционал включает написание, тестирование и отладку кода, помощь в индивидуальных и командных проектах. Разработчики утверждают, что система способна анализировать запросы на изменение кода, осуществлять его миграцию, создавать веб-приложения и даже выполнять функции персонального ассистента.

Взаимодействие с пользователем происходит через корпоративный мессенджер Slack, а основная среда разработки размещена в контейнере Docker, включающем терминал, браузер, редактор кода и планировщик задач.

Важным преимуществом является поддержка интеграции API с внешними сервисами, что позволяет, например, отправлять email через SendGrid от имени пользователя.

У семи нейросетей программист без знаний

Devin представляет собой комплексную систему искусственного интеллекта, использующую несколько обученных моделей, включая GPT-4 от OpenAI. Такая архитектура теоретически позволяет компенсировать недостатки отдельных моделей и использовать сильные стороны каждой из них.

На практике система способна решать разнообразные задачи, включая миграцию кода. Использование передовых нейросетей с хорошей репутацией создавало оптимистичные ожидания, однако реальные результаты оказались скромнее.

Профессиональные разработчики обнаружили существенные недостатки в работе системы. После анализа демонстрационных материалов эксперты выявили серьезные проблемы с безопасностью и эффективностью работы сервиса.

Группа специалистов по обработке данных из лаборатории Answer.AI провела комплексное тестирование в январе 2025 года, спустя почти год после запуска проекта. Результаты показали, что из 20 тестовых заданий успешно выполнены только три.

Пример корректной работы Devin

Исследовательская группа в составе Хамеля Хусейна, Айзека Флата и Джоно Уитакера отметила, что на начальном этапе система демонстрировала хорошие результаты. Например, успешно выполнила перенос данных между Notion и Google Таблицами, а также создала трекер планет для астрономических расчетов.

Однако дальнейшее тестирование выявило серьезные проблемы. Даже простые задачи требовали неоправданно много времени, система часто заходила в технические тупики и предлагала неоптимальные решения. Особенно проблематичной оказалась тенденция продолжать работу над заведомо нерешаемыми задачами.

Показательным стал случай с попыткой развертывания приложений на платформе Railway, когда Devin потратил более суток на поиск несуществующих решений.

Неутешительный итог

Результаты тестирования показали, что из 20 заданий система успешно справилась только с тремя, включая упомянутые выше задачи и создание бота для Discord на Python. Три задания получили неоднозначную оценку, а 14 проектов завершились неудачей.

Исследователи отметили качественный пользовательский интерфейс системы, который производил хорошее впечатление в редких случаях корректной работы.

Наиболее существенной проблемой оказалась непредсказуемость результатов. Даже задачи, аналогичные успешно решенным ранее, могли привести к неудаче, требуя значительных временных затрат. Автономность системы, изначально считавшаяся преимуществом, на практике оказалась недостатком — Devin тратил время на поиск решений в ситуациях, где их принципиально не могло быть.

Источник: www.cnews.ru

Интересное