Почему генерация кода сложнее, чем кажется
Модель может написать синтаксически корректный код, который при этом провалит юнит-тесты, создаст race condition на высокой нагрузке или тихо проигнорирует edge-case с пустым массивом. Это главная проблема: большинство пользователей замечают только явные ошибки, а не логические. HumanEval измеряет процент задач, решённых с первой попытки на стандартных алгоритмических примерах, — но реальная кодовая база устроена иначе: зависимости между модулями, нестандартные API, легаси-соглашения. SWE-Bench ближе к реальности: он проверяет, способна ли модель закрыть настоящий GitHub-issue в реальном репозитории. Разрыв между результатами на HumanEval (где GPT-4o даёт ~90%) и SWE-Bench (где лучшие агентные системы едва достигают 50%) показывает, насколько изолированные задачки отличаются от настоящей разработки. Дополнительные сложности: длинный контекст нужен не ради объёма, а для корректного понимания зависимостей — модель должна держать в голове интерфейс класса из одного файла, когда пишет метод в другом. Рефакторинг без нарушения публичного API, написание тестов с реальным покрытием граничных случаев, ревью с указанием конкретной строки и обоснованием — всё это требует точности, которая у разных моделей расходится в разы на практике, даже если бенчмарки выглядят похоже.