Почему перевод — одна из самых требовательных задач для LLM
На первый взгляд перевод выглядит механической задачей: сопоставил слова — получил результат. Но именно здесь модели чаще всего проваливаются незаметно для пользователя. Плохой перевод редко содержит грубые ошибки — он просто звучит не так: слишком буквально, без учёта регистра, с кальками вместо устойчивых выражений.
Первая проблема — терминологическая консистентность. В техническом документе на 10 000 слов один и тот же термин должен переводиться одинаково на протяжении всего текста. Статистические модели типа классического DeepL в этом стабильны, но теряют контекст при переключении регистров. LLM с большим контекстным окном справляются лучше, но могут «дрейфовать» в терминологии к концу длинного фрагмента.
Вторая проблема — идиомы и культурные референсы. Выражение «kick the bucket» нельзя переводить дословно, но и «сыграть в ящик» подходит не всегда — зависит от аудитории и стиля. Модель должна понимать, для кого текст и в каком регистре он написан.
Третья проблема — сохранение структуры и стиля. Юридический договор, маркетинговый слоган и художественная проза требуют принципиально разного подхода. Критерии качества перевода: точность передачи смысла, сохранение тона, грамматическая корректность языка-цели, терминологическая единообразность и читаемость финального текста без потери информации.