Расшифровка интервью, лекций, созвонов и подкастов в текст с разделением по спикерам и временными метками. Whisper-large-v3 (в составе ChatGPT) — индустриальный стандарт по русскому, Gemini лидирует на длинных аудио (>1 часа) за счёт большого контекста и одновременной саммаризации.
Ниже — топ-2 аудио-моделей под эту задачу (лидер по нашему ранжированию — ChatGPT от OpenAI), с обоснованием выбора, ценами в рублях и доступностью из России. Все модели работают в Gde-AI на едином рублёвом балансе без VPN.
Ранжирование основано на бенчмарках, ценах в рублях, доступности из РФ и специализации каждой модели в этой нише.
Сильна в: чат и ассистенты, перевод, резюме документов. Универсальность
Сильна в: анализ длинных pdf, обработка видео, транскрипция аудио. Контекст 2 млн токенов
Параметры всех 2 моделей в одной таблице — цены ₽, контекст, доступ из РФ.
Другие задачи из той же категории — топы моделей под каждую.
Другие материалы в Gde-AI на близкие темы — отдельные модели, тематические подборки и сравнения.