Расшифровка в чате в LLM

Чат с большой языковой моделью — самый доступный способ расшифровать разовую запись без подписок и дополнительного софта. Оптимальный выбор — Google AI Studio, в конце — короткий обзор остальных популярных чат-ботов, поддерживающих расшифровку.

Дата составления: 2026-04-19
Статус: ✅ Актуально


Google AI Studio

Оптимальный и универсальный выбор по соотношению цена/качество. Google AI Studio — это песочница, где можно напрямую обращаться к моделям Gemini, в том числе загружать аудиофайлы для расшифровки.

Подготовка файла

Формат — аудио, не видео. Видеоряд увеличивает размер контекста в 2–4 раза, быстрее расходует лимиты и ухудшает качество распознавания. Перед загрузкой извлеките аудиодорожку. Для исключения проблем с загрузкой аудиозаписи в чате можно предварительно загружать ее на ваш Google Drive.

Оптимальная длительность — до 30 минут на запрос. На записях длиннее часа могут начаться галлюцинации и сбои. Длинные записи лучше разрезать на куски по 30 минут.

Для нарезки аудио и извлечения дорожки из видео удобна бесплатная программа Transcription Assistant от Яна Стригова — устанавливается на macOS и Windows.

Настройки

Выключите Google Search (Grounding) — для расшифровки этот тумблер не нужен, он только замедляет работу.

Выбор модели. Рекомендуется Gemini 2.5 Pro как модель первого выбора. Если Pro упирается в лимиты (с декабря 2025 года Google их сильно урезал), берите Gemini Flash 3 — быстрее, стабильна на больших контекстах, качество в последних версиях очень высокое. Gemini 3 Pro хорошо справляется, но лимиты у большинства пользователей сильно ограничены.

Промпт

Минимум, что стоит указать:

  • Роль — например, «Ты профессиональный судебный секретарь» или «Ты профессиональный транскрибатор юридических аудиозаписей»;

  • Инструкцию удалять паузы хезитации («э-э», «м-м») и слова-паразиты;

  • Желаемый формат таймкодов, если они необходимы;

  • Если участников несколько — перечислить их имена, чтобы модель правильно расставила метки в диаризации.

Примером рабочего промпта для расшифровки длительной консультации из нескольких частей, построенного на пошаговой обработке (модель сначала транскрибирует каждую часть по отдельности, потом сшивает их в единую стенограмму и готовит тезисную справку) поделилась ментор курса «Нейросети для юриста: от основ к системе» Ольга Каменская:

Если в записи есть персональные данные, которые не должны попасть в облако, промпт частично решает задачу через замену на заглушки, но полагаться только на это рискованно. Надежнее сначала обезличить текст или работать локально — подробнее в статье Анонимизация данных.

Типовые проблемы и решения

Нестабильность таймкодов. Таймкоды в AI Studio генерируются текстовой моделью после распознавания и не всегда идеально совпадают с аудио. Это архитектурное ограничение: использовать их стоит как ориентир «докуда дошла расшифровка», а не как точную временную метку.

Сквозные таймкоды при нарезке. Каждая часть по умолчанию начинается с 00:00:00. Чтобы получить сквозную нумерацию, можно:

  • Загрузить несколько частей в одно окно чата, указав, что это продолжение одной записи;

  • Добавить в промпт: «Важный контекст: это продолжение другой стенограммы. Прибавь длительность предыдущего файла к таймкодам и продолжай отсчет» или «начни таймкоды с [хх:хх:хх]».

Лимит вывода — 66 тысяч токенов на ответ. Если генерация остановилась на середине, напишите в чат «Продолжай» — модель продолжит с нужного места, сохранив контекст и имена спикеров.

Диаризация работает хорошо. Модель сама определяет голоса («Спикер 1», «Спикер 2») и подставляет имена из контекста. Если перечислили участников в промпте — метки будут сразу с именами.

Чистка истории чата. При длинной работе можно удалять блоки с рассуждениями модели (reasoning) из истории — это экономит контекст и токены.


Другие чат-боты с расшифровкой аудио

Если у вас уже есть подписка на другой LLM-сервис, расшифровать запись можно и в части из них — с оговорками. Ниже — краткий обзор того, как с аудио работают ChatGPT, GigaChat, Qwen Chat и Mistral Le Chat, и для каких задач на русском они пригодны.

Сервис

Что предлагает

Применимость для русского

ChatGPT

Прямая загрузка MP3, WAV, M4A в чат, лимит 25 МБ на файл. В macOS-приложении доступен Record Mode с записью и расшифровкой встречи, до 120 минут на сессию. Под капотом — Whisper

Распознавание рабочее (Whisper тренирован на многих языках), но заметно слабее, чем на английском; качество саммари и диаризации на русском тоже уступает. Большие записи приходится резать — 45-минутный WAV легко весит 400 МБ

GigaChat (Сбер)

Загрузка файлов длительностью до 2 часов и размером до 30 МБ. Веб-интерфейс giga.chat и боты в Telegram, ВКонтакте и Max. Сразу расставляет знаки препинания, делит речь по спикерам, выделяет главное

Лучший вариант для русского среди чат-ботов: под капотом — SaluteSpeech на базе GigaAM (та же модель, что описана в статье Локальные решения для расшифровки). По сути это российское облачное API с чатовой оболочкой. Требуется российский IP-адрес и авторизация через Сбер ID; средства маскировки IP-адреса должны быть отключены

Qwen Chat

Загрузка аудио и видео, но с жестким лимитом — не дольше 3 минут на файл

Модель Qwen3-ASR официально поддерживает русский, но в реальных тестах теряет союзы и местоимения, а на сложных фрагментах начинает менять слова и галлюцинировать. Лимит в 3 минуты делает сервис малопригодным для юридических задач. Для больших файлов есть отдельный API Qwen3-ASR-Flash (до 12 часов), но это уже не чат, а программный интерфейс

Mistral Le Chat (Voxtral)

Voice mode — диктовка пользователя в окно ввода с транскрипцией, не обработка загруженного файла

Модель Voxtral официально поддерживает английский, испанский, французский, португальский, хинди, немецкий, голландский, итальянский; русского в списке нет, качество на русском в открытых источниках не подтверждено. Для юридических задач на русском использовать нельзя


Связанные статьи


Теги: #инструменты #аудио #транскрипция #ai-studio #диаризация