Расшифровка в чате в LLM
Чат с большой языковой моделью — самый доступный способ расшифровать разовую запись без подписок и дополнительного софта. Оптимальный выбор — Google AI Studio, в конце — короткий обзор остальных популярных чат-ботов, поддерживающих расшифровку.
Дата составления: 2026-04-19
Статус: ✅ Актуально
Google AI Studio
Оптимальный и универсальный выбор по соотношению цена/качество. Google AI Studio — это песочница, где можно напрямую обращаться к моделям Gemini, в том числе загружать аудиофайлы для расшифровки.
Подготовка файла
Формат — аудио, не видео. Видеоряд увеличивает размер контекста в 2–4 раза, быстрее расходует лимиты и ухудшает качество распознавания. Перед загрузкой извлеките аудиодорожку. Для исключения проблем с загрузкой аудиозаписи в чате можно предварительно загружать ее на ваш Google Drive.
Оптимальная длительность — до 30 минут на запрос. На записях длиннее часа могут начаться галлюцинации и сбои. Длинные записи лучше разрезать на куски по 30 минут.
Для нарезки аудио и извлечения дорожки из видео удобна бесплатная программа Transcription Assistant от Яна Стригова — устанавливается на macOS и Windows.
Настройки
Выключите Google Search (Grounding) — для расшифровки этот тумблер не нужен, он только замедляет работу.
Выбор модели. Рекомендуется Gemini 2.5 Pro как модель первого выбора. Если Pro упирается в лимиты (с декабря 2025 года Google их сильно урезал), берите Gemini Flash 3 — быстрее, стабильна на больших контекстах, качество в последних версиях очень высокое. Gemini 3 Pro хорошо справляется, но лимиты у большинства пользователей сильно ограничены.
Промпт
Минимум, что стоит указать:
Роль — например, «Ты профессиональный судебный секретарь» или «Ты профессиональный транскрибатор юридических аудиозаписей»;
Инструкцию удалять паузы хезитации («э-э», «м-м») и слова-паразиты;
Желаемый формат таймкодов, если они необходимы;
Если участников несколько — перечислить их имена, чтобы модель правильно расставила метки в диаризации.
Примером рабочего промпта для расшифровки длительной консультации из нескольких частей, построенного на пошаговой обработке (модель сначала транскрибирует каждую часть по отдельности, потом сшивает их в единую стенограмму и готовит тезисную справку) поделилась ментор курса «Нейросети для юриста: от основ к системе» Ольга Каменская:
Если в записи есть персональные данные, которые не должны попасть в облако, промпт частично решает задачу через замену на заглушки, но полагаться только на это рискованно. Надежнее сначала обезличить текст или работать локально — подробнее в статье Анонимизация данных.
Типовые проблемы и решения
Нестабильность таймкодов. Таймкоды в AI Studio генерируются текстовой моделью после распознавания и не всегда идеально совпадают с аудио. Это архитектурное ограничение: использовать их стоит как ориентир «докуда дошла расшифровка», а не как точную временную метку.
Сквозные таймкоды при нарезке. Каждая часть по умолчанию начинается с 00:00:00. Чтобы получить сквозную нумерацию, можно:
Загрузить несколько частей в одно окно чата, указав, что это продолжение одной записи;
Добавить в промпт: «Важный контекст: это продолжение другой стенограммы. Прибавь длительность предыдущего файла к таймкодам и продолжай отсчет» или «начни таймкоды с [хх:хх:хх]».
Лимит вывода — 66 тысяч токенов на ответ. Если генерация остановилась на середине, напишите в чат «Продолжай» — модель продолжит с нужного места, сохранив контекст и имена спикеров.
Диаризация работает хорошо. Модель сама определяет голоса («Спикер 1», «Спикер 2») и подставляет имена из контекста. Если перечислили участников в промпте — метки будут сразу с именами.
Чистка истории чата. При длинной работе можно удалять блоки с рассуждениями модели (reasoning) из истории — это экономит контекст и токены.
Другие чат-боты с расшифровкой аудио
Если у вас уже есть подписка на другой LLM-сервис, расшифровать запись можно и в части из них — с оговорками. Ниже — краткий обзор того, как с аудио работают ChatGPT, GigaChat, Qwen Chat и Mistral Le Chat, и для каких задач на русском они пригодны.
Сервис | Что предлагает | Применимость для русского |
Прямая загрузка MP3, WAV, M4A в чат, лимит 25 МБ на файл. В macOS-приложении доступен Record Mode с записью и расшифровкой встречи, до 120 минут на сессию. Под капотом — Whisper | Распознавание рабочее (Whisper тренирован на многих языках), но заметно слабее, чем на английском; качество саммари и диаризации на русском тоже уступает. Большие записи приходится резать — 45-минутный WAV легко весит 400 МБ | |
GigaChat (Сбер) | Загрузка файлов длительностью до 2 часов и размером до 30 МБ. Веб-интерфейс giga.chat и боты в Telegram, ВКонтакте и Max. Сразу расставляет знаки препинания, делит речь по спикерам, выделяет главное | Лучший вариант для русского среди чат-ботов: под капотом — SaluteSpeech на базе GigaAM (та же модель, что описана в статье Локальные решения для расшифровки). По сути это российское облачное API с чатовой оболочкой. Требуется российский IP-адрес и авторизация через Сбер ID; средства маскировки IP-адреса должны быть отключены |
Загрузка аудио и видео, но с жестким лимитом — не дольше 3 минут на файл | Модель Qwen3-ASR официально поддерживает русский, но в реальных тестах теряет союзы и местоимения, а на сложных фрагментах начинает менять слова и галлюцинировать. Лимит в 3 минуты делает сервис малопригодным для юридических задач. Для больших файлов есть отдельный API Qwen3-ASR-Flash (до 12 часов), но это уже не чат, а программный интерфейс | |
Mistral Le Chat (Voxtral) | Voice mode — диктовка пользователя в окно ввода с транскрипцией, не обработка загруженного файла | Модель Voxtral официально поддерживает английский, испанский, французский, португальский, хинди, немецкий, голландский, итальянский; русского в списке нет, качество на русском в открытых источниках не подтверждено. Для юридических задач на русском использовать нельзя |
Связанные статьи
Расшифровка аудио — общий обзор и сравнение подходов
Готовые сервисы и облачные API — если нужно регулярно расшифровывать онлайн-встречи
Локальные решения для расшифровки — если данные не должны покидать ваш компьютер
Анонимизация данных — если в записи есть персональные данные, обезличивайте до отправки в облако
Контекстное окно — почему длинные записи приходится резать
Промптинг — база по написанию промптов
Оплата и доступ из России — как получить доступ к Google AI Studio
Теги: #инструменты #аудио #транскрипция #ai-studio #диаризация