Локальные решения для расшифровки

Когда данные не должны покидать ваш компьютер — адвокатская тайна, чувствительные переговоры, закрытый контур. Какие модели распознавания речи и диаризации работают с русским языком и какие готовые инструменты можно поставить, не собирая пайплайн с нуля.

Дата составления: 2026-05-31
Статус: 💡 Актуально

Из чего состоит локальная расшифровка

Внутри это всегда два компонента: модель распознавания речи (ASR — Automatic Speech Recognition) и модель диаризации (разделение говорящих). ASR превращает звук в текст, диаризация говорит, кто из спикеров что произнес. Можно использовать только ASR (если текст нужен без меток), но для разговоров двух и более человек диаризация делает результат пригодным к чтению.

Локальное решение можно собирать тремя путями: взять готовое приложение, написать свой пайплайн (см. Вайб-кодинг) или донастроить готовую библиотеку. Ниже — модели и инструменты, которые имеет смысл рассматривать в каждом из этих путей.

Модели распознавания речи с поддержкой русского


Модель	Разработчик	Особенности	Лицензия
GigaAM-v3	SberDevices	Заточена под русский язык; в публичных бенчмарках — лучший результат для русского среди открытых моделей	MIT
Whisper Large V3	OpenAI	Индустриальный стандарт, универсальная многоязычная модель; много готовых инструментов поверх	MIT
Qwen3-ASR	Alibaba Cloud	Свежая (январь 2026), 30 языков включая русский; хорошо держит шум и музыку	Apache 2.0
Parakeet TDT 0.6B v3	NVIDIA	Легкая и быстрая, 25 европейских языков включая русский; хорошо работает на слабом железе	CC-BY-4.0
Vosk	AlphaCephei	Легкая офлайн-модель, запускается на ПК, ноутбуке и даже телефоне; есть вариант small для слабого железа	Apache 2.0

Для диаризации (разделения спикеров) стандартом стала PyAnnote — открытая библиотека на основе моделей глубокого обучения. Альтернатива — инструменты из фреймворка NVIDIA NeMo.

Готовые инструменты поверх локальных моделей

Чтобы использовать локальные модели, не обязательно собирать пайплайн с нуля — Ян Стригов, участник сообщества Нейросети | ilovedocs, представил два готовых решения.

Стенограф — десктопное приложение для расшифровки длинных записей через API Google Gemini (нужен собственный ключ из AI Studio):

Автоматически делит файл на сегменты, отправляет каждый в Gemini, сшивает результаты в единый документ со сквозными таймкодами;
Два режима диаризации: универсальный (Спикер 1, Спикер 2, автоматическое определение имен) и судебное заседание (Судья, Истец, Ответчик и т. д.);
Экспорт в TXT, SRT, Markdown;
Есть чекпоинты — если процесс прервался, продолжит с того же места.

Стек: Rust + TypeScript + Tauri, установщики для Windows и macOS, лицензия MIT. Подробнее — в анонсе автора в Telegram.

Telegram-бот для расшифровки — распознавание и диаризация выполняются на вашем оборудовании: бот принимает аудиофайл в Telegram, скачивает его к себе, распознает речь моделью GigaAM v3, разделяет реплики через PyAnnote и возвращает текстовую расшифровку в нескольких форматах. Разворачивается локально: Windows, желательно видеокарта NVIDIA с 12+ ГБ памяти, можно и на CPU (без onnxruntime-gpu). Лицензия MIT, документация с пошаговой инструкцией в репозитории. Подробнее — в анонсе автора в Telegram.

Нюанс: аудиофайл и результат идут через сервера Telegram — мессенджер хранит их в своем облаке, шифрование между клиентом и серверами Telegram есть, но не end-to-end. Для задач, где важна адвокатская тайна или конфиденциальные переговоры, этого может быть недостаточно — тогда лучше собрать собственный конвейер с теми же моделями, минуя Telegram, или использовать расшифровку строго внутри доверенного контура.

Локальные инструменты в облаке

Участница сообщества Нейросети | ilovedocs Полина Рождественская предложила подход, позволяющий бесплатно использовать локальную open-source нейросеть без установки на собственное устройство: запуск ноутбука с моделью Whisper в Google Colab.

Что такое Google Colab. Google Colaboratory — бесплатная облачная среда от Google для запуска Python-кода прямо в браузере, без установки чего-либо на свой компьютер. Colab предоставляет виртуальную машину с GPU — достаточно мощную для запуска Whisper. Рабочий документ называется ноутбук (notebook, файл в формате .ipynb) — набор последовательных ячеек с кодом и текстом, которые запускаются по порядку.

Как это работает с Whisper. При первом запуске ноутбук устанавливает модель Whisper на виртуальную машину Google и загружает ваш аудиофайл. Расшифровка выполняется там же — данные уходят на серверы Google, но не в сторонние сервисы транскрибации; модель работает внутри вашей сессии.

Ноутбук для запуска:

Как запустить:

Открыть Google Colab (нужен Google-аккаунт).
Загрузить ноутбук: «Файл» → «Загрузить блокнот» → выбрать .ipynb-файл.
Подключить среду выполнения: кнопка «Подключить» в правом верхнем углу.
Запускать ячейки по порядку — кнопкой ▶ слева от каждой или через «Среда выполнения» → «Выполнить всё».
Загрузить аудиофайл в указанную ячейкой папку и дождаться результата.

Доработка под себя. Ноутбук — это код, и его можно адаптировать вайб-кодингом: попросить LLM подключить другую модель, добавить диаризацию или изменить формат вывода. Так, Ян Стригов поделился двумя вариациями ноутбуков для расшифровки с диаризацией собеседников — один на GigaAM-v3 от Сбера, другой на Whisper.

Кейс: локальный конвейер для судебных заседаний

Участник сообщества Нейросети | ilovedocs Семен Мошкин собрал у себя на Mac Mini M4 Pro автоматический пайплайн для расшифровки аудиозаписей судебных заседаний: запись → локальная модель GigaAM-v3 → готовый текст с диаризацией → дальнейшая обработка LLM. Первые версии пайплайна использовали Whisper-large-v3, но автор вернулся к GigaAM-v3 как более качественной для русского языка.

Это работающий пример того, что локальная расшифровка — реализуемый рабочий инструмент юриста.

Связанные статьи

Расшифровка аудио — общий обзор и сравнение подходов
Расшифровка в чате в LLM — Google AI Studio и обзор других чат-ботов
Готовые сервисы и облачные API — MyMeet, Таймлист, Yandex SpeechKit и другие
Анонимизация данных — если задача — защитить ПД, локальная модель часто избыточна; иногда достаточно обезличить и работать с облаком
Вайб-кодинг — если хочется собрать свой инструмент поверх локальной модели
Вайб-кодинговые проекты — проекты участников сообщества, включая Стенограф и бот расшифровки

Теги: #инструменты #аудио #транскрипция #локальное #диаризация

Готовые сервисы и облачные API

Визуализация с ИИ