Локальные решения для расшифровки
Когда данные не должны покидать ваш компьютер — адвокатская тайна, чувствительные переговоры, закрытый контур. Какие модели распознавания речи и диаризации работают с русским языком и какие готовые инструменты можно поставить, не собирая пайплайн с нуля.
Дата составления: 2026-05-31
Статус: 💡 Актуально
Из чего состоит локальная расшифровка
Внутри это всегда два компонента: модель распознавания речи (ASR — Automatic Speech Recognition) и модель диаризации (разделение говорящих). ASR превращает звук в текст, диаризация говорит, кто из спикеров что произнес. Можно использовать только ASR (если текст нужен без меток), но для разговоров двух и более человек диаризация делает результат пригодным к чтению.
Локальное решение можно собирать тремя путями: взять готовое приложение, написать свой пайплайн (см. Вайб-кодинг) или донастроить готовую библиотеку. Ниже — модели и инструменты, которые имеет смысл рассматривать в каждом из этих путей.
Модели распознавания речи с поддержкой русского
Модель | Разработчик | Особенности | Лицензия |
SberDevices | Заточена под русский язык; в публичных бенчмарках — лучший результат для русского среди открытых моделей | MIT | |
OpenAI | Индустриальный стандарт, универсальная многоязычная модель; много готовых инструментов поверх | MIT | |
Alibaba Cloud | Свежая (январь 2026), 30 языков включая русский; хорошо держит шум и музыку | Apache 2.0 | |
NVIDIA | Легкая и быстрая, 25 европейских языков включая русский; хорошо работает на слабом железе | CC-BY-4.0 | |
AlphaCephei | Легкая офлайн-модель, запускается на ПК, ноутбуке и даже телефоне; есть вариант small для слабого железа | Apache 2.0 |
Для диаризации (разделения спикеров) стандартом стала PyAnnote — открытая библиотека на основе моделей глубокого обучения. Альтернатива — инструменты из фреймворка NVIDIA NeMo.
Готовые инструменты поверх локальных моделей
Чтобы использовать локальные модели, не обязательно собирать пайплайн с нуля — Ян Стригов, участник сообщества Нейросети | ilovedocs, представил два готовых решения.
Стенограф — десктопное приложение для расшифровки длинных записей через API Google Gemini (нужен собственный ключ из AI Studio):
Автоматически делит файл на сегменты, отправляет каждый в Gemini, сшивает результаты в единый документ со сквозными таймкодами;
Два режима диаризации: универсальный (Спикер 1, Спикер 2, автоматическое определение имен) и судебное заседание (Судья, Истец, Ответчик и т. д.);
Экспорт в TXT, SRT, Markdown;
Есть чекпоинты — если процесс прервался, продолжит с того же места.
Стек: Rust + TypeScript + Tauri, установщики для Windows и macOS, лицензия MIT. Подробнее — в анонсе автора в Telegram.
Telegram-бот для расшифровки — распознавание и диаризация выполняются на вашем оборудовании: бот принимает аудиофайл в Telegram, скачивает его к себе, распознает речь моделью GigaAM v3, разделяет реплики через PyAnnote и возвращает текстовую расшифровку в нескольких форматах. Разворачивается локально: Windows, желательно видеокарта NVIDIA с 12+ ГБ памяти, можно и на CPU (без onnxruntime-gpu). Лицензия MIT, документация с пошаговой инструкцией в репозитории. Подробнее — в анонсе автора в Telegram.
Нюанс: аудиофайл и результат идут через сервера Telegram — мессенджер хранит их в своем облаке, шифрование между клиентом и серверами Telegram есть, но не end-to-end. Для задач, где важна адвокатская тайна или конфиденциальные переговоры, этого может быть недостаточно — тогда лучше собрать собственный конвейер с теми же моделями, минуя Telegram, или использовать расшифровку строго внутри доверенного контура.
Локальные инструменты в облаке
Участница сообщества Нейросети | ilovedocs Полина Рождественская предложила подход, позволяющий бесплатно использовать локальную open-source нейросеть без установки на собственное устройство: запуск ноутбука с моделью Whisper в Google Colab.
Что такое Google Colab. Google Colaboratory — бесплатная облачная среда от Google для запуска Python-кода прямо в браузере, без установки чего-либо на свой компьютер. Colab предоставляет виртуальную машину с GPU — достаточно мощную для запуска Whisper. Рабочий документ называется ноутбук (notebook, файл в формате .ipynb) — набор последовательных ячеек с кодом и текстом, которые запускаются по порядку.
Как это работает с Whisper. При первом запуске ноутбук устанавливает модель Whisper на виртуальную машину Google и загружает ваш аудиофайл. Расшифровка выполняется там же — данные уходят на серверы Google, но не в сторонние сервисы транскрибации; модель работает внутри вашей сессии.
Ноутбук для запуска:
Как запустить:
Открыть Google Colab (нужен Google-аккаунт).
Загрузить ноутбук: «Файл» → «Загрузить блокнот» → выбрать
.ipynb-файл.Подключить среду выполнения: кнопка «Подключить» в правом верхнем углу.
Запускать ячейки по порядку — кнопкой ▶ слева от каждой или через «Среда выполнения» → «Выполнить всё».
Загрузить аудиофайл в указанную ячейкой папку и дождаться результата.
Доработка под себя. Ноутбук — это код, и его можно адаптировать вайб-кодингом: попросить LLM подключить другую модель, добавить диаризацию или изменить формат вывода. Так, Ян Стригов поделился двумя вариациями ноутбуков для расшифровки с диаризацией собеседников — один на GigaAM-v3 от Сбера, другой на Whisper.
Кейс: локальный конвейер для судебных заседаний
Участник сообщества Нейросети | ilovedocs Семен Мошкин собрал у себя на Mac Mini M4 Pro автоматический пайплайн для расшифровки аудиозаписей судебных заседаний: запись → локальная модель GigaAM-v3 → готовый текст с диаризацией → дальнейшая обработка LLM. Первые версии пайплайна использовали Whisper-large-v3, но автор вернулся к GigaAM-v3 как более качественной для русского языка.
Это работающий пример того, что локальная расшифровка — реализуемый рабочий инструмент юриста.
Связанные статьи
Расшифровка аудио — общий обзор и сравнение подходов
Расшифровка в чате в LLM — Google AI Studio и обзор других чат-ботов
Готовые сервисы и облачные API — MyMeet, Таймлист, Yandex SpeechKit и другие
Анонимизация данных — если задача — защитить ПД, локальная модель часто избыточна; иногда достаточно обезличить и работать с облаком
Вайб-кодинг — если хочется собрать свой инструмент поверх локальной модели
Вайб-кодинговые проекты — проекты участников сообщества, включая Стенограф и бот расшифровки
Теги: #инструменты #аудио #транскрипция #локальное #диаризация