Локальные решения для расшифровки

Когда данные не должны покидать ваш компьютер — адвокатская тайна, чувствительные переговоры, закрытый контур. Какие модели распознавания речи и диаризации работают с русским языком и какие готовые инструменты можно поставить, не собирая пайплайн с нуля.

Дата составления: 2026-04-19
Статус: ✅ Актуально


Из чего состоит локальная расшифровка

Внутри это всегда два компонента: модель распознавания речи (ASR — Automatic Speech Recognition) и модель диаризации (разделение говорящих). ASR превращает звук в текст, диаризация говорит, кто из спикеров что произнес. Можно использовать только ASR (если текст нужен без меток), но для разговоров двух и более человек диаризация делает результат пригодным к чтению.

Локальное решение можно собирать тремя путями: взять готовое приложение, написать свой пайплайн (см. Вайб-кодинг) или донастроить готовую библиотеку. Ниже — модели и инструменты, которые имеет смысл рассматривать в каждом из этих путей.


Модели распознавания речи с поддержкой русского

Модель

Разработчик

Особенности

Лицензия

GigaAM-v3

SberDevices

Заточена под русский язык; в публичных бенчмарках — лучший результат для русского среди открытых моделей

MIT

Whisper Large V3

OpenAI

Индустриальный стандарт, универсальная многоязычная модель; много готовых инструментов поверх

MIT

Qwen3-ASR

Alibaba Cloud

Свежая (январь 2026), 30 языков включая русский; хорошо держит шум и музыку

Apache 2.0

Parakeet TDT 0.6B v3

NVIDIA

Легкая и быстрая, 25 европейских языков включая русский; хорошо работает на слабом железе

CC-BY-4.0

Vosk

AlphaCephei

Легкая офлайн-модель, запускается на ПК, ноутбуке и даже телефоне; есть вариант small для слабого железа

Apache 2.0

Для диаризации (разделения спикеров) стандартом стала PyAnnote — открытая библиотека на основе моделей глубокого обучения. Альтернатива — инструменты из фреймворка NVIDIA NeMo.


Готовые инструменты поверх локальных моделей

Чтобы использовать локальные модели, не обязательно собирать пайплайн с нуля — Ян Стригов, участник сообщества Нейросети | ilovedocs, представил два готовых решения.

Стенограф — десктопное приложение для расшифровки длинных записей через API Google Gemini (нужен собственный ключ из AI Studio):

  • Автоматически делит файл на сегменты, отправляет каждый в Gemini, сшивает результаты в единый документ со сквозными таймкодами;

  • Два режима диаризации: универсальный (Спикер 1, Спикер 2, автоматическое определение имен) и судебное заседание (Судья, Истец, Ответчик и т. д.);

  • Экспорт в TXT, SRT, Markdown;

  • Есть чекпоинты — если процесс прервался, продолжит с того же места.

Стек: Rust + TypeScript + Tauri, установщики для Windows и macOS, лицензия MIT. Подробнее — в анонсе автора в Telegram.

Telegram-бот для расшифровки — распознавание и диаризация выполняются на вашем оборудовании: бот принимает аудиофайл в Telegram, скачивает его к себе, распознает речь моделью GigaAM v3, разделяет реплики через PyAnnote и возвращает текстовую расшифровку в нескольких форматах. Разворачивается локально: Windows, желательно видеокарта NVIDIA с 12+ ГБ памяти, можно и на CPU (без onnxruntime-gpu). Лицензия MIT, документация с пошаговой инструкцией в репозитории. Подробнее — в анонсе автора в Telegram.

Нюанс: аудиофайл и результат идут через сервера Telegram — мессенджер хранит их в своем облаке, шифрование между клиентом и серверами Telegram есть, но не end-to-end. Для задач, где важна адвокатская тайна или конфиденциальные переговоры, этого может быть недостаточно — тогда лучше собрать собственный конвейер с теми же моделями, минуя Telegram, или использовать расшифровку строго внутри доверенного контура.


Кейс: локальный конвейер для судебных заседаний

Участник сообщества Нейросети | ilovedocs Семен Мошкин собрал у себя на Mac Mini M4 Pro автоматический пайплайн для расшифровки аудиозаписей судебных заседаний: запись → локальная модель GigaAM-v3 → готовый текст с диаризацией → дальнейшая обработка LLM. Первые версии пайплайна использовали Whisper-large-v3, но автор вернулся к GigaAM-v3 как более качественной для русского языка.

Это работающий пример того, что локальная расшифровка — реализуемый рабочий инструмент юриста.


Связанные статьи


Теги: #инструменты #аудио #транскрипция #локальное #диаризация