Локальные решения для расшифровки

Когда данные не должны покидать ваш компьютер — адвокатская тайна, чувствительные переговоры, закрытый контур. Какие модели распознавания речи и диаризации работают с русским языком и какие готовые инструменты можно поставить, не собирая пайплайн с нуля.

Дата составления: 2026-05-31
Статус: 💡 Актуально


Из чего состоит локальная расшифровка

Внутри это всегда два компонента: модель распознавания речи (ASR — Automatic Speech Recognition) и модель диаризации (разделение говорящих). ASR превращает звук в текст, диаризация говорит, кто из спикеров что произнес. Можно использовать только ASR (если текст нужен без меток), но для разговоров двух и более человек диаризация делает результат пригодным к чтению.

Локальное решение можно собирать тремя путями: взять готовое приложение, написать свой пайплайн (см. Вайб-кодинг) или донастроить готовую библиотеку. Ниже — модели и инструменты, которые имеет смысл рассматривать в каждом из этих путей.


Модели распознавания речи с поддержкой русского

Модель

Разработчик

Особенности

Лицензия

GigaAM-v3

SberDevices

Заточена под русский язык; в публичных бенчмарках — лучший результат для русского среди открытых моделей

MIT

Whisper Large V3

OpenAI

Индустриальный стандарт, универсальная многоязычная модель; много готовых инструментов поверх

MIT

Qwen3-ASR

Alibaba Cloud

Свежая (январь 2026), 30 языков включая русский; хорошо держит шум и музыку

Apache 2.0

Parakeet TDT 0.6B v3

NVIDIA

Легкая и быстрая, 25 европейских языков включая русский; хорошо работает на слабом железе

CC-BY-4.0

Vosk

AlphaCephei

Легкая офлайн-модель, запускается на ПК, ноутбуке и даже телефоне; есть вариант small для слабого железа

Apache 2.0

Для диаризации (разделения спикеров) стандартом стала PyAnnote — открытая библиотека на основе моделей глубокого обучения. Альтернатива — инструменты из фреймворка NVIDIA NeMo.


Готовые инструменты поверх локальных моделей

Чтобы использовать локальные модели, не обязательно собирать пайплайн с нуля — Ян Стригов, участник сообщества Нейросети | ilovedocs, представил два готовых решения.

Стенограф — десктопное приложение для расшифровки длинных записей через API Google Gemini (нужен собственный ключ из AI Studio):

  • Автоматически делит файл на сегменты, отправляет каждый в Gemini, сшивает результаты в единый документ со сквозными таймкодами;

  • Два режима диаризации: универсальный (Спикер 1, Спикер 2, автоматическое определение имен) и судебное заседание (Судья, Истец, Ответчик и т. д.);

  • Экспорт в TXT, SRT, Markdown;

  • Есть чекпоинты — если процесс прервался, продолжит с того же места.

Стек: Rust + TypeScript + Tauri, установщики для Windows и macOS, лицензия MIT. Подробнее — в анонсе автора в Telegram.

Telegram-бот для расшифровки — распознавание и диаризация выполняются на вашем оборудовании: бот принимает аудиофайл в Telegram, скачивает его к себе, распознает речь моделью GigaAM v3, разделяет реплики через PyAnnote и возвращает текстовую расшифровку в нескольких форматах. Разворачивается локально: Windows, желательно видеокарта NVIDIA с 12+ ГБ памяти, можно и на CPU (без onnxruntime-gpu). Лицензия MIT, документация с пошаговой инструкцией в репозитории. Подробнее — в анонсе автора в Telegram.

Нюанс: аудиофайл и результат идут через сервера Telegram — мессенджер хранит их в своем облаке, шифрование между клиентом и серверами Telegram есть, но не end-to-end. Для задач, где важна адвокатская тайна или конфиденциальные переговоры, этого может быть недостаточно — тогда лучше собрать собственный конвейер с теми же моделями, минуя Telegram, или использовать расшифровку строго внутри доверенного контура.


Локальные инструменты в облаке

Участница сообщества Нейросети | ilovedocs Полина Рождественская предложила подход, позволяющий бесплатно использовать локальную open-source нейросеть без установки на собственное устройство: запуск ноутбука с моделью Whisper в Google Colab.

Что такое Google Colab. Google Colaboratory — бесплатная облачная среда от Google для запуска Python-кода прямо в браузере, без установки чего-либо на свой компьютер. Colab предоставляет виртуальную машину с GPU — достаточно мощную для запуска Whisper. Рабочий документ называется ноутбук (notebook, файл в формате .ipynb) — набор последовательных ячеек с кодом и текстом, которые запускаются по порядку.

Как это работает с Whisper. При первом запуске ноутбук устанавливает модель Whisper на виртуальную машину Google и загружает ваш аудиофайл. Расшифровка выполняется там же — данные уходят на серверы Google, но не в сторонние сервисы транскрибации; модель работает внутри вашей сессии.

Ноутбук для запуска:

Как запустить:

  1. Открыть Google Colab (нужен Google-аккаунт).

  2. Загрузить ноутбук: «Файл» → «Загрузить блокнот» → выбрать .ipynb-файл.

  3. Подключить среду выполнения: кнопка «Подключить» в правом верхнем углу.

  4. Запускать ячейки по порядку — кнопкой ▶ слева от каждой или через «Среда выполнения» → «Выполнить всё».

  5. Загрузить аудиофайл в указанную ячейкой папку и дождаться результата.

Доработка под себя. Ноутбук — это код, и его можно адаптировать вайб-кодингом: попросить LLM подключить другую модель, добавить диаризацию или изменить формат вывода. Так, Ян Стригов поделился двумя вариациями ноутбуков для расшифровки с диаризацией собеседников — один на GigaAM-v3 от Сбера, другой на Whisper.


Кейс: локальный конвейер для судебных заседаний

Участник сообщества Нейросети | ilovedocs Семен Мошкин собрал у себя на Mac Mini M4 Pro автоматический пайплайн для расшифровки аудиозаписей судебных заседаний: запись → локальная модель GigaAM-v3 → готовый текст с диаризацией → дальнейшая обработка LLM. Первые версии пайплайна использовали Whisper-large-v3, но автор вернулся к GigaAM-v3 как более качественной для русского языка.

Это работающий пример того, что локальная расшифровка — реализуемый рабочий инструмент юриста.


Связанные статьи


Теги: #инструменты #аудио #транскрипция #локальное #диаризация