Кейс: Анонимизация голосовых данных
Команда: hot_code_band
АУДИОЩИТ — это B2B-сервис анонимизации аудиозаписей для защиты бизнеса от утечек информации и многомиллионных штрафов. Проект разработан в рамках хакатона TulaHack 2026.
Как работает наш «умный фильтр» (STT + LLM):
- Система автоматически находит персональные данные в речи.
- Заглушает (мьютит) их в самом аудиофайле.
- Полностью вырезает из текстовой расшифровки (транскрипции).
- Предоставляет удобный интерфейс с плеером, где визуально подсвечены удаленные фрагменты, и генерирует отчет по типам скрытых данных.
- Соответствие 152-ФЗ: Легальное хранение и обработка очищенных данных (On-Premise для крупных банков или Облачное API для СМБ).
- Безопасность: Снижение риска утечек ПДн до нуля.
- Свобода данных: Очищенные звонки можно безопасно анализировать, улучшать скрипты продаж и обучать собственный ИИ.
Проект имеет распределенную микросервисную архитектуру:
- Backend API (
/backend/demo): Java / Spring Boot. Отвечает за бизнес-логику, маршрутизацию файлов, управление доступом и связь с базой данных. - База данных: MySQL для хранения метаданных аудио, отчетов и пользователей.
- ML / Audio Processing (
/python-stt): Python. Микросервис, инкапсулирующий работу со Speech-to-Text (STT) моделями и LLM для распознавания и вырезания ПДн из аудио. - Frontend (
/backendtest): TypeScript (Next.js/React). Пользовательский интерфейс с умным аудиоплеером и дашбордами. - Инфраструктура: Docker / Docker Compose, Nginx.
- Клонируйте репозиторий:
git clone https://github.com/HungarianNotation/TulaHack26.git
cd TulaHack26- Настройка окружения Скопируйте пример конфигурации и заполните пароли/порты (включая доступы к MySQL):
cp exemple.env .env- Права на файловую систему Для корректного сохранения аудиофайлов и их обработанных версий, выдайте права на директорию загрузок:
chmod -R 777 uploads/- Запуск
docker-compose up --build -d- Остановка и просмотр логов
docker-compose logs -f # Просмотр логов в реальном времени
docker-compose down # Остановка всех контейнеров