Комплекс программ SDT
Речевые технологии во ВНИИЭФ-СТЛ Работа по контракту с Intel – пакет программ SDT (Speech Developer Toolkit) Oсновное назначение – построение систем распознавания непрерывной речи, сравнимых с коммерческими продуктами Акцент на китайский и английский языки
Принципы реализации Язык С++, объектно- ориентированная реализация Поддержка платформ Windows, Linux, IA-32, IA-64 Оптимизация для процессоров Pentium ® III, Pentium ® 4, Itanium Вычислительно емкий код – библиотека IPPSR (Speech Recognition IPP )
Основные возможности SDT Подготовка данных Построение акустических моделей, использующих НММ Би- и триграмные языковые модели Декодирование речи с использованием стохастической и конечной грамматик Адаптация к диктору Поддержка распределенных вычислений
Декодер SDT Синхронный декодер, комбинация лучевого и n-best поиска Статическое трифонное дерево словаря Предвычисление биграмной модели Построение списка лучших гипотез и графа слов Декодирование по графу (конечной грамматике)
Производительность SDT Тестовые задачи: Английский язык – Wall Street Journal (NIST 1992) Китайский язык – на базе корпуса 863
Распознавание русской речи Слишком много словоформ 2 М русских слов ~ 50 К английских Произвольный порядок слов в предложении низкая эффективность n-грамных моделей Недостаток языковых ресурсов Только системы распознавания голосовых команд или системы с конечной грамматикой
Русские языковые ресурсы В сделано широкополосный аудио корпус (80 часов) телефонный аудио корпус (36 часов) фонетический словарь (4.7 М словоформ) текстовый корпус (1 В слов) инструментарий для обработки русских текстов Много ручной обработки Достаточно для построения системы диктовки хорошего качества и языковой модели
Демо русского распознавателя 70 часов речи для акустической модели Tapescript аудио корпусов + статья для языковой модели Словарь слов 2.6% ошибок на тестовой части корпуса RuSpeech Распределенная система сервер/клиент/обработчик результата