Комплекс программ SDT. Речевые технологии во ВНИИЭФ-СТЛ Работа по контракту с Intel 1999-2001 – пакет программ SDT (Speech Developer Toolkit) Oсновное.

Презентация:



Advertisements
Похожие презентации
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
Advertisements

Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.
Лекция 3. Программное обеспечение информационных технологий По дисциплине: «Информационные технологии в коммерческой деятельности»
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
1 Работа под управлением ОС Windows. 2 Темы для обсуждения 1. Что такое операционная система Что такое операционная система Понятие ОС Виды ОС 2. Операционная.
Voice Compare Аппаратно-программный комплекс для решения задач голосовой идентификации и аутентификации по фонограммам произвольного содержания.
Globus Toolkit как средство для построения глобальных распределенных вычислительных ферм и кластеров Объединенный Институт Ядерных Исследований Докладчик:
Разработка языка MultiModal Interface XML (mmXML) для описания сценариев информационных услуг в рамках проекта «Персональный агент» Исполнитель: Чешуин.
Микропроцессор. Назначение процессора обработка информации управление работой всего компьютера Состав процессора АЛУ УУ.
Способы организации высокопроизводительных процессоров Клеточные и ДНК-процессора Коммуникационные процессоры Процессоры баз данных Потоковые процессоры.
Autodesk ФОРУМ ТЕХНОЛОГИИ ПРОЕКТИРОВАНИЯ Москва, 22 и 23 сентября 2010 Повышение производительности расчетных задач в Autodesk Algor при использовании.
Электронный офис. Это система автоматизации работы учреждения, основанная на использовании компьютерной техники.
Следующее поколение программных продуктов ПАРУС. Через процветание наших клиентов – к возрождению российской экономики О платформе Разработка для Торнадо.
Разработка системы статистического анализа сообщений в социальных сетях с применением модели распределенных вычислений MapReduce Соискатель - Игнатенко.
1 Компания ECTACO INC. USA мировой разработчик и производитель электронных переводчиков с функцией изучения языков.
Вычислительный портал автор:Демидов А.В. науч.рук.:Афанасьев К.Е. КемГУ.
Владимир Костюков, АлтГТУ АлтГТУ им И. И. Ползунова Распределенная система мониторинга и диспетчерезации процессов гетерогенной среды.
Включение «тонких» клиентов в сетевую инфраструктуру образовательного учреждения Мексичев О.А. Зам.директора по УВР МБОУ лицея 29.
Основы реляционных баз данных Лекция 1. История и введение Желенкова Ольга Петровна, с.н.с. ОИ САО РАН, к.ф.-м.н апреля 2008.
КАФЕДРА ИНФОРМАТИКИ И ВЫЧИСЛИТЕЛЬНОГО ЭКСПЕРИМЕНТА НАПРАВЛЕНИЕ «ПРИКЛАДНАЯ МАТЕМАТИКА И ИНФОРМАТИКА» Профиль « Математическое обеспечение вычислительных.
Транксрипт:

Комплекс программ SDT

Речевые технологии во ВНИИЭФ-СТЛ Работа по контракту с Intel – пакет программ SDT (Speech Developer Toolkit) Oсновное назначение – построение систем распознавания непрерывной речи, сравнимых с коммерческими продуктами Акцент на китайский и английский языки

Принципы реализации Язык С++, объектно- ориентированная реализация Поддержка платформ Windows, Linux, IA-32, IA-64 Оптимизация для процессоров Pentium ® III, Pentium ® 4, Itanium Вычислительно емкий код – библиотека IPPSR (Speech Recognition IPP )

Основные возможности SDT Подготовка данных Построение акустических моделей, использующих НММ Би- и триграмные языковые модели Декодирование речи с использованием стохастической и конечной грамматик Адаптация к диктору Поддержка распределенных вычислений

Декодер SDT Синхронный декодер, комбинация лучевого и n-best поиска Статическое трифонное дерево словаря Предвычисление биграмной модели Построение списка лучших гипотез и графа слов Декодирование по графу (конечной грамматике)

Производительность SDT Тестовые задачи: Английский язык – Wall Street Journal (NIST 1992) Китайский язык – на базе корпуса 863

Распознавание русской речи Слишком много словоформ 2 М русских слов ~ 50 К английских Произвольный порядок слов в предложении низкая эффективность n-грамных моделей Недостаток языковых ресурсов Только системы распознавания голосовых команд или системы с конечной грамматикой

Русские языковые ресурсы В сделано широкополосный аудио корпус (80 часов) телефонный аудио корпус (36 часов) фонетический словарь (4.7 М словоформ) текстовый корпус (1 В слов) инструментарий для обработки русских текстов Много ручной обработки Достаточно для построения системы диктовки хорошего качества и языковой модели

Демо русского распознавателя 70 часов речи для акустической модели Tapescript аудио корпусов + статья для языковой модели Словарь слов 2.6% ошибок на тестовой части корпуса RuSpeech Распределенная система сервер/клиент/обработчик результата