Российские разработки корпусов устной речи I. Корпусы звучащей речи = фонетические базы данных II. Корпусы устных текстов
I. Корпусы звучащей речи Корпус русской речи ISABASE Речевой корпус RuSpeech Информационно-поисковая система диагностики типа акцента/диалекта неизвестного диктора «Территория»
II. Корпусы устных текстов 1. Корпус детских рассказов о сновидениях ориентирован на изучение структуры устного дискурса. Способ представления текстов: аудиозапись + дискурсивная транскрипция
Образец транскрипции Z50. Ольга Ц., 17 лет. 1. /\Озеро...(0.5) какое-то, 2...(0.3) (Или /\речка или /\озеро, 3. но по-моему \озеро, 4. Потому что как-то ммм(0.6) \маленькое такое, 5. \небольшое.) 6. …(0.9) и-и …(0.7) через /него..(0.3) как-то \бревно какое-то, 7. типа \моста. 8...(0.4) Там всё как-то /маленькое, 9. и в то же время \большое (1.2) Вокруг такой /–ле-ес-с_
Устная речь в Национальном корпусе русского языка ( Национальный корпус русского языка – собрание лингвистически размеченных текстов общим объемом 140 млн словоупотреблений.
Национальный корпус русского языка корпус современных письменных текстов корпус письменных текстов XVIII – 1-ой пол. XX в. корпус устных текстов поэтический корпус корпус диалектных текстов параллельный корпус
Способ представления устных текстов – орфографическая запись + отдельные особенности произношения Мама от нас ушла / потому что мы с Мишей когда встречаемся / у нас Ну он тоже начал изображать меня / по телефону / так вот взяв руку / краем к левой щеке прислонив / большой палец к уху / мизинец ко рту / Ты чё{что*}? [Беседа психолога с ребенком // ( )] Потому как действительно / старая музыка / ну она как… / ну-у.... не похлеще... может / не получше / но / во всяком случае / терпит конкуренцию со стороны современных так называемых нападающих / более таких уже агрессивных исполнителей. [Радиопередача по заявкам радиослушателей, Челябинск // (2005)]
Представительность Корпуса живой русской речи Содержит подлинные целые тексты Большой объем текстов – 4,4 млн словоупотреблений Разнообразие текстов с точки зрения половозрастного, социального, профессионального состава говорящих, времени и географии записей Большой временной диапазон – около 50 лет Устные тексты относятся к разным сферам общения Мультимедийный подкорпус
Метатекстовая аннотация в корпусе устной речи сфера функционирования: публичная, непубличная, кино тип текста: беседа, интервью, микродиалог и пр. тематика текста: частная жизнь, медицина и здоровье, политика и общественная жизнь и пр. время создания текста стиль текста: нейтральный, сниженный, официальный характеристики аудитории: размер, возраст, уровень подготовки место записи текста
Лингвистическая аннотация в корпусе устной речи Морфологическая разметка Семантическая разметка Социологическая разметка
Состав и структура корпуса устной речи Корпус живой русской речи Устная публичная речь 81% Устная непубличная речь 7% Речь кино 12%
Распределение текстов по времени записи
Перспективы развития корпуса устной речи 1. Разработка программного обеспечения для социологической разметки. 2. Увеличение объема корпуса устной речи до 10 млн словоупотреблений. 3. Расширение географии корпуса за счет включения записей русской устной речи, сделанных в различных регионах России, в странах ближнего и дальнего зарубежья. 4. Интеграция в состав корпуса аудиозаписей текстов.