Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка) С. А. Крылов (krylov-58@mail.ru)

Презентация:



Advertisements
Похожие презентации
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Advertisements

ЗРИТЕЛЬНЫЕ ИЛЛЮЗИИ ОПТИЧЕСКИЕ ОБМАНЫ 1. Зрительная иллюзия – не соответствующее действительности представление видимого явления или предмета из-за особенностей.
Устный счет. НАЗОВИТЕ ЧИСЛО, СОСТОЯЩЕЕ ИЗ 1 ДЕСЯТКА. НАЗОВИТЕ ЧИСЛО, СОСТОЯЩЕЕ ИЗ 1 ДЕСЯТКА И 5 ЕДИНИЦ. НАЗОВИТЕ ЧИСЛО, КОТОРОЕ НА 1 ЕДИНИЦУ БОЛЬШЕ, ЧЕМ.

Найди недостающее слагаемое
Департамент экономического развития Ханты-Мансийского автономного округа - Югры 1.
Дни недели Температура (С 0 ) 1. Сколько дней температура была выше 16 0 ? 2. Какого.
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Муниципальное бюджетное общеобразовательное учреждение «Средняя общеобразовательная школа 3 с углубленным изучением отдельных предметов» 1.
Как «устроены» числа.. 10 десять 1 десяток 1 десяток и = 11 Одиннадцать.
Итоги диагностической работы 1 по русскому языку (15 октября 2009 год) Участвовало1950 классов.
Решение заданий В7 степени и корни по материалам открытого банка задач ЕГЭ по математике 2013 года МБОУ СОШ 5 – «Школа здоровья и развития» г. Радужный.
лишь здоровые дети в состоянии должным образом усваивать полученные знания и в будущем способны заниматься производительно- полезным трудом. 2.
Автор : Хохлова М. С., учитель русского языка и литературы ГБОУ СОШ 2043.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Структура HTML- документа. Терминология Элемент - конструкция языка HTML. Это контейнер, содержащий данные и позволяющий отформатировать из определенным.
Тренировочное тестирование-2008 Ответы к заданиям КИМ Часть I.
Иркутский государственный технический университет Центр технологий дистанционного обучения Курс в дистанционном обучении Романова Екатерина Владимировна,
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
1.Спишите текст. Расставьте знаки препинания. Луна со впалыми щеками тихонько завес ночи подняла. Она бледна. К луне опять бессонница пришла. Придется.
Транксрипт:

Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка) С. А. Крылов

понятие синтаксической молекулы 1. Для грамматического и лексического анализа русского языка оказывается весьма полезным понятие синтаксической молекулы (СМ). СМ есть минимальная синтаксически автономная единица членения речи, то есть минимальный отрезок, способный функционировать в качестве отдельной (быть может и эллиптичной) реплики, отвечающей на какой-либо вопрос. СМ обычно содержит не более одного полнозначного знаменательного слова; –при этом в её состав может входить одно или несколько служебных (или полуслужебных) слов.

«синтаксическая молекула» и «фонетическое слово» 2. Единица, близкая синтаксической молекуле, выделяется во многих фонетических работах под названием «фонетического слова» (ФС) или «морфемного комплекса». Особенности предлагаемого подхода к ФС, предполагающего составление частотного словаря фонетических слов – такие: (а) ФС рассматривается не только в синтагматическом, но и в парадигматическом аспекте; (б) ФС трактуется как двусторонняя (знаковая) единица; (в) в центре внимания находится именно инвентарный (словарный, лексикологический, лексикографический) аспект ФС

3.0. Три ранга СМ: макротакты, мезотакты и микротакты 3.1. Макротакт – морфемный комплекс между двумя местами потенциальных пауз (в отличие от более крупной единицы - фонетической синтагмы, границы которой отмечены реальными паузами) Мезотакт – морфемный комплекс, включающий не более одного «полноударного» ФС. Мезотакт может включать в себя один или несколько «клитикоидов» (то есть «слабоударяемых» ФС и «относительных клитик») – постпозитивных («энклитикоидов») или препозитивных («проклитикоидов») Микротакт – морфемный комплекс, содержащий ровно 1 автономный (характеризуемый единством главного словесного ударения) словесный сегмент. Микротакты бывают простыми и составными. Составные микротакты включают, помимо автономного сегмента, также одну или несколько клитик – единиц, не несущих самостоятельного словесного ударения. Клитики подразделяются на энклитики (постпозитивные) и проклитики (препозитивные).

способы выявления инвентаря «ментальных СМ» 4.0. Инвентарь ментальных СМ выявляется путём измерения их встречаемости в крупном корпусе текстов и создания частотного инвентаря реальных СМ Эта задача может решаться по-разному. Источником данных был корпус текстов, представленных в орфографической записи -- Генеральный корпус русского языка (ГКРЯ), созданный на основе «Уппсальского корпуса» русского языка (УпКРЯ), составленного под руководством Л. Лённгрена ( В 1995 гг. автором настоящей работы под руководством С. А. Старостина ( ) материалы УпКРЯ были преобразованы в формат текстовой базы данных, получившей название ГКРЯ.

принципы «грубой» разметкой тактовой делимитации 5.0. В гг. ГКРЯ был снабжён «грубой» разметкой тактовой делимитации. Она устроена так Пробелы письменного текста бывают паузальные (соответствующие границам макротактов в устной речи) и беспаузальные (для транскрибирования которых использован создан набор из 6 искусственных делимитаторов: { после проклитик; } перед энклитикой; < после проклитикоида; > перед энклитикоидом; между частями мезотакта с «неустойчивым» центром (то есть сочетания, допускающего двоякую акцентуацию: либо как «клитикоид + полноударное», либо как «полноударное + клитикоид»); + между мезотактами, образующими один макротакт.

таблица «Частотность мезотактов с проклитиками в ЧС макротактов» 6.0. В таблице столбец (А) указывает на инвентаризуемую СМ (макротакт), (Б) - на её относительную частотность по числу текстов (%), (В) - на её абсолютную частотность по числу текстов, (Г) - на её ранг в ЧС, упорядоченном по числу текстов (этот параметр в таблице является ключевым), (Д) - на её относительную частотность по числу вхождений при измерении общего числа вхождений СМ в корпус (в числе вхождений данной единицы на 10 тыс., (Е) - на её абсолютную частотность по числу вхождений (этот параметр в таблице является побочным), (Ж) - на её ранг в ЧС, упорядоченном по числу вхождений.

В результате разметки ГКРЯ оказалось возможным извлечь из него сведения о частотах СМ. Сосредоточим внимание на одном из классов СМ – а именно, на СМ, начинающихся с проклитики. Для наглядности ниже дана лишь частотная «верхушка» одного из полученных словарей

Частотность мезотактов с проклитиками в ЧС макротактов АБВГДЕЖ о{том у{нас из{них об{этом не{}было в{нем и{все и{это у{него а{потом и{другие с{ним к{нему в{ней и{его в{котором

у{них в{частности и{что к{сожалению на{него у{нее у{меня и{как до{сих{пор к{ней и{других не{может в{них в{целом на{себя на{них к{тому}же

а{это и{так в{мире а{что в{Москве и{вдруг в{стране в{год в{которой к{ним в{сторону и{снова и{тогда и{они во{всех и{т.+д

а{он в{жизни как{правило не{будет не{мог и{теперь в{которых и{она а{затем от{него к{себе в{результате с{ними к{примеру во{всем а{я в{себе

в{первую+оче­редь и{потому а{теперь в{основном и{тут и{их и{когда с{ней в{чем для{него на{нее и{ее а{когда и{сейчас и{я о{чем в{нашей

до{конца по{существу а{тут не{так для{себя в{прошломгоду от{нее не{знаю а{она не{раз на{месте тем

в{СССР в{общем в{руках а{значит для{них а{может а{ты в{концеконцов и{все}же и{мы с{собой и{вообще и{сам для{всех и{наконец не{надо на{землю

в{одном в{самом в{то}жевремя не{всегда в{работе о{нем и{тут}же на{все в{свое