Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка) С. А. Крылов
понятие синтаксической молекулы 1. Для грамматического и лексического анализа русского языка оказывается весьма полезным понятие синтаксической молекулы (СМ). СМ есть минимальная синтаксически автономная единица членения речи, то есть минимальный отрезок, способный функционировать в качестве отдельной (быть может и эллиптичной) реплики, отвечающей на какой-либо вопрос. СМ обычно содержит не более одного полнозначного знаменательного слова; –при этом в её состав может входить одно или несколько служебных (или полуслужебных) слов.
«синтаксическая молекула» и «фонетическое слово» 2. Единица, близкая синтаксической молекуле, выделяется во многих фонетических работах под названием «фонетического слова» (ФС) или «морфемного комплекса». Особенности предлагаемого подхода к ФС, предполагающего составление частотного словаря фонетических слов – такие: (а) ФС рассматривается не только в синтагматическом, но и в парадигматическом аспекте; (б) ФС трактуется как двусторонняя (знаковая) единица; (в) в центре внимания находится именно инвентарный (словарный, лексикологический, лексикографический) аспект ФС
3.0. Три ранга СМ: макротакты, мезотакты и микротакты 3.1. Макротакт – морфемный комплекс между двумя местами потенциальных пауз (в отличие от более крупной единицы - фонетической синтагмы, границы которой отмечены реальными паузами) Мезотакт – морфемный комплекс, включающий не более одного «полноударного» ФС. Мезотакт может включать в себя один или несколько «клитикоидов» (то есть «слабоударяемых» ФС и «относительных клитик») – постпозитивных («энклитикоидов») или препозитивных («проклитикоидов») Микротакт – морфемный комплекс, содержащий ровно 1 автономный (характеризуемый единством главного словесного ударения) словесный сегмент. Микротакты бывают простыми и составными. Составные микротакты включают, помимо автономного сегмента, также одну или несколько клитик – единиц, не несущих самостоятельного словесного ударения. Клитики подразделяются на энклитики (постпозитивные) и проклитики (препозитивные).
способы выявления инвентаря «ментальных СМ» 4.0. Инвентарь ментальных СМ выявляется путём измерения их встречаемости в крупном корпусе текстов и создания частотного инвентаря реальных СМ Эта задача может решаться по-разному. Источником данных был корпус текстов, представленных в орфографической записи -- Генеральный корпус русского языка (ГКРЯ), созданный на основе «Уппсальского корпуса» русского языка (УпКРЯ), составленного под руководством Л. Лённгрена ( В 1995 гг. автором настоящей работы под руководством С. А. Старостина ( ) материалы УпКРЯ были преобразованы в формат текстовой базы данных, получившей название ГКРЯ.
принципы «грубой» разметкой тактовой делимитации 5.0. В гг. ГКРЯ был снабжён «грубой» разметкой тактовой делимитации. Она устроена так Пробелы письменного текста бывают паузальные (соответствующие границам макротактов в устной речи) и беспаузальные (для транскрибирования которых использован создан набор из 6 искусственных делимитаторов: { после проклитик; } перед энклитикой; < после проклитикоида; > перед энклитикоидом; между частями мезотакта с «неустойчивым» центром (то есть сочетания, допускающего двоякую акцентуацию: либо как «клитикоид + полноударное», либо как «полноударное + клитикоид»); + между мезотактами, образующими один макротакт.
таблица «Частотность мезотактов с проклитиками в ЧС макротактов» 6.0. В таблице столбец (А) указывает на инвентаризуемую СМ (макротакт), (Б) - на её относительную частотность по числу текстов (%), (В) - на её абсолютную частотность по числу текстов, (Г) - на её ранг в ЧС, упорядоченном по числу текстов (этот параметр в таблице является ключевым), (Д) - на её относительную частотность по числу вхождений при измерении общего числа вхождений СМ в корпус (в числе вхождений данной единицы на 10 тыс., (Е) - на её абсолютную частотность по числу вхождений (этот параметр в таблице является побочным), (Ж) - на её ранг в ЧС, упорядоченном по числу вхождений.
В результате разметки ГКРЯ оказалось возможным извлечь из него сведения о частотах СМ. Сосредоточим внимание на одном из классов СМ – а именно, на СМ, начинающихся с проклитики. Для наглядности ниже дана лишь частотная «верхушка» одного из полученных словарей
Частотность мезотактов с проклитиками в ЧС макротактов АБВГДЕЖ о{том у{нас из{них об{этом не{}было в{нем и{все и{это у{него а{потом и{другие с{ним к{нему в{ней и{его в{котором
у{них в{частности и{что к{сожалению на{него у{нее у{меня и{как до{сих{пор к{ней и{других не{может в{них в{целом на{себя на{них к{тому}же
а{это и{так в{мире а{что в{Москве и{вдруг в{стране в{год в{которой к{ним в{сторону и{снова и{тогда и{они во{всех и{т.+д
а{он в{жизни как{правило не{будет не{мог и{теперь в{которых и{она а{затем от{него к{себе в{результате с{ними к{примеру во{всем а{я в{себе
в{первую+очередь и{потому а{теперь в{основном и{тут и{их и{когда с{ней в{чем для{него на{нее и{ее а{когда и{сейчас и{я о{чем в{нашей
до{конца по{существу а{тут не{так для{себя в{прошломгоду от{нее не{знаю а{она не{раз на{месте тем
в{СССР в{общем в{руках а{значит для{них а{может а{ты в{концеконцов и{все}же и{мы с{собой и{вообще и{сам для{всех и{наконец не{надо на{землю
в{одном в{самом в{то}жевремя не{всегда в{работе о{нем и{тут}же на{все в{свое