Е.В. Ягунова, Л.М. Пивоварова (СПбГУ) Коллокации и конструкции в исследовании структуры текста Мы рассматриваем сочетания двух и более лексических единиц,

Презентация:



Advertisements
Похожие презентации
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Advertisements

Презентацию подготовили ученицы 6 класса «В» ГОУ ЦО Карпова Анастасия и Копорева Анастасия.
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
1 Как измерить информацию? Вопрос: «Как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку.
Измерение частотности синтаксических молекул (на материале Генерального корпуса русского языка) С. А. Крылов
По степени проникновения в содержание и в зависимости от коммуникативных потребностей выделяют типы чтения: поисково-просмотровоепоисково-просмотровое.
Сжатие информации Алгоритм Хаффмана. Сжатие информации Сжатие данных – сокращение объема данных при сохранении закодированного в них содержания.
Комплексный (парадигматический и экспериментальный) анализ процесса решения регулярных задач Спиридонов В.Ф. (РГГУ, Москва) Х Чтения Выготского-2009.
Выполнила: Камалуттинова Елизавета Сергеевна Руководитель работы: учитель математики Качалова Ирина Викторовна.
Язык и стиль научной речи. Лексический уровень важно передать один, и только один смысл; эмоциональная нагруженность слова - недостаток, мешающий пониманию.
Тема 4: «Средние величины» Вопросы темы: 1.Сущность и значение средних величин 2.Научные принципы и условия расчета средних величин 3.Средняя арифметическая.
Основы создания многостраничного Web-узла Создание многостраничного сайта предполагает разработку его структуры (списка разделов и подразделов) и системы.
Использование языка Си для программирования ЦСП TMS320C67x.
Оценивание успешности младших школьников в курсе «Проектная деятельность» Пахомова Н. Ю., Дмитриева Н. В., Шингарева Т.В.
Общая характеристика текстового процессора 1. Макет текстового документа 2 Текстовый документ – это документ, созданный в прикладной среде и состоящий.
Тема 16. Формы унификации. Преподаватель – к.полит.н., доцент Н.А. Царева Кафедра ГТАП ИП ВГУЭС.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Методы лингвистического анализа. методология, метод, методика Пополнять список методов исследования языка можно до бесконечности. Арнольд, И.В. Основы.
Граф отображает элементный состав системы и структуру связей между элементами этой системы А B C D F K.
Транксрипт:

Е.В. Ягунова, Л.М. Пивоварова (СПбГУ) Коллокации и конструкции в исследовании структуры текста Мы рассматриваем сочетания двух и более лексических единиц, которые выделяются нами из текста на основании статистических критериев и/или экспериментов с информантами. Рассматриваемые нами сочетания (структурные составляющие текста) представляют собой неоднородное множество: с точки зрения соотнесенности со словарем и/или грамматикой, номинативностью и/или предикативностью. Типовые или ядерные коллокации и конструкции часто могут оказаться противопоставленными как парадигматические vs. синтагматические единицы (или единицы, принадлежащие лексикону vs. синтаксису). Главным для нас является опора на следующие виды контекста: *минимальный контекст, в котором реализуются лексические и морфолого- синтаксические явления; *текстовый контекст, включающий в себя фрагменты текста вплоть до текста целиком; *контекст, предполагающий учет текстов определенного типа Вычислительный эксперимент: Нами использовалась свободно распространяемая программа cosegment ( Видоизмененная мера Дайса:,где f(x) и f(y) – частота встречаемости слов x и y в коллекции, а f(x,y) – частота совместной встречаемости слов x и y. Алгоритм: -для всех пар слов по всей коллекции считается коэффициент Дайса -для каждого конкретного текста «сборка» связанных сегментов: word2 объединяется с word3 в том случае, если Dice(2,3) > [Dice(1,2)+Dice(3,4)] / 2 Таким образом получаются цепочки слов произвольной длины. Эксперимент с информантами: Информантами оценивают связность между (пробельными) словами в шкале от 0 до 5, где 5 – соответствует максимальной, а 0 – минимальной степени связности, у них карт-бланш: им не даются никакие пояснения о том, что надо понимать под связностью. Затем считается среднее арифметическое по всем информантам, два слова считаются связанными если мера связности на шкале больше или равна, чем 3,7 Предварительные результаты: с увеличением степени однородности (коллекция однородная коллекциятекст) увеличивается объем n-грамм (увеличивается n); с увеличением степени однородности (коллекция однородная коллекциятекст) увеличивается число конструкций (в соотношении конструкция vs. типовая коллокация), увеличивается число предикативных сочетаний; набор связанных сочетаний, подсчитанных для каждого текста отдельно в ходе вычислительного эксперимента, сходен с набором сочетаний, полученных в ходе экспериментов с информантами, в ходе экспериментов с информантами выделяется несколько больше предикативных сочетаний, чем в ходе вычислительного эксперимента. Вычислительный экспериментЭксперимент с информантами, единичный текст про А. Шварцнеггера Коллекция (Лента.ру 2010 г) Кластер про Шварцнеггера (однородная коллекция) Единичный текст про А.Шварцнеггера тем не менееглобальное инновационное партнерство только что приземлилсяГубернатор Калифорнии Арнольд Шварценеггер в связи спредставителей ведущих компаний могу дождаться встречиприлетел в Москву. в 2009 годус губернатором калифорниивскоре после этогов российскую столицу то же времямогу дождаться встречиответил калифорнийскому губернатору Не могу дождаться встречи с президентом Медведевым в настоящее времяво главе делегациианглоязычная версия твитароссийский президент Дмитрий Медведев ответил со ссылкой насоздать настоящий технологический бум ответил ему взаимностьюв своем микроблоге возбуждено уголовное дело сфере высоких технологийэто же времядобро пожаловать в Москву по сравнению столько что приземлилсяЖду встречи с вами в 2008 годутогда вам сказалМедведев добавил микроблог с делегацией представителей Полужирный шрифт: сегменты или их фрагменты, присутствующие в обоих списках (3 и 4 графа). В графу 2 попала верхушка наиболее частотных связанных сегментов, упорядоченных по частоте, остальные графы представлены в полном объеме. он встретится с российскими министрами во время посещения Медведевым российский президент завел себе Связанные сегменты, состоящие не менее чем из трех текстоформ (значимая информация, вероятные «фигуры») Структура текста по данным информантов (см. графу 4). П/ж шрифтом выделены фигуры Губернатор Калифорнии Арнольд Шварценеггер 10 октября прилетел в Москву. / После прибытия в российскую столицу он сделал в своем микроблоге на Twitter соответствующую запись (Только что приземлился в Москве. Прекрасный день. Не могу дождаться встречи с президентом Медведевым), а также разместил фотографию, сделанную по дороге из аэропорта. Вскоре после этого российский президент Дмитрий Медведев ответил калифорнийскому губернатору в своем добро пожаловать в Москву. Англоязычная версия твита Медведева также содержала слова "Жду встречи с вами и вашей делегацией Кроме того, Медведев добавил микроблог Шварценеггера в друзья. Губернатор Калифорнии ответил ему взаимностью. Как сообщает РИА Новости, Шварценеггер приехал в Россию с делегацией представителей венчурных фондов и инновационных компаний Кремниевой долины. Планируется, что помимо президента Медведева, он встретится с российскими министрами. Президент России и губернатор Калифорнии в этом году уже встречались - это произошло в июне / во время посещения Медведевым США. В это же время российский президент завел себе микроблог. word1 word2 word3word4 Dice(1,2) Dice(2,3) Dice(3,4)