1 Слово Лексемы, словоформы, леммы. 2 Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно.

Презентация:



Advertisements
Похожие презентации
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
Advertisements

1 Слово Лексемы, словоформы, леммы. 2 Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно.
Лингвистика или языкознание – наука о языке (от греч. «лингва» язык)
Грамматические формы, грамматические значения и грамматические категории
Лексика – Слово как лингвистическая единица в языках различных типов. – Понятие лексемы и парадигмы словоформ. – Системность и структурность в лексике.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Речевая коммуникация. Команда: Легион. Цель: Изуение литературы по теме.
Информация и информационные процессы. Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду.
Основные понятия морфологии. 1. Словоформа, лексема и парадигма. Словоформа - конкретно наблюдаемое слово в контексте. Словоформа - конкретно наблюдаемое.
Лекция 6 Грамматическое значение и способы его выражения.
Кодирование информации Подготовила: учитель информатики Ефимова Н.Ю.
Кодирование информации. Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными.
Комплексный (парадигматический и экспериментальный) анализ процесса решения регулярных задач Спиридонов В.Ф. (РГГУ, Москва) Х Чтения Выготского-2009.
Владивостокский государственный университет экономики и сервиса Институт иностранных языков Кафедра русского языка ТЕОРЕТИЧЕСКАЯ ГРАММАТИКА Тема 1. Морфология.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
1 Как измерить информацию? Вопрос: «Как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку.
Двоичное кодирование текстовой информации Информация и информационные процессы.
1 Измерение информации: алфавитный подход Информация и информационные процессы.
Кодирование
Транксрипт:

1 Слово Лексемы, словоформы, леммы

2 Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов» «До реформы орфографии это слово писалось с ером» «Это слово мне незнакомо» «Лексический минимум первого года обучения – тысяча слов»

3 Словоупотребление – единица (письменного) текста «В этом стихотворении ровно сто слов» Словоупотребление: последовательности символов в тексте, отделенные друг от друга пробелами и знаками препинания (и другими разделителями) Также (word) token, единица измерения корпусов

4 Словоупотребление Чем больше количество словоупотреблений, тем представительнее корпус Word per million, occurences per million, incidence per million – частотная характеристика исследуемого феномена в корпусе («удельный вес») Также – например, измерение скорости речи

5 Словоформа «До реформы орфографии это слово писалось с ером на конце» «Второго слова в пятой строчке стихотворения Катулла я проанализировать не смог – вот оно же в шестой» Wordform, word form, форма слова В простом случае – последовательность «символов» Но где?

6 Словоформа Последовательность фонем или «звуков» или звуко типов (ментальных символов хранения словесных артикуляций) – в зависимости от теории Также, например, единица измерения словника (например, пока неизвестного) языка: конкорданса, симфонии Словоформа: абстрактная единица, по отношению к которой конкретные идентичные словоупотребления являются ее контекстными реализациями

7 Лексема «Лексический минимум первого года обучения – тысяча слов» Топор, топора, топору... топоры, топоров, топорам... – что можно сказать про значение этих «слов» эти «слова» имеют одинаковое лексическое значение, различаясь лишь грамматическими значениями (значениями синтаксических – например, падеж или семантических – например, число – категорий).

8 Лексическое и грамматическое значение Топор, топорик, топорный – что можно сказать про значения этих «слов» в терминах лексического и грамматического значения? - эти слова имеют разное лексическое значение (при этом два первых слова имеют одинаковое грамматическое значение)

9 Лексема Лексема: абстрактная единица, соответствующая множеству всех морфологически связанных друг с другом (принадлежащих одной парадигме) словоформ с одинаковым лексическим значением / различающихся только грамматическим значением NB: словоформа{лексема,{ГК1=1,ГК2=5…ГКn= 2} } т.е. каждой словоформе можно сопоставить пару лексема + набор значений грам. категорий

10 Summary Словоупотребление – единица текста Словоформа – единица грамматики, абстрактная совокупность (~тождественных) словоупотреблений Лексема – единица словаря, абстрактная совокупность ~родственных словоформ

11 Лексема – единица словаря «Лексический минимум первого года обучения – тысяча слов» Lexical item, словарный вход Хаспельмат: пользователь словаря не ожидает найти в словаре слово sleeps, но ожидает найти там слово sleep Однако определение через словарь для не лингвиста (дан словарь)

12 Лексема – единица словаря Оно также зависит от структуры словаря – sleeplessly отдельная лексема, но в словаре в статье sleepless Что попадает в словаре в разные статьи, а что в одну? Отчасти типографский вопрос (связано также с лексикографической традицией: ср. арабские словари) Также коррелирует с вопросом о структуре ментального лексикона (как слова хранятся в мозге)

13 Лексическое значение Различие между грамматическим и лексическим значениями кажется интуитивно ясным Топор, топора, топору... топоры, топоров, топорам... Топор, топорик, топорный Однако мы уже знаем, что набор грамматических значений изменяется от языка к языку

14 Грамматическое значение (preview) Значит, для каждого языка определение того, что в нем является грамматическим, должно осуществляться заново Якобсон (о Боасе): «грамматическое – это не то, что говорящий на языке может выразить, а то, что он не может не выразить». В русском языке у существительных грамматическое значение – число, падеж лексическое значение – например, уменьшительность

15 Как это связано со словоизменением и словообразованием? Словоизменение – остаемся в пределах одной лексемы Словообразование – связь между лексемами Традиционно – разные части речи не могут принадлежать одной лексеме, однако проблема абсолютно продуктивных дериваций (например, причастия)

16 Обязательность как критерий грамматического Основная проблема – грамматологический подход (обязательность) vs. многие другие подходы, в том числе экспериментальный (продуктивность) Все обязательное продуктивно, но не все продуктивное обязательно Не вполне понятно, в каком смысле обязательным является образование причастий Одно из возможных решений – развести грамматическое и словоизменительное (последнее может быть шире)

17 Парадигма Парадигма (в узком смысле) – определенным образом упорядоченный набор словоформ, объединенных общим лексическим значением (т.е. принадлежащих одной лексеме). [иногда говорят и ослов образовательной парадигме определенной лексемы, например: приставочная парадигма глагольной основы (с какими приставками основа сочетается)]

18 Лексема ~ словоформа В этом смысле утверждение Хаспельмата: словоформа эквивалентна паре лексема + набор грамматических значений «Простейшие» задачи автоматического анализа текста) – по словоформе получить лексему и набор грамматических значений; по лексеме и набору грамматических значений построить словоформу

19 Лемма Лексема – это не начальная форма. Это именно совокупность словоформ, абстрактная единица более высокого уровня; соответствует не словарному входу, а словарной статье в целом Словарная статья – описывает лексему и лексическое значение Начальная форма (лемма) – называет ее

20 Лемма Также: начальная форма, исходная форма Чтобы назвать лексему, неудобно перечислять все входящие в нее словоформы Вместо этого чаще всего используется одна из словоформ. Какая? у существительных? у глаголов? Выбор в значительной степени произволен Теоретически может использоваться и не словоформа, а основа – но это менее удобно не лингвисту

21 Лемма vs. Начальная форма Термин «лемма» в лингвистике имеет легкий компьютерный привкус (лемматизация и т.д) Под начальными или исходными формами иногда также понимают опорные формы – набор форм, задающих словоизменительный тип данной лексемы – например? В этом случае понятия исходной (начальной) формы и леммы оказываются различными

22 Family metaphor Представим себе фотоальбом. Будем считать, что семья – семейство людей – это лексема. Тогда: Конкретные изображения людей на фотографиях ~ словоупотребление Конкретный человек (пусть изображенный несколько раз) ~ словоформа Люди, принадлежащие одной семье ~ словоформы одной лексемы Лемма – это фамилия Парадигма – генеалогическое древо

23 Семинар и чтение Зализняк: РИС, Глава 1 Обсуждение определения Хаспельмата и его проблем Подсчет словоупотреблений, словоформ, лексем

24 «Почему не говорят?» Сложная загадка: почему не говорят, что словоформа – последовательность символов, которые могут встретиться между пробелами? (=зачем нужно определение Хаспельмата) Очень сложная загадка (contra Хаспельмат): почему не следует говорить, что словоформа – это лексема плюс (полный) набор грамматических значений?

25 WPM Один исследователь изучал историю лексемы L на материале НКРЯ. Для этого он посчитал количество вхождений всех словоформ L в тексты 18-го, 19-го и 20-го веков – получилось n 1, n 2 и n 3, соответственно, причем n 1 < n 2 < n 3 Исследователь сделал вывод, что частотность L со временем растет. Прокомментируйте этот вывод.