12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем передачи информации РАН
12 июля 2008 годаЛетняя лингвистическая школа.2 Две темы Машинный переводМашинный перевод Аннотированный корпус текстовАннотированный корпус текстов
12 июля 2008 годаЛетняя лингвистическая школа.3 Машинный перевод – это процесс, при котором компьютер по заданному тексту на одном языке производит новый текст на другом языке, которого раньше в этом компьютере не было Что такое машинный перевод?
12 июля 2008 годаЛетняя лингвистическая школа.4 Тогда, когда оба текста – А и Б – имеют одинаковый смысл. Задача любого переводчика состоит в том, чтобы передать смысл текста на одном языке средствами другого языка. В этом же состоит и задача машинного перевода. Когда можно говорить, что текст A на одном естественном языке является переводом текста Б на другом языке?
12 июля 2008 годаЛетняя лингвистическая школа.5 Теория «Смысл Текст» И.А. Мельчука
12 июля 2008 годаЛетняя лингвистическая школа.6 И.А. Мельчук. Опыт теории лингвистических моделей «Смысл Текст». Москва, «Наука», 1974 / Москва, Школа «Языки русской культуры», 1999
12 июля 2008 годаЛетняя лингвистическая школа.7 Язык есть универсальный преобразователь из смыслов в тексты и обратно
12 июля 2008 годаЛетняя лингвистическая школа.8 Наблюдаемый текст Ненаблюдаемый смысл
12 июля 2008 годаЛетняя лингвистическая школа.9 Смысл – конструкт, представление на специальном семантическом языке
12 июля 2008 годаЛетняя лингвистическая школа.10 Направление преобразования, осуществляемого языком Анализ текстаАнализ текста Синтез текстаСинтез текста
12 июля 2008 года Летняя лингвистическая школа. 11 Диалог vs. перевод Чередование анализа и синтеза
12 июля 2008 годаЛетняя лингвистическая школа.12 фонетический морфологический синтаксический семантический Лингвистические уровни:
12 июля 2008 годаЛетняя лингвистическая школа.13 Разделы лингвистики: фонетика – преобразование текста в фонетическое представление и обратно
12 июля 2008 годаЛетняя лингвистическая школа.14 Разделы лингвистики: морфология – преобразование фонетического представления в морфологическое и обратно
12 июля 2008 годаЛетняя лингвистическая школа.15 Разделы лингвистики: синтаксис – преобразование морфологического представления в синтаксическое и обратно
12 июля 2008 годаЛетняя лингвистическая школа.16 Разделы лингвистики: семантика– преобразование синтаксического представления в семантическое и обратно
12 июля 2008 годаЛетняя лингвистическая школа.17 Грамматика и словарь Интегральное описание языка по Ю.Д.Апресяну: идеальное соответствие словаря и грамматики
12 июля 2008 годаЛетняя лингвистическая школа.18 Морфологический анализ Вход – предложение в обычной орфографической записи Вход – предложение в обычной орфографической записи Выход – морфологическая структура предложения Выход – морфологическая структура предложения
12 июля 2008 годаЛетняя лингвистическая школа.19 Морфологический анализ Вход – предложение в обычной орфографической записи Вход – предложение в обычной орфографической записи Эти типы стали есть в литейном цехе
12 июля 2008 годаЛетняя лингвистическая школа.20 Морфологический анализ Выход – морфологическая структура предложения Выход – морфологическая структура предложения
12 июля 2008 годаЛетняя лингвистическая школа.21 Морфологический анализ 1.1 ЭТОТ A,ИМ,МН,CAPIT,CAP 1.1 ЭТОТ A,ИМ,МН,CAPIT,CAP 1.2 ЭТОТ A,ВИН,МН,НЕОД,CAPIT,CAP 1.2 ЭТОТ A,ВИН,МН,НЕОД,CAPIT,CAP 2.1 ТИП1 S,ИМ,МН,МУЖ,НЕОД 2.1 ТИП1 S,ИМ,МН,МУЖ,НЕОД 2.2 ТИП1 S,ВИН,МН,МУЖ,НЕОД 2.2 ТИП1 S,ВИН,МН,МУЖ,НЕОД 2.3 ТИП2 S,ИМ,МН,МУЖ,ОД 2.3 ТИП2 S,ИМ,МН,МУЖ,ОД 3.1 СТАТЬ1 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.1 СТАТЬ1 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.2 СТАНОВИТЬСЯ1 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.2 СТАНОВИТЬСЯ1 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.3 СТАНОВИТЬСЯ2 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.3 СТАНОВИТЬСЯ2 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.4 СТАЛЬ S,РОД,ЕД,ЖЕН,НЕОД 3.4 СТАЛЬ S,РОД,ЕД,ЖЕН,НЕОД 3.5 СТАЛЬ S,ДАТ,ЕД,ЖЕН,НЕОД 3.5 СТАЛЬ S,ДАТ,ЕД,ЖЕН,НЕОД 3.6 СТАЛЬ S,ПР,ЕД,ЖЕН,НЕОД 3.6 СТАЛЬ S,ПР,ЕД,ЖЕН,НЕОД 3.7 СТАЛЬ S,ИМ,МН,ЖЕН,НЕОД 3.7 СТАЛЬ S,ИМ,МН,ЖЕН,НЕОД 3.8 СТАЛЬ S,ВИН,МН,ЖЕН,НЕОД 3.8 СТАЛЬ S,ВИН,МН,ЖЕН,НЕОД 4.1 ЕСТЬ1 V,ИНФ,НЕСОВ 4.2 БЫТЬ V,НАСТ,ЕД,ИЗЪЯВ,1-Л,НЕСОВ 4.2 БЫТЬ V,НАСТ,ЕД,ИЗЪЯВ,1-Л,НЕСОВ 4.3 БЫТЬ V,НАСТ,ЕД,ИЗЪЯВ,2-Л,НЕСОВ 4.3 БЫТЬ V,НАСТ,ЕД,ИЗЪЯВ,2-Л,НЕСОВ 4.4 БЫТЬ V,НАСТ,ЕД,ИЗЪЯВ,3-Л,НЕСОВ 4.4 БЫТЬ V,НАСТ,ЕД,ИЗЪЯВ,3-Л,НЕСОВ 4.5 БЫТЬ V,НАСТ,МН,ИЗЪЯВ,1-Л,НЕСОВ 4.5 БЫТЬ V,НАСТ,МН,ИЗЪЯВ,1-Л,НЕСОВ 4.6 БЫТЬ V,НАСТ,МН,ИЗЪЯВ,2-Л,НЕСОВ 4.6 БЫТЬ V,НАСТ,МН,ИЗЪЯВ,2-Л,НЕСОВ 4.7 БЫТЬ V,НАСТ,МН,ИЗЪЯВ,3-Л,НЕСОВ 4.7 БЫТЬ V,НАСТ,МН,ИЗЪЯВ,3-Л,НЕСОВ 4.8 ЕСТЬ2 INTJ 4.8 ЕСТЬ2 INTJ 5.1 В1 PR 5.1 В1 PR 5.2 В2 PR 5.2 В2 PR 5.3 В3 PR 5.3 В3 PR 6.1 ЛИТЕЙНЫЙ A,ПР,ЕД,МУЖ 6.2 ЛИТЕЙНЫЙ A,ПР,ЕД,СРЕД 6.2 ЛИТЕЙНЫЙ A,ПР,ЕД,СРЕД 7.1 ЦЕХ1 S,ПР,ЕД,МУЖ,НЕОД 7.1 ЦЕХ1 S,ПР,ЕД,МУЖ,НЕОД 7.2 ЦЕХ2 S,ПР,ЕД,МУЖ,НЕОД 7.2 ЦЕХ2 S,ПР,ЕД,МУЖ,НЕОД
12 июля 2008 годаЛетняя лингвистическая школа.22 Морфологическая структура предложения МС предложения – последовательность МС всех входящих в него слов МС предложения – последовательность МС всех входящих в него слов МС слова – совокупность МС всех омонимов данного слова МС слова – совокупность МС всех омонимов данного слова МС омонима – имя лексемы (лемма) плюс часть речи плюс набор словоизменительных морфологических характеристик МС омонима – имя лексемы (лемма) плюс часть речи плюс набор словоизменительных морфологических характеристик
12 июля 2008 годаЛетняя лингвистическая школа.23 Морфологическая структура предложения МС слова – совокупность МС всех омонимов данного слова МС слова – совокупность МС всех омонимов данного слова МС омонима – имя лексемы (лемма) плюс набор словоизменительных морфологических характеристик МС омонима – имя лексемы (лемма) плюс набор словоизменительных морфологических характеристик 3.1 СТАТЬ1 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.2 СТАНОВИТЬСЯ1 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.3 СТАНОВИТЬСЯ2 V,ПРОШ,МН,ИЗЪЯВ,СОВ 3.4 СТАЛЬ S,РОД,ЕД,ЖЕН,НЕОД 3.5 СТАЛЬ S,ДАТ,ЕД,ЖЕН,НЕОД 3.6 СТАЛЬ S,ПР,ЕД,ЖЕН,НЕОД 3.7 СТАЛЬ S,ИМ,МН,ЖЕН,НЕОД 3.8 СТАЛЬ S,ВИН,МН,ЖЕН,НЕОД
12 июля 2008 годаЛетняя лингвистическая школа.24 Аннотированный корпус текстов SynTagRus
12 июля 2008 годаЛетняя лингвистическая школа.25 Аннотированный корпус текстов SynTagRus Я купил чемодан, а он сумку
12 июля 2008 годаЛетняя лингвистическая школа.26 Аннотированный корпус текстов SynTagRus Парочку морей бы еще в Сибирь. Африку можно бы ниже. Индия пусть. (Т. Толстая). Во всех таких случаях добавляется глагольный узел, ему приписываются наиболее естественные грамматические характеристики, а в качестве леммы пишется НЕОПР- ГЛАГОЛ и затем в скобках глагол, который является «естественной гипотезой». В первом предложении после слова еще добавляется узел с леммой НЕОПР-ГЛАГОЛ (ДОБАВИТЬ), во втором после слова бы – НЕОПР- ГЛАГОЛ (ОПУСТИТЬ), а в последнем после пусть – узел с леммой НЕОПР-ГЛАГОЛ (ОСТАВАТЬСЯ).
12 июля 2008 годаЛетняя лингвистическая школа.27 Аннотированный корпус текстов SynTagRus Мы надавим на министра, а вы от дополнительной суммы, полученной из федерального бюджета, – едва ли не подмигнул депутат, – заказ нашей фирме
12 июля 2008 годаЛетняя лингвистическая школа.28 Два типа предложений Он работал там два дня. Он провел там два дня. Он проспал там два дня. Он вспоминал там два дня. Он постоял там два дня.
12 июля 2008 годаЛетняя лингвистическая школа.29 Два типа предложений Он проспал день. Он проспал весь день. Он проспал день свадьбы. Он проспал весь день свадьбы.
12 июля 2008 годаЛетняя лингвистическая школа.30 Корпус SynTagRus на сайте
12 июля 2008 годаЛетняя лингвистическая школа.31 Корпус SynTagRus на сайте
12 июля 2008 годаЛетняя лингвистическая школа.32 Корпус SynTagRus на сайте
12 июля 2008 годаЛетняя лингвистическая школа.33 Новое лингвистическое знание Он отдохнет теперь лет десять на нарах. Если он удержит власть хотя бы месяц, он останется президентом на долгие годы. Если он удержится у власти хотя бы месяц, он останется президентом на долгие годы.