Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемcorpora.iling.spb.ru
1 * Санкт-Петербург 2007 * Автоматическое выделение структур в тексте
2 * Санкт-Петербург 2007 * Принципы Отсутствие предварительной разметки текста Автоматическая обработка Статистические критерии выделения структур Иерархическое построение Наличие классов свободного варьирования Представление исходного текста в виде графа Итерационное выявление новых структур на основе уже существующих
3 * Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные
4 * Санкт-Петербург 2007 * Деление исходного текста на «морфемы» формальное и искусственное деление выбор самой длинной морфемы использован список морфем из первого тома Русской Грамматики деление на ММЕ (минимальные морфологические единицы) или слова
5 * Санкт-Петербург 2007 * Примеры деления слова на ММЕ который оказался прекрасный
6 * Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные
7 * Санкт-Петербург 2007 * Построение графа составляющих Предложение Граф составляющих ММЕ Узел графа: сама морфема список предыдущих морфем список последующих морфем информация об индексах морфемы служебная информация (координаты и др.)
8 * Санкт-Петербург 2007 * Примеры графа составляющих
9 * Санкт-Петербург 2007 * Примеры графа составляющих
10 * Санкт-Петербург 2007 * Примеры графа составляющих
11 * Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные
12 * Санкт-Петербург 2007 * Шаблоны-кандидаты Шаблон-кандидат – последовательность узлов графа составляющих, встречающаяся в достаточном большом числе предложений Обнаружение шаблона-кандидата
13 * Санкт-Петербург 2007 * Нахождение значимых шаблонов Значимый шаблон – шаблон-кандидат, удовлетворяющий определенным статистическим критериям Необходимо построить вероятностные функции для выявления границ значимого шаблона
14 * Санкт-Петербург 2007 * Построение вероятностных функций
15 * Санкт-Петербург 2007 * Использование вероятностных функций Формирование матрицы на основе функций Pr и Pl вдоль пути S графа составляющих:
16 * Санкт-Петербург 2007 * Построение вероятностных функций Представление вероятностных функций
17 * Санкт-Петербург 2007 * Построение вероятностных функций Построение дополнительных функций для определения скорости падения функций P r и P l : Пороговое значение: η = 0.33
18 * Санкт-Петербург 2007 * Итоговая оценка шаблона-кандидата Критерий оценки шаблона-кандидата:
19 * Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные
20 * Санкт-Петербург 2007 * Выявление классов эквивалентности Класс эквивалентности - набор вершин, которые являются взаимозаменяемыми в данном контексте (класс свободного варьирования) определить окно длины L определить в рамках данного окна слот получить шаблон, имеющий префикс, суффикс и класс эквивалентности в позиции слота Алгоритм:
21 * Санкт-Петербург 2007 * Пример класса эквивалентности … Cindy thinks that George thinks that to read is tough. that the bird is eager to read bothers the dog. Pam thinks that Jim thinks that to read is tough. Pam believes that Cindy thinks that to please is tough. that the cat is easy to read disturbs George. Cindy believes that George thinks that to read is easy. Pam believes that Joe thinks that to please is tough. Cindy believes that Joe believes that to please is easy. Cindy believes that George thinks that to read is easy... Отрывок текста корпуса CHILDES:
22 * Санкт-Петербург 2007 * Пример класса эквивалентности thatthinks George Pam Cindy Joe Класс эквивалентности суффикс префикс
23 * Санкт-Петербург 2007 * Пример класса эквивалентности иКатерина жила получила Класс эквивалентности суффикс префикс
24 * Санкт-Петербург 2007 * Пример класса эквивалентности пое интер к л м Класс эквивалентности суффикс префикс р
25 * Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные
26 * Санкт-Петербург 2007 * Образование новых узлов в графе Образование нового узла P
27 * Санкт-Петербург 2007 * Тестовые данные Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур
28 * Санкт-Петербург 2007 * Пример структуры узла (текст из CHILDES) Простой узел
29 * Санкт-Петербург 2007 * Пример структуры узла (текст из CHILDES) Более сложный узел
30 * Санкт-Петербург 2007 * Пример структуры узла Простой узел
31 * Санкт-Петербург 2007 * Пример структуры узла Простой узел
32 * Санкт-Петербург 2007 * Пример структуры узла Более сложный узел
33 * Санкт-Петербург 2007 * Тестирование программы на различных текстах Один из текстов Национального корпуса русского языка из раздела публицистики (1400 слов – 843 уникальных) Найдено: 163 класса эквивалентности 45 значимых шаблонов Фрагмент текста, представляющего собой слова родителей, обращенные к детям (корпус текстов CHILDES) (2020 слов – 27 уникальных) Найдено: 13 классов эквивалентности 4 значимых шаблонов
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.