Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемГлеб Стрыгин
1 Диалог-2005, "Звенигородский" 1 ФОРМИРОВАНИЕ ЗАПРОСОВ К ПОИСКОВОЙ МАШИНЕ ДЛЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ИНТЕРНЕТА А.Л. Воскресенский, Г.К. Хахалин,
2 Диалог-2005, "Звенигородский"2 Проблемы пользователя при поиске информации Формулирование запроса Формулирование запроса Выбор ключевых слов Выбор ключевых слов Релевантность результатов Релевантность результатов Релевантность результатов Релевантность результатов Ранжирование результатов Ранжирование результатов
3 Диалог-2005, "Звенигородский"3 Эксперимент: постановка задачи Если исходить из принципа композиции Фреге, что значение фразы является функцией значений ее частей и способа комбинирования этих частей, то значение слова (или группы слов) можно определить по формам и расположению окружающих слов, т.е. по контексту. Тогда, если в поисковом запросе опустить некоторое слово или группу слов (исключаемый элемент текста обозначим через X), то в результате выполнения запроса получим документы, в которых на месте пропущенного X будут стоять элементы текста, имеющие тот же самое (или близкое) значение, что и в Х. Если исходить из принципа композиции Фреге, что значение фразы является функцией значений ее частей и способа комбинирования этих частей, то значение слова (или группы слов) можно определить по формам и расположению окружающих слов, т.е. по контексту. Тогда, если в поисковом запросе опустить некоторое слово или группу слов (исключаемый элемент текста обозначим через X), то в результате выполнения запроса получим документы, в которых на месте пропущенного X будут стоять элементы текста, имеющие тот же самое (или близкое) значение, что и в Х. поиск новых в интернетезнаний строительных технологий версий BIOS поставщиков оборудования православных страниц каналов коммуникаций талантливых авторов источников дохода тематических ресурсов информации рецептов
4 Диалог-2005, "Звенигородский"4 Эксперимент: постановка задачи При учете контекста документа в результате поиска будут автоматически получены документы той же предметной области, содержащие элементы текста со значениями, которые близки к смыслу исходного документа (на основании которого составлялся запрос), но в какой-то степени и отличающиеся от него. Соответственно, эти документы могут содержать знания, отличающиеся от знаний, содержащихся в исходном документе, т.е. новые знания. При учете контекста документа в результате поиска будут автоматически получены документы той же предметной области, содержащие элементы текста со значениями, которые близки к смыслу исходного документа (на основании которого составлялся запрос), но в какой-то степени и отличающиеся от него. Соответственно, эти документы могут содержать знания, отличающиеся от знаний, содержащихся в исходном документе, т.е. новые знания.новые знания.новые знания.
5 Диалог-2005, "Звенигородский"5 Планирование и выполнение эксперимента Две функции отклика: Две функции отклика: число найденных в результате запроса документов Y 1 число найденных в результате запроса документов Y 1 число релевантных документов, содержащихся в первых 50-ти найденных документах Y 2 число релевантных документов, содержащихся в первых 50-ти найденных документах Y 2 Три фактора: Три фактора: A наличие пропущенного фрагмента текста; A наличие пропущенного фрагмента текста; B учет порядка слов в запросе; B учет порядка слов в запросе; C учет морфологических форм слов. C учет морфологических форм слов. Все факторы качественные: (0.. 1 или -.. +) Все факторы качественные: (0.. 1 или -.. +) План эксперимента: 2 3 План эксперимента: реплики каждого опыта для оценки адекватности 2 реплики каждого опыта для оценки адекватности Результаты Результаты Результаты
6 Диалог-2005, "Звенигородский"6 Результаты эксперимента ОпытРеплика Y1Y1Y1Y1 Ŷ1Ŷ1Ŷ1Ŷ1 Y2Y2Y2Y2 Ŷ2Ŷ2Ŷ2Ŷ2 (1) , , , , a , , , , b 1180, , , , ab , , , , c , , , , ac , , , , bc , , , , abc , , , , Нормировка: Ŷ ji = (Y ji – Y imin )/(Y imax – Y imin ) Y 1t =0,433-0,129A-0,865B-0,120C+ +0,129AB-0,126AC+0,120BC+ +0,126ABC Y 2t =0,517+0,157A-0,039B-0,0004C+ +0,207AB-0,264AC+0,122BC- -0,246ABC Y 1t =0,433-0,865B Y 2t =0,517+0,157A+0,207AB- -0,264AC+0,122BC-0,246ABC
7 Диалог-2005, "Звенигородский"7 Проверка значимости и функции распределения вероятностей Используемые обычно процедуры проверки значимости, основанные на нормальном распределении, неприменимы для оценки результатов экспериментов в социальной сфере из-за различия в областях существования нормального распределения (-..+) и реальных результатов (xx 0 ), а также влияния величины выборки на значения моментов при аппроксимации наблюдаемых значений нормальным распределением. Используемые обычно процедуры проверки значимости, основанные на нормальном распределении, неприменимы для оценки результатов экспериментов в социальной сфере из-за различия в областях существования нормального распределения (-..+) и реальных результатов (xx 0 ), а также влияния величины выборки на значения моментов при аппроксимации наблюдаемых значений нормальным распределением. Кривые плотности нормального распределения для различных значений параметров и : I. = 0, = 2,5; II. = 0, = 1; III. = 0, = 0,4; IV. = 3, = 1. (Источник: БСЭ (на трех дисках). Новый Диск, Москва, 2002) Кривые плотности распределения Парето для различных значений параметров и x 0
8 Диалог-2005, "Звенигородский"8 Обсуждение результатов Учет синтаксиса (порядка слов) ведет к уменьшению общего числа найденных страниц. Поскольку это не уменьшает числа релевантных ссылок на первых страницах результата поиска, можно сделать вывод, что учет синтаксиса снижает шум поиска. Учет синтаксиса (порядка слов) ведет к уменьшению общего числа найденных страниц. Поскольку это не уменьшает числа релевантных ссылок на первых страницах результата поиска, можно сделать вывод, что учет синтаксиса снижает шум поиска. Создание «смысловых ловушек» в запросе увеличивает число релевантных результатов поиска. Морфология и синтаксис напрямую не влияют на релевантность, но при взаимодействии со «смысловыми ловушками» учет синтаксиса приводит также к увеличению релевантности, но требование включения в результат тех же словоформ, как и в запросе, приводит к ее уменьшению. Создание «смысловых ловушек» в запросе увеличивает число релевантных результатов поиска. Морфология и синтаксис напрямую не влияют на релевантность, но при взаимодействии со «смысловыми ловушками» учет синтаксиса приводит также к увеличению релевантности, но требование включения в результат тех же словоформ, как и в запросе, приводит к ее уменьшению. Высокие значения нулевого коэффициента указывают на наличие неучтенных факторов или взаимодействий факторов. Необходимо построение модели, точнее описывающей исследуемые зависимости. Высокие значения нулевого коэффициента указывают на наличие неучтенных факторов или взаимодействий факторов. Необходимо построение модели, точнее описывающей исследуемые зависимости.
9 Диалог-2005, "Звенигородский"9 Выводы 1)на документах Интернета можно проводить эксперименты, результаты которых повторяемы и поддаются статистической оценке, при этом общие закономерности определяются, в основном, грамматическими особенностями языка; 2)поиск новых текстов, включающих неизвестные пользователю выражения, возможен, при этом использование контекста позволяет на стадии поиска обойтись без использования словаря синонимов; 3)при разработке методики построения «смысловых ловушек» можно получать новые знания из Интернета и для этого достаточно использовать способности обычного пользователя, владеющего общими навыками манипулирования естественно-языковыми запросами (выделение квазиоснов, элемента Х и т.п.); 4)разработка методики требует дополнительных экспериментов с более представительным реестром запросов и с другими поисковиками.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.