Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВладимир Недодаев
1 Разработка системы информационного поиска в базе знаний Белякова Д.Ю. Группа С-105 МИЭМ
2 Актуальность Увеличение неструктурированной информации Структурирование информации является не всегда полезным Необходимость поиска среди неструктурированных документов 2
3 Первичное тестирование 3
4 Постановка задачи Анализ методов и подходов по реализации информационного поиска Анализ поисковых движков Выявление ошибок в существующей базе знаний Внедрение данной системы в базу знаний Тестирование поисковой системы 4
5 Информационный поиск – это процесс поиска в большой коллекции некоего неструктурированного материала, удовлетворяющего информационной потребности. Критерии поиска: 5
6 Понятие веса F – функция, показывающая отвечает ли документ поисковому запросу. s i – величина, показывающая встречает ли данный термин в документе. g i – вес документа. 6
7 Понятие веса F=0.2* * *1 = 0.8 7
8 Основные методы Последовательный метод Булев поиск Сжатие индекса Метод ранжирования 8
9 Сравнение методов 9 Последовательный методБулев поиск Задача: Имеется документов. Необходимо найти среди всех документов те, заголовки которых начинаются на букву «К». Решение: Перебрать все документов и отложить документы на букву «К». Решение: Найти раздел, в котором находятся документы на букву «К».
10 Булев поиск Матрица «термин-документ» 10 Документ/ Термин ИдиотБедные люди Преступление и наказание Братья Карамазовы идиот1000 бедный1111 люди1111 преступление1111 икона0000 король0000
11 Сжатие индекса Матрица «термин-документ» 11 Документ/ Термин Документ 1 Документ 2 …Документ n Термин Термин Термин …0000 Термин (k-1)0000 Термин k0000
12 Сжатие индекса Словопозиция имеет вид [ ]: 12
13 Метод ранжирования 13 Критерии отбора/ Документ 12…nΣ … n
14 Обзор поисковых движков Название движка/ Параметры Sphinx com Lunece org/ Xapian Типотдельный серверотдельный сервер или встраивая библиотека встраивая библиотека ПлатформаС++/кросс- платформенный Java/кросс- платформенный С++ Поисковые возможности булевый поиск, поиск по фразам с возможностью группировки, ранжирования и сортировки результата булевый поиск, поиск по фразам, нечёткий поиск и с возможностью группировки, ранжирования и сортировки результата булевый поиск, поиск по фразам, поиск по синонимам с возможностью группировки, ранжирования и сортировки результата 14
15 Обзор поисковых движков Название движка/ Параметры SphinxLuneceXapian API, протоколы и языки программирова ния SQL DB (MySQL и PostgreSQL), собственный XML- интерфейс, встроенные API для РНР, Ruby, Python, Java, Perl Java APIС++, Perl API, Java JINI, Python, PHP, TCL, C# и Ruby, CGI интерфейс с XML/CSV форматом Поддержка языков встроенный английский и русский стемминг, soundex для реализации морфологии отсутствует морфология, есть стемминг (Snowball) и анализаторы для ряда языков отсутствует морфология, есть стемминг для ряда языков, реализована проверка правописания в поисковых запросах 15
16 Скачивание базы данных Скачать файл с настройками LocalSettings.php Скачать саму базы данных в домашнюю папку Переместить на домашний компьютер 16
17 Конфигурационный файл Indexer – генератор индекса Searchd – поисковый демон Search – тестовая утилита 17
18 Индексация запросов Indexer 18
19 Блок-схема работы демона Searchd 19
20 Результат демона 20
21 Модификация системы Закачать исправленный файл Остановить работу демона Удалить предыдущий файл Запустить индексатор Запустить демона 21
22 Тестирование системы Запуск утилиты search 22
23 Тестирование системы Запуск из браузера 23
24 Работа системы до изменений 24
25 Результат работы 25
26 Экспертная оценка 26
27 Выводы В результате выполнения работы были: Проведен анализ существующих решений Исправлены ошибки в поиске Данная система была модифицирована и внедрена в кафедральную базу знаний 27
28 Разработка системы информационного поиска в базе знаний Белякова Д.Ю. 28 Спасибо за внимание
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.