Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемЯна Миклашевская
1 Тема Структура представления информации в мировых информационных сетях
2 Принципы работы поисковых систем
3 Виды поиска в WWW поиск по известным адресам Тематические каталоги Поисковые машины Специализированный поиск в базах данных (резервирование, поиск справочной информации о людях, организациях …)
4 Критерии профессионального поиска: контроль полноты охвата ресурсов; контроль полноты охвата ресурсов; контроль достоверности информации, полученной из Сети; контроль достоверности информации, полученной из Сети; высокая скорость проведения поиска. высокая скорость проведения поиска.
5 Компоненты поисковой системы SEARCH ENGINE Поисковая система SEARCH ENGINE Поисковая система spider (паук) crawler indexer (индексатор) search engine results engine (система выдачи результатов): the database (база данных) Браузероподобна я программа скачивания web-страниц «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице хранилище скаченных и обработанных страниц программа, которая анализирует веб-страницы, скаченные пауками извлекает результаты поиска из базы данных
6 Метод, по которому поисковая система (ПС) принимает решение называется алгоритмом. ПC осуществляет отбор на основании постоянно меняющихся критериев: Title (заголовок): Имеется ли ключевое слово в заголовке? Domain/URL (Домен/адрес): Имеется ли ключевое слово в имени домена / в адресе страницы? Style (стиль): (STRONG или B), Курсив (EM или I), Заголовки HEAD.
7 Density (плотность): Количество ключевых слов относительно всего текста страницы называется плотностью ключевого слова. MetaInformation (мета данные): - мета ключевые слова (meta keywords) и мета описания (meta description). Outbound Links (ссылки наружу): Какие ссылки есть на странице и содержит ли они и ключевое слово?
8 Inbound Links (внешние ссылки): Имеются ли в Интернет ссылки на данный сайт? Каков текст ссылки? Это называется «вне страничный» критерий (автор страницы не всегда может им управлять). Insite Links (ссылки внутри страницы): Какие ссылки на страницы данного сайта содержит эта страница? Т.о., поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.
9 Непосредственный Тематические каталоги Архивы файлов Энциклопедии Словари Базы данных Электронные каталоги библиотек Поиск в соответствии с видом представления
10 3. Как искать информацию в Интернет Основные методы поиска информации в Интернет: Непосредственный поиск с использованием гипертекстовых ссылок (особенно необходим на заключительных этапах информационного поиска). Поиск в тематических каталогах. Поиск в энциклопедиях, словарях. Поиск с помощью поисковых машин. Поиск в базах данных.
11 Технология проведения информационного поиска Определение географических регионов поиска; Составление тезауруса; При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов. Тезаурус - список ключевых слов, организованный с учетом семантических отношений между ними.
12 Отбор поисковых машин. Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.
13 Составление и выполнение запросов к поисковым машинам. Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой).
14 Эффективность поиска Семантические показатели. Основаны на оценке релевантности между документами и ззапросами Семантические показатели. Основаны на оценке релевантности между документами и ззапросами Устанавливается экспертным путем Релевантность – объективно существующее смысловое соответствие между содержанием документа и ззапроса.
15 Эффективность поиска Семантические показатели: Полнота выдачи (ПВ) Полнота выдачи (ПВ)Где: а – множество релевантных и выданных системой документов а – множество релевантных и выданных системой документов в – множество релевантных, но не выданных системой документов в – множество релевантных, но не выданных системой документов
16 Эффективность поиска Семантические показатели: Точность выдачи (ТВ) Точность выдачи (ТВ)Где: а – множество релевантных и выданных системой документов б – множество нерелевантных, но выданных системой документов
17 Эффективность поиска Семантические показатели: Потери информации (ПИ) Потери информации (ПИ)Где: а – множество релевантных и выданных системой документов в – множество релевантных, но не выданных системой документов
18 Эффективность поиска Семантические показатели: Информационный шум (ИШ) Информационный шум (ИШ)Где: а – множество релевантных и выданных системой документов б – множество нерелевантных, но выданных системой документов
19 Эффективность поиска Прагматические показатели. Определяются абонентами системы по оценке пертинентности выданных документов. Прагматические показатели. Определяются абонентами системы по оценке пертинентности выданных документов. Пертинентность – субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя.
20 Технология поиска Уточнение ззапроса (отсечение нерелевантных результатов) Анализ полученных результатов Формирование запроса Формирование ззапроса Составление тезауруса Отбор поисковых машин
21 Правильный набор ключевых слов имеет очень важное значение для задания ззапроса. Слова, встречающиеся с максимальной частотой - это предлоги, частицы, местоимения, в английском языке – артикли. Их называют «стоп- слова». Для отбора ключевых слов используют процедуру, основанную на применении законов Зипфа. Текст оценивается по частоте появления каждого слова. Слова ранжируются по частоте.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.