Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.

Презентация:



Advertisements
Похожие презентации
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
Advertisements

3.1. Назначение онтологий. Информационный поиск..
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
ПОИСКОВАЯ СИСТЕМА Поисковая система Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и.
Информационный поиск в Интернете Павел Морозов
Тема Структура представления информации в мировых информационных сетях.
Докладчик: Денис Ванеев SEM-SEO.ru - Поисковая оптимизация сайтов.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Новая версия «1С-Битрикс: Управление сайтом 8.5» – инструменты поисковой оптимизации.
Д.А.Россиев Поиск в Интернет и создание Интернет-обзоров.
Продвижение сайта Контекстные переходы оплата за переходы на сайт рекламодателя формат: текстово-графический блок Контекстные показы оплата за показы.
2 Методы анализа поисковых параметров сайта Прямой метод обращения к поисковым машинам Online сервисы Различные программы, устанавливаемые на компьютер.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
SEO – внутренние факторы Внутренние факторы ранжирования Выделение приоритетных страниц сайтов Ключевые страницы Целевые страницы Управление индексацией.
ПРОДВИЖЕНИЕ САЙТОВ В ПОИСКОВЫХ СИСТЕМАХ. МЕТОДЫ И СПОСОБЫ Рустем Гараев, Руководитель BulgarPromo.
Оптимизация информационного поля компании в сети Интернет Ашарапова Елена Валентиновна, заместитель генерального директора ООО "Агентство виртуальных технологий.
Анализ данных Краулеры и мошенничество в поисковых системах.
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Транксрипт:

Анализ данных Введение в информационный поиск

План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста и изображений 3.Ранжирование результатов 4.Веб-пауки (краулеры) 5.Виды обмана и защиты поисковых систем

План лекции 1.Определение и задачи IR 2.Проблемы информационного поиска 3.Основные компоненты поисковика Основная цель: получить представление и задачах и проблемах систем информационного поиска

Информационный поиск Информационный поиск (Information Retrieval) - процесс поиска в большой коллекции неструктурированного материала, удовлетворяющего информационной потребности Основная задача: быстро получить верный и актуальный ответ на запрос необученного пользователя

Структурированные и неструктурированные данные Где и какие данные являются неструктурированными? Файлы логов работы сервера Википедия Фотогалерея База биллинга Веб-страницы Статистики погоды Youtube

Требования Составление запроса не требует определенных навыков Быстрое получение результатов Полнота и точность результатов

Точность и полнота Точность - доля релевантных документов среди найденных Полнота - доля найденных релевантных документов среди всех релевантных документов Сравнить: студента на экзамене и частного детектива

Проблемы поисковых систем Поиск источников информации Обработка источников информации Индексация данных Хранение данных Обработка запроса Ранжирование

Поиск источников Ссылки на другие сайты Списки новых доменов от регистраторов Сканирование всего диапазона IP по портам 80, 8080, 443 Добавление сайта владельцем

Обработка источников Разные языки Разные кодировки Некорректная верстка Хорошая страница: UTF-8, внутренняя SEO- оптимизация Лучшая страница: семантический веб Реальность: KOI8-R, Narod.ru, doorway, невидимый текст

Построение индекса Множество лингвистических задач: Определение однокоренных слов Связь синонимов Анализ связи слов в предложении Множество математических задач: Метрика значимости слова в данном документе и коллекции в целом Определение сгенерированных текстов

Ранжирование Сотни параметров зависящих от условий запроса (время, место, язык). Метрики определения авторитетности источников информации (Google PR, Яндекс тИЦ, Alexa Ranking и т.д.) – сложные секретные мат.модели. Доступны только рекомендации по улучшению рейтинга.

Общая структура поисковой системы Страницы интернета Краулер Индексатор Кэш Нормализованные документы Запрос Обработчик запроса Поисковая машина Ранжирование Результаты

Краулер Составляет список страниц, по которым будет проходить поиск Ходит по ссылкам, как обычный пользователь Опирается на robots.txt (для защиты приватных данных) Ссылки отправляются индексатору

Индексатор Анализирует содержимое страницы Находит модульную сетку Составляет индекс страницы: слов и их значимости Переводит содержимое страницы из простыни текста в вид удобный для поиска информации

Обработчик запроса Исправляет опечатки Добавляет синонимы Анализирует омонимы Убирает стоп-слова Определяет правила обработки списка результатов (AND, OR, NOT) Приводит запрос в тот же вид, что и нормализатор

Непосредственно поиск Смотрит, есть ли уже результаты по этому запросу Ищет приведенный запрос в индексе Применяет булевые правила к результатам подзапросов

Оценка качества поиска Если пользователь после перехода по ссылке вернулся на страницу результатов, то он не удовлетворен Если не вернулся – повысить авторитет страницы последнего перехода Социальные сети + рекомендации источников

Виды поисковиков Классические текстовые поисковики Реверсивный поиск по изображению Реверсивный поиск по музыке Специализированные поисковики (товары, недвижимость, авто) Агрегаторы поисковых результатов Голосовой поиск

Реверсивный поиск изображений Составляет индекс изображений, а не текста, ужимая их до минимума, необходимого для последующего сравнения с картинкой-запросом

Реверсивный поиск музыки То же самое для музыки (Tunatic)

Агрегатор поисковых результатов Ищет ответ на вопрос, а не страницу с ответом Сам при этом использует чужой индекс и результаты

Прочие специализированные поисковики Строка ввода немного модифицированная

Прочие специализированные поисковики (примеры) Яндекс.Маркет – поиск по товарам Google Maps – поиск мест, адресов Koders – поиск по коду