Д.А.Россиев Поиск в Интернет и создание Интернет-обзоров
Фрагмент «Штандарта из Ура» (около до н.э.) хранится в Британском музее.
Те из вас, кто сейчас поверил предыдущему слайду и моим словам, вошли в число нескольких миллионов людей, ставших жертвами розыгрыша в Internet…
ПЛАН 1.Как устроены поисковые сайты? 2.Сравнительный обзор поисковых сайтов 3.Технология создания интернет-обзора
Поисковая машина Интернет-сайт, предоставляющий посетителям сервис по поиску в интернет-сети страниц и файлов, удовлетворяющих заданным критериям
Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных
Поисковые машины обычно состоят из трех компонентов: агент - паук (spider) или кроулер (crawler), который перемещается по Сети и собирает информацию; индексатор - обрабатывает найденные страницы и создает индексы – описания; база данных, которая содержит эти индексы- описания; поисковый механизм, который в ответ на запрос пользователя выдает из базы таблицу ссылок на ресурсы.
Откуда поступает информация в базу данных поисковой машины? 1.От агента-паука 2.От самих пользователей, которые самостоятельно могут разместить информацию на поисковой машине Явно на самом поисковом сайте С помощью программ-регистраторов
Процесс поиска на поисковой машине Пользователь задает ключевое слово (слова, фразу, выражение) Поисковая машина ищет записи в базе данных … … и возвращает ранжированный набор ссылок на ресурсы Internet РЕЛЕВАНТНЫЕ (Relevant) ШУМОВЫЕ (Noise) Точность поиска- % релевантных ссылок
Как поисковая машина ранжирует ссылки по релевантности? Количество слов запроса в текстовом содержимом документа Местоположение искомых слов в документе. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа. Время - как долго страница находится в базе поискового сервера. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.
Схема, поясняющая возможности поиска Множество всех документов в сети Множество документов, проиндексиро- ванных данной поисковой машиной Множество искомых документов
+- Сортировка результатов Огромная база Настройка результатов поиска Много «мусора» в результатах
+- Много функций поиска Сортировка результатов Группировка результатов Удобный вывод результатов Хуже ищет в зарубежных ресурсах
+- Большая база Большой набор функций и направлений поиска Развитая справочная система по поиску Встроенная сортировка по популярности Бедный интерфейс Очень большое число ссылок Неудобный вывод результатов Нет пользовательской сортировки результатов Не разделяет страницы и сайты
+- Приятный интерфейс Разумное число ссылок Удобный вывод результатов Высокая скорость поиска Хорошо ищет картинки Небольшая база Нет сортировки результатов
Найдено документов / сайтов при поиске по фамилии «Россиев» gogo.ru google.ru18400? msn.com1044? rambler.ru yandex.ru webalta.ru52? yahoo.com1560? aport.ru
Что такое Интернет-обзор? Литературный структурированный текст – исследование того, как данная тема представлена в Интернет Интернет-обзор – один из факторов для принятия управленческих решений! Время на один обзор – от 5 до 50 часов работы в Интернет
Шаг 1. Определение целей Какие решения будут приниматься по результатам обзора? На какие вопросы мы должны ответить, делая обзор? Какую статистику желательно получить? На какие факты следует обратить внимание?
Шаг 2. Определение баланса (%) Баланс – соотношение «широты» и «глубины» обзора Широта Глубина Больше статистики, списков Больше содержания, анализа
Шаг 3. Определение базового списка ключевых слов / фраз Основные слова Вспомогательные слова Синонимы Сочетания / расстояния Исключение слов Тип документов/файлов
Шаг 4. Выбор поисковых систем УЧИТЫВАЕМ Размер поисковой базы Эффективность обновления Работа с датами Сортировка результатов
Шаг 5. Цикл поиска и фиксации результатов (всего нужно 2-5 циклов) Всегда записываем статистику поиска Заходим на предположительно релевантные страницы, копируем интересные фрагменты и складываем в MS Word Туда же копируем ссылки Упорядочиваем собранное Добавляем свой текст для связки Решаем, нужна ли коррекция поиска?
Оптимальное количество возвращаемых ссылок Если больше, и среди первых 2-3 десятков нет искомых результатов, ужесточаем условие поиска
Содержание Интернет-обзора 1.Характер сайтов (порталы, личные странички, специализированные (какие?), каталоги, реклама и т.д. 2.Статистика ссылок, документов, сайтов, изображений, видео, файлов 3.«Профессиональность» освещения темы 4.«Противоречивость» освещения темы 5.«Свежесть» освещения темы 6.Блоки фрагментов 7.Выводы 8.Предложения
Структура блока общей статистики Сколько страниц Сколько сайтов Сколько изображений По каждой поисковой машине По каждой ключевой фразе Оформляется в виде таблицы
Блоки фрагментов Научные исследования по теме Книги, статьи по теме Новости по теме Статистические данные по теме Аналитические обзоры по теме Реклама по теме Форумы по теме Презентационные материалы по теме Организации, связанные с темой Персоналии, связанные с темой
Структура блока с одной найденной интернет-страницы Поисковая машина Ключевая фраза Номер ссылки и порядок сортировки (если есть) Дата копирования фрагмента Точный адрес страницы: (ссылка!) Название сайта Название страницы Фрагмент Фрагмент Фрагмент …
Степень доверия к информации Т1 – официальные источники, сайты государственных органов, университетов, крупных известных компаний, мировых библиотек Т2 – сайты небольших частных организаций, новостные сайты, тематические каталоги Т3 – развлекательные сайты, личные странички, форумы и т.д.
Спасибо за внимание!