Поиск и копирование мультимедийных ресурсов в сети Лапшева Елена Евгеньевна, руководитель центра непрерывной подготовки IT-специалистов факультета КНиИТ СГУ
Процесс поиска Сначала возникает информационная потребность. Она инициирует поиск. Формализация информационной потребности сводится к выделению ключевых слов. Множество ключевых слов с отношениями между ними называется запросом. Система на множестве документов называется информационно-поисковым пространством. Список отобранных документов называют выдачей или откликом.
Релевантность – мера соответствия отклика запросу Смысловая релевантность – мера соответствия отклика информационной потребности пользователя. Формальная релевантность – мера соответствия отклика запросу, как набору ключевых слов. Информационный шум – документы, не соответствующие информационной потребности, но соответствующие запросу.
Релевантность отклика Россия гостиница Россия Российская Федерация, РФ документы, содержащие последовательность букв Россия, формально релевантные запросу документы, содержащие информацию о России, соответствующие информационной потребности
Релевантность отклика Документы, которые были выданы информационно-поисковой системой, будем называть выданными. Документы, соответствующие информационной потребности пользователя, будем называть релевантными.
Основные характеристики результатов поиска Полнота результата поиска отражает, как много документов, соответствующих информационной потребности пользователя, попала в число выданных документов.
Основные характеристики результатов поиска Точность результата поиска отражает качество соответствия отклика информационной потребности пользователя.
Факторы, влияющие на точность и полноту отклика Качество запроса Правильный выбор информационно-поискового пространства Поиск осуществляется не на реальном пространстве документов сети, а в некоторой модели, содержание которой отличается от действительного содержания Интернет в момент проведения поиска
Основные характеристики результатов поиска пространство документов Интернет пространство документов, представленных в сети на которых осуществляется поиск документы, представленные в поисковой системе, присутствующие в сети на момент проведения поиска документы, представленные в поисковой системе, отсутствующие в сети на момент проведения поиска
Основные характеристики результатов поиска Актуальность – характеристика, показывающая наличие в отклике информации о существующих документах. Скорость получения результатов – характеристика, зависящая от каналов связи между компьютером пользователя и поисковым сервером, загруженности этих каналов, алгоритмов обработки запросов, запроса пользователя.
Основные информационные пространства Интернет Документально-информационные ресурсы: документы, представленные в WWW файловые архивы FTP базы данных система wiki-wiki Коммуникационные ресурсы: система электронной почты система телеконференций форумы блоги (живые журналы) система on-line коммуникаций
Информационно-поисковые системы в WWW По способу организации и пополнения базы данных о документах сети информационно- поисковые системы делятся на: каталоги поисковые машины гибридные системы – универсальные поисковые машины По глубине охвата ресурса: глобальные локальные
Каталог Каталог – иерархически упорядоченная база данных (рубрикатор) документов, информация в которую заносится человеком Основная характеристика каталога – объем базы данных, то есть количество представленных документов г. – первый каталог, созданный Дэвидом Фило и Джерри Янгом, Yahoo
Поисковые машины и гибридные системы Поисковая машина – активная система, самостоятельно исследующая сеть с целью пополнения своих баз данных документов ( г., корпорация Digital (теперь Compaq), AltaVista Гибридная система (универсальная поисковая машина) сочетает в себе функции как каталога, так и поисковой машины (
Универсальные поисковые машины Глобальные Региональные (РуНет)
Характеристики поисковой машины Объем индекса (измеряется в млн. страниц). Период обновления информации о документах. Представление документа при индексировании (возможность робота различать заголовки, подзаголовки, подписи к рисункам и т.д.). Глубина индексирования – количество страниц одного сайта, заносимых в индекс. Особенности организации ввода запроса. Ранжирование документов. Поиск картинок. Вывод дополнительной информации.
Проблемы составления запросов Составление запроса – это процесс выражения информационной потребности с помощью ключевых слов и комбинирования этих ключевых слов с помощью средств информационно- поискового языка системы. На качество запроса оказывают воздействие следующие факторы: знание пользователем особенностей естественного языка; знание структуры и особенностей информационно поискового языка.
Учет особенностей естественного языка Повышение точности поиска: использование профессионализмов; использование редких терминов; использование названий и фамилий. Повышение полноты отклика: использование синонимов – слов, различающихся по написанию, но тождественных по смыслу.
Информационно- поисковый язык Оператор поискового языка – служебные слова, которые используются для комбинирования ключевых слов запроса с целью повышения точности: логические операторы; операторы расстояния; операторы выбора части документа, по которой осуществляется поиск; операторы выбора подмножества документов.
Логические операторы ОператорRamblerЯndexGoogle Логическое И And & пробел & пробел (в пределах предложения) && (в пределах документа) пробел Логическое ИЛИ Or | | OR Логическое НЕ NOT ! ~ (в пределах предложения) ~~ (в пределах документа) NOT – Группировка()
Уточнение запроса Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минус в Google или ~ или ~~ в Yandex. Например (для путеводитель по Франции ~~агентство ~~тур
Уточнение запроса Чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс и в Yandex, и в Google. Например: школьное оборудование +проектор Если не находится какое-либо слово, поисковая система часто предлагает вместо него синонимы, для исключения синонимов ставьте знак +
Поиск цитаты и в пределах сайта Чтобы найти документ, в котором встречается определенная фраза, возьмите эту фразу в кавычки. Например: «быть или не быть» В пределах сайта в Google: Например: ирак site:.iq или ирак site: kommersant.ru
Используйте синонимы Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|) или OR Например: норма|норматив|правило Матчи ЦСКА 2005 | 2006
Оператор точной формы Ищете имена? Неважно какой регистр использовать в запросе. Исключением является оператор точной формы. По запросу '!лужков' вы найдете документы, содержащие эту словоформу в любом регистре А по запросу '!Лужков' только документы, с формой 'Лужков' с большой буквы. Это полезно, если искомое имя собственное совпадает с распространенным нарицательным, например, село !Кошки или !Прост.
Заполнение пустых мест Знак * в тексте запроса для вставки любых значений Например: Дума проголосовала по * законопроекту Прибыл * посол
Дополнительные возможности
расширенный поиск
Расширенный поиск В расширенном поиске есть памятка по использованию языка запросов
Расширенный поиск Словарный фильтр Дата создания документа Поиск на определенном сайте Поиск изображения по названию или альтернативной надписи Поиск специальных объектов Поиск документов на определенном языке Поиск документов определенного формата
искать в найденном
Дополнительные службы поиска Картинки Товары в интернет- магазинах Новости Словари Географические карты Блоги Книги
Поиск картинок
Расширенный поиск
Поиск картинок размер рисунка в пикселях и Кбайтах месторасположение картинки
Поиск картинок размер рисунка в пикселях и Кбайтах месторасположение картинки
Поиск внутри сайта поиск по сайту
Поиск по странице Меню «Правка» Найти на этой странице
Языковые инструменты Google.ru Переводчик – дополнительная услуга
Скачивание. Фрагмент текста 1. Выделить текст 2. Ctrl+C 3. Перейти в текстовый редактор 4. Ctrl+V