Поиск информации в компьютерных сетях
Что такое компьютерная сеть? Чем вызвано создание компьютерных сетей? Какие компьютерные сети бывают? Что такое топология сети? Какая топология сети у нас в классе? Какие ресурсы Интернет вам известны? На каком протоколе построена служба WWW?
Сеть Интернет растет очень быстрыми темпами, поэтому найти нужную информацию среди сотен миллиардов Web- страниц и сотен миллионов файлов становится все сложнее. Для поиска информации используются специальные поисковые системы, которые содержат постоянно обновляемую информацию о местонахождении Web-страниц и файлов на сотнях миллионов серверов Интернета. Поисковые системы содержат тематически сгруппированную информацию об информационных ресурсах Всемирной паутины в базах данных. Специальные программы-роботы периодически «обходят» Web-серверы Интернета, читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных Интернет-адреса документов. Большинство поисковых систем разрешают автору Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.
Способы поиска информации в web Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа поиска информации в Интернет: 1. Указание адреса страницы. 2. Передвижение по гиперссылкам. 3. Обращение к поисковой системе (поисковому серверу).
Способ 1: Указание адреса страницы Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ. Не стоит забывать возможность поиска по открытой в окне браузера web-странице (Правка-Найти на этой странице...).
Способ 2: Передвижение по гиперссылкам Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу.
Способ 3: Обращение к поисковой системе Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы к другой, но если учесть, что в мире созданы многие миллионы web- страниц, то найти на них нужную информацию таким способом вряд ли удастся. На помощь приходят специальные поисковые системы (их еще называют поисковыми машинами). Адреса поисковых серверов хорошо известны всем, кто работает в Интернете. В настоящее время в русскоязычной части Интернет популярны следующие поисковые серверы: Яндекс (yandex.ru), Google (google.ru) и Rambler (rambler.ru).
Поисковая система Поисковая система веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. По принципу действия поисковые системы делятся на два типа: поисковые каталоги и поисковые индексы.
Поисковые каталоги Поисковые каталоги служат для тематического поиска. Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то узкую тему, нетрудно найти список web-страниц, ей посвященных. Катало́г ресурсов в Интернете или каталог интернет-ресурсов или просто интернет-каталог структурированный набор ссылок на сайты с кратким их описанием. Каталог в котором ссылки на сайты внутри категорий сортируются по популярности сайтов называется рейтинг (или топ).
Каталог Яндекс. Подраздел: Культура – Литература - Электронные библиотеки
Поисковые индексы Поисковые индексы работают как алфавитные указатели. Клиент задает слово или группу слов, характеризующих его область поиска, и получает список ссылок на web-страницы, содержащие указанные термины. Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, разработанный Мэтью Грэйем из Массачусетского технологического института в 1993.
Как работает поисковой индекс? Поисковые индексы автоматически, при помощи специальных программ (веб-пауков), сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу данных. Поиско́вый робот («веб-пау́к») программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы. В ответ на запрос, где найти нужную информацию, поисковый сервер возвращает список гиперссылок, ведущих web-страницам, на которых нужная информация имеется или упоминается. Обширность списка может быть любой, в зависимости от содержания запроса.
Яндекс российская система поиска в Сети. Сайт компании, Yandex.ru, был открыт 23 сентября 1997 года. Головной офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе и Киеве. Количество сотрудников превышает 700 человек. Слово «Яндекс» (состоящее из буквы «Я» и части слова index; обыгран тот факт, что русское местоимение «Я» соответствует английскому «I») придумал Илья Сегалович, один из основателей Яндекса, в настоящий момент занимающий должность технического директора компании. Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам.
Лидер поисковых машин Интернета, Google занимает более 70 % мирового рынка. Cейчас регистрирует ежедневно около 50 млн поисковых запросов и индексирует более 8 млрд веб-страниц. Google может находить информацию на 115 языках. По одной из версий, Google искажённое написание английского слова googol. "Googol (гугол)" – это математический термин, обозначающий единицу со 100 нулями. Этот термин был придуман Милтоном Сироттой, племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена "Математика и воображение" (Mathematics and the Imagination). Использование этого термина компанией Google отражает задачу организовать огромные объемы информации в Интернете. Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.
Rambler Media Group интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный портал. Rambler создан в 1996 году. Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова.
Поиск по ключевым словам Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска. Запрос должен содержать одно или несколько ключевых слов, которые являются главными для этого документа. Например, для поиска самих систем поиска в Интернете можно в поле поиска ввести ключевые слова «российская система поиска информации Интернет» Через некоторое время после отправки запроса поисковая система вернет список Интернет-адресов документов, в которых были найдены заданные ключевые слова. Для просмотра этого документа в браузере достаточно активизировать указывающую на него ссылку
Поиск по ключевым словам Релевантный документ - документ, смысловое содержание которого соответствует информационному запросу. Современные поисковые машины осуществляют поиск по контексту, т.е. словам, содержащимся в запросе, учитывая вариации словоформ и расширяя запросы синонимами. Но смысла компьютеры не понимают, поэтому в списке ответов на запрос, наряду с релевантными вашему запросу документами, вы можете получить и те, которые вам никоим образом не подходят. Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.
Правила поиска Необходимо: Учитывать особенности русского языка Не допускать орфографических ошибок Избегать поиска по одному слову, использовать необходимый и достаточный набор слов Не писать большими буквами Исключать из поиска ненужные слова Использовать возможности расширенного поиска Пользоваться операторами языка запроса
Если ключевые слова были выбраны неудачно, то список адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.
Поиск в иерархической системе каталогов. В базе данных поисковой системы Web-сайты группируются в иерархические тематические каталоги, которые являются аналогами тематического каталога в библиотеке Тематические разделы верхнего уровня, например: Интернет, Компьютеры, Наука и образование и т. д., содержат вложенные каталоги. Например, каталог Интернет может содержать подкаталоги Поиск, Почта и др. Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на Интернет-адреса наиболее посещаемых и содержательных Web-сайтов. Каждая ссылка обычно аннотирована, т. е. содержит короткий комментарий к содержанию документа. Наиболее полный многоуровневый иерархический тематический каталог русскоязычных Интернет-ресурсов имеет поисковая система Апорт ( Каталог содержит подробную аннотацию содержания Web-сайтов и указание на их географическое положение.
Поиск файлов Для поиска файлов на серверах файловых архивов существуют специализированные поисковые системы, в том числе поисковая система Filesearch ( Для поиска файла необходимо ввести имя файла в поле поиска, и поисковая система выдаст Интернет-адреса серверов файловых архивов, на которых хранится файл с заданным именем.
Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренней базой данных (а не пускается в путешествие по Сети). Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет. Этому целесообразно использовать для поиска необходимой информации разные поисковые машины.
Онлайновые энциклопедии и справочники В ряде случаев бывает нужно найти не просто документ, содержащий ключевое слово, а именно толкование некоторого слова. При поиске незнакомого термина с помощью поисковой машины вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. Подобный поиск предпочтительнее проводить в онлайновой энциклопедии. Одной из крупнейших онлайновых энциклопедий является ресурс "Яндекс. Энциклопедии" ( - этот проект содержит 14 энциклопедий, в том числе статьи из Большой Советской Энциклопедии и "Энциклопедию Брокгауза и Эфрона". К крупным относится и "Энциклопедия Кирилла и Мефодия" ( Помимо переноса в гипертекстовую среду традиционных словарей бурно развиваются энциклопедические wiki-проекты. Ви́ки веб- сайт для сбора и структуризации письменных сведений. Характеризуется тем, что наполнять и редактировать размещаемую на нем информацию могут все посетители. - википедия на русском языке часть многоязычного проекта, целью которого является создание полной энциклопедии на всех языках Земли.
Практическая работа
Вопросы: Назовите основные способы поиска информации в web? В каком случае может возникнуть необходимость поиска по уже открытой в браузере web-странице? Какие два вида поисковых машин вы знаете? Назовите наиболее популярные поисковые машины Интернета.