Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемДемид Воргин
1 Поиск в динамической новостной среде. RSS-агенты и агрегаторы Некоторые новостные документы уходят в стабильную часть Internet в виде архивов, а большая их часть исчезает.
2 2 Проблемы традиционных ИПС Традиционные ИПС дают ответы из стабильной части Internet, устаревшие ссылки из новостной части и ничего из обновлений новостной части Период индексирования стабильных Web-ресурсов – недели и месяцы Индексирование Web-ресурсов в основном в HTML формате => невозможность полноценного сбора и автоматизированного анализа информации из динамической части Internet => необходимы специальные агенты для работы с динамическим Internet, новые стандарты однотипного обмена данными. Пордобные проблемы привели к развитию понятия «Семантический Web». Сегодня наиболее широкое практическое внедрение некоторых идей семантического Web – это динамическая новостная информация с семантическими метаданными на языке XML.
3 3 Синдикация новостной информации в семантическом Web - Это сбор новостной информации в Internet и последующее распространение её фрагментов в соответствии с потребностями пользователей. Технология синдикации включает в себя разработку и внедрение интеллектуальных программ-агентов, выполняющих следующие задачи: интеллектуальных программ-агентов обучение и сбор информации по выбранным источникам (по заданным Web-сайтам…), непосредственное сканирование информации, приведение её к общему формату (сегодня - XML), классификацию информации, доставку пользователям через , Web, WAP, SMS… Reuters, Associated Press, CNN и др. стали предоставлять возможности поиска и просмотра новостных сообщений. У пользователей появилась возможность бесплатно находить и просматривать новости реального, а не только «виртуального» мира.
4 4 RSS-Feeds (RSS-летны) RSS-ленты (Really Simple Syndication) являются файлами или документами состоящими из структурированного определенным образом XML кода. Каждый RSS-файл несет общую информацию о самой ленте и содержит список информационных элементов, в основном - отдельных текстовых блоков, перечисленных в хронологическом порядке Каждый информационный элемент содержит ссылку, заголовок и описание
5 5 Основы XML Все файлы XML имеют структуру (иерархическая модель данных). Основные элементы XML – узлы (nodes). Каждый элемент (узел) обязан иметь открывающий и закрывающий тег. Теги XML не заданы с самого начала, вы должны определить свои собственные теги. Элементы могут иметь атрибуты, значения которых заключаются в кавычки. В XML Учитывается регистр символов. Вся информация между начальным и конечным тэгами – это данные, и поэтому учитываются все символы форматирования (пробелы, переводы строк, табуляции). Имеются инструкции обработки файла и комментарии. Пример простого XML файла: Данные элемента item.
6 6 XML DOM (Document Object Model) – это интерфейс XML-документов, определяющий пути, которыми можно обращаться к XML-документу и производить с ним манипуляции. DOM представляет собой дерево, отображающее структуру XML-документа. Для работы с XML-документами на основе DOM-модели, необходимы программы парсеры (синтаксический анализатор). Парсер (parser) – это COM- компонент для обработки XML-файлов, например, при помощи скриптов JavaScript. Они превращают XML-файл в объектно-ориентированный документ. MS Internet Explorer имеет встроенный парсер msxml3.dll. Другие браузеры требуют установки парсеров. Практически все приложения, работающие с XML, построены на базе парсеров. Элемент documentElement является верхним уровнем дерева DOM. Этот элемент имеет дочерние узлы childNodes, представляющие ветви дерева. Основное свойство элементов – text, содержит всё текстовое содержимое данного узла, включая подчинённые узлы. Например, selectSingleNode(/путь к узлу).text – это содержимое указанного узла (тега). Свойство length – количество элементов в узле. Метод item(индекс) возвращает узел по заданному индексу, например, childNodes.item(1) – обращение ко второму элементу текущего узла. Метод load(URL) – загрузка (чтение) XML-файла.
7 7 XML-теги RSS-ленты XML - Начало любого XML-документа RSS - Корневой элемент, содержит версию RSS-документа (сегодня – 7 версий) CHANNEL - Говорит о том, что дальше идут данные RSS-канала TITLE - Заголовок канала, или его название LINK - Ссылка на сайт, откуда взяты новости DESCRIPTION - Краткое описание RSS-канала, т.е. более подробное IMAGE - Логотип для представления канала (необязательный, но желательный) URL - Ссылка на логотип TITLE - заменяющий текст для логотипа LINK - Ссылка для перехода при щелчке по изображению ITEM - Отдельный заголовок для каждой новости TITLE - Название новости LINK - Ссылка на страничку, содержащую соответствующую новость DESCRIPTION - Краткое описание новости PUBDATE - Дата публикации новости
8 8 RSS-агрегаторы RSS-агрегатор необходим для того, чтобы подписываться на RSS-ленты и читать их. Все RSS-агрегаторы можно поделить на три основных категории: RSS технология дает возможность Web-издателям оперативно доставлять информацию пользователям при помощи RSS-лент (RSS-фидов). Владельцы Web-сайтов, используя RSS, могут без усилий публиковать на собственных Web-страницах информацию с других сайтов. RSS-ленты можно добавлять для индексирования и поиска в различные RSS- поисковые системы (Feedster.com, Assimilatethe.net). При этом содержимое ваших RSS-лент будет отображено на сторонних Web-сайтах, и другие пользователи смогут быстро и эффективно находить Вашу информацию. Windows RSS-агрегаторы (аналогичны почтовым клиентам) Web-агрегаторы (встроенные в Web-узлы) Internet-браузеры со встроенной RSS-функцией
9 9 Пример агрегатора для rss1.xml Агрегатор написан для использования на клиентской машине с JavaScript и стандартным MS парсером.
10 10 Результат работы агрегатора agregator1.htm В файле агрегатора заменена строка xmlDoc.load("rss1.xml") на – xmlDoc.load(" Чтение новостей сторонних RSS-фидов
11 11 Пример RSS-ленты с рисунками (rss2.xml)
12 12 Агрегатор для чтения всей ленты rss2.xml
13 13 Результаты работы агрегатора agregatorListImage с лентой rss2.xml
14 14 Заключение Зарегистрировать свои RSS-фиды можно, например, на узлах Сегодня все ведущие информационные сайты используют RSS-технологии. В отличие от подписки, вам не надо оставлять свой адрес администраторам сайтов (избежание спама) Всё большую популярность RSS-технологии приобретают у владельцев Web- ресурсов. Системы синдикации Internet-новостей решают проблему нахождения необходимой информации, но не осуществляют её анализ (Text Mining и онтологии) – автоматические дайджесты, новые понятия и их взаимосвязь, разнообразные рейтинги…
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.