Поиск в динамической новостной среде. RSS-агенты и агрегаторы Некоторые новостные документы уходят в стабильную часть Internet в виде архивов, а большая.

Презентация:



Advertisements
Похожие презентации
XML - язык разметки и модель данных XML RSS, СУБД… На сегодняшний день уже всем специалистам в области Web-технологий стало очевидно, что существующих.
Advertisements

Языки, технологии и средства создания Web-сайтов. Компонентная структура. Выполнил Федорова Я.В., студентка СФУ ИППС 1 курс заочное отделение.
RSS и Atom: новостные форматы Web 2.0 XML-ТЕХНОЛОГИИ Лекция 7.
© ElVisti Лекция 5 Новостные информационные потоки в Интернет, интеграция контента Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
XML - ПРАВИЛА ПОСТРОЕНИЯ ДОКУМЕНТОВ. Элементы электронного УМК Учебный план Программа дисциплины Структура курса Электронный конспект Обучающие и аттестующие.
Структура HTML- документа. Терминология Элемент - конструкция языка HTML. Это контейнер, содержащий данные и позволяющий отформатировать из определенным.
Ключевые слова 1.WWW 2.Структура Web-страницыHTML 3.HTML-редактор 4.Цветовые схемы 5.гиперссылка.
Powerpoint Templates Page 1 Язык разметки гипертекста HTML.
РАЗРАБОТКА WEB-САЙТОВ.. Создание Web-сайтов реализуется с помощью языка разметки гипертекстовых документов HTML. Тэги – инструкции браузеру, указывающие.
Web-сайты и Web- страницы. Web-страницы - специальные файлы, написанные на языке HTML (HyperText Markup Language - язык разметки гипертекста). Браузер.
Верстка сайтов Введение. Оглавление Основные понятия Тэги и элементы разметки Управление визуальным представлением документа Правила написания кода.
Троицкий Д.И. Интернет-технологии1 ДИНАМИЧЕСКИЕ WEB-СТРАНИЦЫ СЕРВЕРНЫЕ СЦЕНАРИИ Лекция 9 Кафедра «Автоматизированные станочные системы» Dept. of Automated.
Основные теги HTML. Язык HTML HTML не является языком программирования, он предназначен для разметки текстовых документов. HTML состоит из тегов. Основным.
Инструментальные средства создания Web-сайтов
Презентация по дисциплине Программное обеспечение компьютерных сетей Дудко Е.В., преподаватель спец. дисциплин ГБОУ СПО Новороссийского колледжа строительства.
Язык запросов XML. XML (Extensible Markup Language) - это новый SGML-производный язык разметки документов, позволяющий структурировать информацию разного.
Лекция 3. Тема «СТРУКТУРА HTML-ДОКУМЕНТА». 1.История развития HTML 2.Принципы гипертекстовой разметки 3.Группы тэгов 4.Структура HTML-документа 5.Элементы.
Разработка Web-сайтов с использованием языка разметки гипертекста HTML.
Web-узлы. Разработка и администрирование.. Часть 1. Web-технология.
WEB- ТЕХНОЛОГИИ Лекция 2. Задача обмена данными 1 Форматы обмена данными : Текстовый CSV (Comma Separated Values) Локальные XML.
Транксрипт:

Поиск в динамической новостной среде. RSS-агенты и агрегаторы Некоторые новостные документы уходят в стабильную часть Internet в виде архивов, а большая их часть исчезает.

2 Проблемы традиционных ИПС Традиционные ИПС дают ответы из стабильной части Internet, устаревшие ссылки из новостной части и ничего из обновлений новостной части Период индексирования стабильных Web-ресурсов – недели и месяцы Индексирование Web-ресурсов в основном в HTML формате => невозможность полноценного сбора и автоматизированного анализа информации из динамической части Internet => необходимы специальные агенты для работы с динамическим Internet, новые стандарты однотипного обмена данными. Пордобные проблемы привели к развитию понятия «Семантический Web». Сегодня наиболее широкое практическое внедрение некоторых идей семантического Web – это динамическая новостная информация с семантическими метаданными на языке XML.

3 Синдикация новостной информации в семантическом Web - Это сбор новостной информации в Internet и последующее распространение её фрагментов в соответствии с потребностями пользователей. Технология синдикации включает в себя разработку и внедрение интеллектуальных программ-агентов, выполняющих следующие задачи: интеллектуальных программ-агентов обучение и сбор информации по выбранным источникам (по заданным Web-сайтам…), непосредственное сканирование информации, приведение её к общему формату (сегодня - XML), классификацию информации, доставку пользователям через , Web, WAP, SMS… Reuters, Associated Press, CNN и др. стали предоставлять возможности поиска и просмотра новостных сообщений. У пользователей появилась возможность бесплатно находить и просматривать новости реального, а не только «виртуального» мира.

4 RSS-Feeds (RSS-летны) RSS-ленты (Really Simple Syndication) являются файлами или документами состоящими из структурированного определенным образом XML кода. Каждый RSS-файл несет общую информацию о самой ленте и содержит список информационных элементов, в основном - отдельных текстовых блоков, перечисленных в хронологическом порядке Каждый информационный элемент содержит ссылку, заголовок и описание

5 Основы XML Все файлы XML имеют структуру (иерархическая модель данных). Основные элементы XML – узлы (nodes). Каждый элемент (узел) обязан иметь открывающий и закрывающий тег. Теги XML не заданы с самого начала, вы должны определить свои собственные теги. Элементы могут иметь атрибуты, значения которых заключаются в кавычки. В XML Учитывается регистр символов. Вся информация между начальным и конечным тэгами – это данные, и поэтому учитываются все символы форматирования (пробелы, переводы строк, табуляции). Имеются инструкции обработки файла и комментарии. Пример простого XML файла: Данные элемента item.

6 XML DOM (Document Object Model) – это интерфейс XML-документов, определяющий пути, которыми можно обращаться к XML-документу и производить с ним манипуляции. DOM представляет собой дерево, отображающее структуру XML-документа. Для работы с XML-документами на основе DOM-модели, необходимы программы парсеры (синтаксический анализатор). Парсер (parser) – это COM- компонент для обработки XML-файлов, например, при помощи скриптов JavaScript. Они превращают XML-файл в объектно-ориентированный документ. MS Internet Explorer имеет встроенный парсер msxml3.dll. Другие браузеры требуют установки парсеров. Практически все приложения, работающие с XML, построены на базе парсеров. Элемент documentElement является верхним уровнем дерева DOM. Этот элемент имеет дочерние узлы childNodes, представляющие ветви дерева. Основное свойство элементов – text, содержит всё текстовое содержимое данного узла, включая подчинённые узлы. Например, selectSingleNode(/путь к узлу).text – это содержимое указанного узла (тега). Свойство length – количество элементов в узле. Метод item(индекс) возвращает узел по заданному индексу, например, childNodes.item(1) – обращение ко второму элементу текущего узла. Метод load(URL) – загрузка (чтение) XML-файла.

7 XML-теги RSS-ленты XML - Начало любого XML-документа RSS - Корневой элемент, содержит версию RSS-документа (сегодня – 7 версий) CHANNEL - Говорит о том, что дальше идут данные RSS-канала TITLE - Заголовок канала, или его название LINK - Ссылка на сайт, откуда взяты новости DESCRIPTION - Краткое описание RSS-канала, т.е. более подробное IMAGE - Логотип для представления канала (необязательный, но желательный) URL - Ссылка на логотип TITLE - заменяющий текст для логотипа LINK - Ссылка для перехода при щелчке по изображению ITEM - Отдельный заголовок для каждой новости TITLE - Название новости LINK - Ссылка на страничку, содержащую соответствующую новость DESCRIPTION - Краткое описание новости PUBDATE - Дата публикации новости

8 RSS-агрегаторы RSS-агрегатор необходим для того, чтобы подписываться на RSS-ленты и читать их. Все RSS-агрегаторы можно поделить на три основных категории: RSS технология дает возможность Web-издателям оперативно доставлять информацию пользователям при помощи RSS-лент (RSS-фидов). Владельцы Web-сайтов, используя RSS, могут без усилий публиковать на собственных Web-страницах информацию с других сайтов. RSS-ленты можно добавлять для индексирования и поиска в различные RSS- поисковые системы (Feedster.com, Assimilatethe.net). При этом содержимое ваших RSS-лент будет отображено на сторонних Web-сайтах, и другие пользователи смогут быстро и эффективно находить Вашу информацию. Windows RSS-агрегаторы (аналогичны почтовым клиентам) Web-агрегаторы (встроенные в Web-узлы) Internet-браузеры со встроенной RSS-функцией

9 Пример агрегатора для rss1.xml Агрегатор написан для использования на клиентской машине с JavaScript и стандартным MS парсером.

10 Результат работы агрегатора agregator1.htm В файле агрегатора заменена строка xmlDoc.load("rss1.xml") на – xmlDoc.load(" Чтение новостей сторонних RSS-фидов

11 Пример RSS-ленты с рисунками (rss2.xml)

12 Агрегатор для чтения всей ленты rss2.xml

13 Результаты работы агрегатора agregatorListImage с лентой rss2.xml

14 Заключение Зарегистрировать свои RSS-фиды можно, например, на узлах Сегодня все ведущие информационные сайты используют RSS-технологии. В отличие от подписки, вам не надо оставлять свой адрес администраторам сайтов (избежание спама) Всё большую популярность RSS-технологии приобретают у владельцев Web- ресурсов. Системы синдикации Internet-новостей решают проблему нахождения необходимой информации, но не осуществляют её анализ (Text Mining и онтологии) – автоматические дайджесты, новые понятия и их взаимосвязь, разнообразные рейтинги…