ЯЗЫКИ РАЗМЕТКИ введение
Категории информационных ресурсов Данные – сведения о сущностях предметной области, их свойствах и связях с другими сущностями. Метаданные – данные о данных, которые могут описывать не только свойства данных, но и свойства информационной системы в целом, ее отдельных механизмов и их функций, поддерживаемых технологий, пользователей и др. (например, метаданные в СУБД – словарь данных). Основное назначение метаданных – обеспечение интеграции информационных ресурсов и эффективного поиска. Стандарты метаданных необходимы для обеспечения мобильности приложений обработки данных.
Представление информационных ресурсов Документ – один из основных способов представления информационных ресурсов.
Язык разметки Язык разметки (markup language) – средство описания данных и метаданных, хранящихся в документе. Алфавит языка разметки включает в себя специальные символы – теги (tags), позволяющие отличать в документе описание метаданных от описания данных. Семантика метаданных (и соответственно, тегов) языка разметки может определять представление или/и семантику данных в документе. В соответствии с этим различают языки форматной разметки и языки контентной разметки.
Язык форматной разметки (Layout Markup или Presentation Markup) Язык форматной разметки обеспечивает возможность формирования представления размечаемых документов для их воспроизведения на мониторе компьютера или в твердой копии.
Язык форматной разметки (Layout Markup или Presentation Markup) Примеры языков форматной разметки: TEX, RTF (Rich Text Format), PDF (Portable Document Format), HTML (Hyper Text Markup Language).
Язык контентной разметки (Content Markup) Язык контентной разметки обеспечивает разметку, определяющую структуру документа.
Язык контентной разметки (Content Markup) Примеры языков контентной разметки: SGML (Standard Generalized Markup Language). Стандартный обобщенный язык разметки утвержден в качестве стандарта ISO 8879:1986 в 1986 г. Представляет со бой метаязык, т.е. средство формального описания прикладных языков разметки, предназначенных для кодирования структурированных документов. В 1992 году Языки HTML и XML формализованы с помощью SGML. XML (eXtensible Markup Language). Метаязык разметки, созданный на базе SGML в 1998 г. По сравнению с SGML более прост и ориентирован на использование в Web. На основе XML создано большое количество специализированных языков размет ки, например: MathML (математический контент), CML (химический контент).
Язык разметки гипертекста HTML
Язык HTML Элемент данных – структурная единица HTML-документа. Элементы данных могут следовать друг за другом, вкладываться друг в друга, но не могут пересекаться. HTML-документ представляет собой иерархию элементов данных. Тег – метка, указывающая на начало/завершение элемента данных. Допустимы непарные теги (начальные, не имеющие парных завершающих). Атрибут – именованный текст, уточняющий семантику элемента данных. Регистр символов в написании тегов и атрибутов не имеет значения. Список тегов и их атрибутов ограничен стандартом языка, пользовательские теги и атрибуты не допускаются. Гиперссылка – бинарная связь между документами и/или их составными частями.
Язык HTML Язык HTML позволяет интегрировать в HTML- документы информационные ресурсы нетекстовой природы (графика, аудио, видео, скрипты, исполнение программ на web-сервере и Java-аплетов на стороне клиента). Достоинства: простота освоения человеком и реализации инструментальных средств создания и просмотра документов, первый и единственный для своего времени язык разметки для представления данных Web. Недостатки: отсутствие развитых средств разметки структуры документа, ограниченность набора тегов.
Язык каскадных таблиц стилей CSS Язык CSS (Cascading-Style Sheets) – язык управления способом форматирования HTML- и XML-документов для отображения их web-обозревателями и др. прикладными программами. Язык предназначен для описания таблиц стилей представления данных документа. Таблицы стилей либо встраиваются в документ (тег STYLE), либо оформляются как отдельный ресурс, ссылка на который имеется в документе (тег LINK). Стиль представляет собой совокупность селектора и декларации форматирования. Селектор определяет форматируемую порцию документа. Декларация форматирования – набор пар "свойство-значение", позволяющий задать формат страниц, текста, шрифтов, таблиц и др.
Язык каскадных таблиц стилей CSS Пример: A {color:red;} A SPAN {color: blue;} Пример ссылки
XML-технологии
Язык SGML требует парности тегов, различает регистр тегов и атрибутов, не запрещает создание пользовательских тегов и атрибутов, требует наличие спецификации типа документа.
Спецификация типа документа (Document Type Definition) Спецификация типа документа – спецификация структуры документа, т.е. определение набора возможных разметок документов описываемого типа.
Спецификация типа документа (Document Type Definition) Список может иметь заголовок, список непуст. Заголовок списка – текст Элемент списка – непустой набор абзацев Абзац – текст.
Достоинства: мощный метаязык разметки, позволяющий создавать языки разметки для различных предметных областей. Недостатки: большая сложность (по количеству, синтаксису и семантике объектов языка) затрудняет использование SGML в качестве языка разметки. Язык DSSSL (Document-Style Semantics and Specification Language) – язык управления способом форматирования SGML-документов для отображения их web-обозревателями и др. прикладными программами. В основе DSSSL лежит механизм таблиц стилей. Послужил источником идей в разработке языка CSS.
Язык XML В отличие от языка SGML более прост, не требует наличия спецификации типа документа. Корректный (well-formed) XML-документ – документ, соответствующий спецификации стандарта XML безотносительно к конкретной спецификации DTD. Допустимый (valid) XML-документ – корректный XML-документ, строго соответствующий спецификации DTD, заявленной в нем.
Язык XML
Спецификация XML DTD XML DTD описывает допустимые структуры XML-документов указываемого типа как иерархию элементов данных определенных типов. Для каждого элемента данных указывается: вид содержания: отсутствует, символьная строка, список вложенных элементов данных или символьная строка вместе со списком вложенных элементов данных; обязательность/факультативность; список атрибутов с указанием категории и типа значений каждого атрибута: Категории атрибутов элемента данных: обязательный, необязательный или фиксированный (имеющий значение по умолчанию). Типы значений атрибутов элемента данных: строковый, перечислимый, идентифицирующий.
XML DTD Пример:
Примеры стандартизированных XML DTD CML (Chemical Markup Language), MathML, DTD научных коллекций XML-документов в Библиотеке Конгресса США.
Расширяемый язык таблиц стилей XSL Расширяемый язык таблиц стилей XSL (eXtensible Stylesheet Language) – язык управления способом форматирования XML-документов для отображения их web- обозревателями и др. прикладными программами. В отличие от языка CSS, разработан специально для использования в среде XML и использует синтаксис XML. Язык XSL, помимо обеспечения форматирования XML- документов, позволяет описывать трансформацию XML- документа в документ с другой разметкой и форматированием (например, трансформация XML- документа в HTML-документ с описанием таблиц стилей на языке CSS). Данная возможность специфицирована в стандарте языка XSL и рассматривается как самостоятельный язык XSLT (XSL Transformations).
Язык XHTML Язык XHTML (eXtensible Hyper Text Markup Language) – расширяемый язык разметки гипертекста. Один из стандартов платформы XML, предназначенный для обеспечения возможности использования на новой платформе Web уже имеющихся информационных ресурсов HTML. Стандарт XHTML представляет собой DTD для языка HTML. Имеется три варианта спецификации XML DTD документов XHTML, с различной степенью полноты воспроизводящих средствами XML функции стандарта языка HTML (строгий, переходный, с фреймами).
XML Schema Стандарт XML Schema описывает язык XML Schema Definition Language (или XML Schema) определения схемы для XML-документов. Данный язык является альтернативой XML DTD. Основные XML Schema отличия от XML DTD – более развитый набор типов значений атрибутов для элементов данных и возможность дополнять повторно используемую схему новыми спецификациями.
XML Schema : xml - документ Tove Svendson Ragnhildvei Stavanger Norway Empire Burlesque Hide your heart
XML Schema : xml - документ …