июль 12© Инфосистемы Джет Открытые стандарты обработки документов. SGML и XML Борис Тоботрас, «Инфосистемы Джет»
июль 12© Инфосистемы Джет Почему SGML? Проблемы с обработкой документов: множество различных закрытых несовместимых форматов постоянная смена форматов и приложений трудности автоматической генерации и обработки документов непереносимость документов
июль 12© Инфосистемы Джет Что такое SGML? международный стандарт разметки документов (ISO 8879:1986) метаязык для создания языков разметки - приложений SGML (например, HTML) документы хранятся в текстовом виде документы состоят из текста и элементов разметки структура документа строго определена
июль 12© Инфосистемы Джет Что можно в SGML? один источник - много выходных форматов Web, связанные документы управление документами, версии, контекстный поиск управление данными
июль 12© Инфосистемы Джет В чем суть SGML? Отличия SGML разделение информации и представления типизированные документы выявление структуры информации управление данными связывание документов
июль 12© Инфосистемы Джет Информация и представление описательная разметка вместо процедурной жесткая структура документа разные способы обработки документа стили
июль 12© Инфосистемы Джет Типизированные документы понятие DTD анализаторы какие бывают DTD –универсальные –специализированные как сделать свой DTD? –элементы и их структура –атрибуты
июль 12© Инфосистемы Джет Структура информации структурные элементы обработка текста в контексте структуры Пример: Книга Глава Раздел параграф таблица
июль 12© Инфосистемы Джет Управление данными смысловые выделения обработка текста в контексте содержания Пример: Техническое задание Задачи разработки Раздел Тех. требования Раздел
июль 12© Инфосистемы Джет Связывание документов гарантия целостности двусторонние связи связи «один-ко-многим» и «многие-ко- многим» связи с произвольными точками документа Пример: –«ссылка на 3-ю главу 4-й части Руководства Администратора»
июль 12© Инфосистемы Джет Преимущества SGML Продуктивность Единая стилистика Повторное использование Долговечность информации Разделяемость Мобильность Гибкость
июль 12© Инфосистемы Джет SGML и другие HTML –уклон в сторону представления –размытость стандарта –нет возможностей расширения MS Word –закрытый –слабые средства автоматизации –нет смысловой и структурной разметки TeX –сложный, низкоуровневый –плохо экспортируется в Word
июль 12© Инфосистемы Джет Как это делается DTD Стили Редактор Поисковая машина Управление версиями SGML процессор Документы HTML PDF RTF
июль 12© Инфосистемы Джет Как это делается SGML-редакторы –ArborText ADEPT*Editor, SoftQuad Author/Editor, Xemacs+psgml, Corel WordPerfect/SGML SGML-процессоры –SP, CoST, Jade, OmniMark, Balise,... Стили –DSSSL (Jade), XSL, CSS,... Выходные форматы –HTML, RTF, TeX, PostScript, PDF,...
июль 12© Инфосистемы Джет Xemacs
июль 12© Инфосистемы Джет Author/Editor
июль 12© Инфосистемы Джет Контроль версий Текстовые файлы CVS/RCS diff Web-интерфейс
июль 12© Инфосистемы Джет Групповая работа над документами Внешние объекты (документы, рисунки...) Параллельная работа Библиотека иллюстраций Пакетная обработка (сборка документа)
июль 12© Инфосистемы Джет Поиск в документах Текстовые файлы Полнотекстовый поиск Поиск в контексте (структурном и смысловом) glimpse, CGI, Web
июль 12© Инфосистемы Джет Генерация Web-сервера Общее дерево сервера в SGML Мастер-документ Взаимные ссылки Средства верификации Единый стиль
июль 12© Инфосистемы Джет XML SGML, ориентированный на Web Упрощенный синтаксис Не обязательно наличие DTD Простые анализаторы
июль 12© Инфосистемы Джет XML vs. HTML Автоматизация формирования страниц Возможность экспорта с WWW Точность поиска Неограниченное количество элементов Что такое XML? eXtensible Markup Language XSL и XLL - дополнение к XML
июль 12© Инфосистемы Джет Инфосистемы Джет Тел , Борис Тоботрас,