Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития.
Начальная постановка задачи Проект создания Цифровой библиотеки Ярославского региона ориентирован на решение информационных задач учреждений культуры, образования и науки и развивается на протяжении нескольких лет. Изначально предполагалось, что в цифровой библиотеке (ЦБ) будет описано достаточно большое количество артефактов - физических объектов (предметов, документов, картин, персон, памятников архитектуры и т.д.) реального мира. Все объекты связаны друг с другом различными отношениями. При этом одним из основных условий было то, что описание артефактов изначально имеет нечеткую структуру. Т.е. формально полное описание структуры большинства объектов неизвестно или может меняться с течением времени. Более того, описание структуры может меняться уже после занесения некоторой части данных из предметной области. То же самое можно сказать и про связи между объектами. В проекте принимали и принимают участие специалисты ведущих учреждений культуры, образования, науки.
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. Ярославский Государственный Университет Библиотек а Ярославский историко- архитектурный музей- заповедник Ярославский областной архив Областная научная библиотека им. Некрасова Н.А. Ярославский художественный музей ИНТЕРНЕТ ЦЕНТР Центральное хранилище данных Другие музей, архивы, библиотеки региона Структура системы
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. Общее описание системы Согласно поставленной задаче были выбраны следующие принципы построения ЦБ и организации хранения данных. Цифровая библиотека содержит метаописания артефактов в виде классов. Каждый класс определяется набором атрибутов и методов. Возможно наследование классов, объединяющее их в иерархии отношение родитель->наследник. Данные размещаются в экземплярах классов – объектах электронного каталога (ЭК). Объект содержит информацию о некоторой реальной сущности, согласно правилам, заданным описанием его класса. Объединение объектов электронного каталога в единую логическую структуру осуществляется при помощи связей. Связи могут иметь различный тип и определяться на различных уровнях (объект-объект, атрибут-объект, атрибут – атрибут и т.д.). Также на системном уровне поддерживается набор различных сервисов - интерфейсы доступа к данным, система авторизации и т.д. На основе этой цифровой библиотеки был выполнен ряд проектов. В настоящее время цифровая библиотека региона находится в постоянном развитии и модернизации. Вместе с тем, уже можно, на наш взгляд, подвести первые итоги практической реализации и наметить основные пути дальнейшего развития. Метаописания Class A Class B Class C Class D Class F Каталог объектов Object 1 Object 2 Object 4 Object 3
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. Cеть объектов Специфика задачи создания ЦБ предполагала наличие между объектами большого количества связей. Поэтому на начальном этапе реализации проекта была выбрана следующая схема построения каталога. Каждый объект ЭК мог иметь связь с любым другим объектом. Причем эти связи (между объектами) определялись не на уровне метаданных, а на уровне каталога объектов. Для обеспечения универсальных методов доступа к данным и уменьшения накладных расходов на поддержку ЭК представилось разумным наложить некоторые ограничения на возможные определения классов. Основное из таких ограничений - невозможность атрибутов объектного типа. Предлагалось заменить их отношениями объектов типа главный-подчиненный. Таким образом, ЭК каталог был реализован в виде некоторой сети равноправных объектов. Точкой входа в общем случае мог служить произвольный объект сети. Преимуществом такого подхода являлся большой универсализм и широкие возможности по моделированию данных произвольной структуры. Каталог объектов Картина 1 Автор Место хранения Стиль Музей 1 Картины Авторы Автор 1 Работы Выставлен в музеях
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. От сети объектов к иерархии В процессе опытной эксплуатации выяснились существенные недостатки: Пользователи системы испытывали значительные трудности при навигации по сети объектов. Весьма существенными оказались трудности по администрированию объектов и определению и модификации связей объекта при его создании или изменении его атрибутов. Особенно это стало заметно, когда количество объектов в каталоге превысило значение 500. Фактически ЭК становился неуправляем. Т.е. исходная схема, несмотря на свою универсальность, к сожалению оказалась мало пригодной для практической реализации и использования. Подходы к организации связей между объектами были пересмотрены. Все объекты были объединены в жесткую иерархию. Электронный каталог при этом стал представлять собой дерево, в узлах которого находятся объекты, связанные между собой отношениями типа главный-подчиненный. Все остальные связи организуются при помощи ссылок, которые могут содержать атрибуты каждого объекта каталога на другие объекты и/или на их атрибуты. В таком виде ЭК каталог функционирует до сих и пор. Каталог объектов Object 1 Object 2 Object 3 Object 4 Object 2 Object 3 Object 4 Ссылка 1 Ссылка 2
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. От иерархии – к лесу объектов К сожалению, применяющийся подход имеет ограничения связанные с жесткой иерархией расположения объектов. Практика использования ЦБ показала, что для различных пользователей и для различных задач необходимо различное преставление данных, в виде различных иерархических структур объектов, при этом использование связей на уровне ссылок атрибутов явно недостаточно. Решение этой задачи и дальнейшее развитие ЭК предполагается в проекте с помощью модификации иерархической схемы. Предполагается, что в некоторую основную иерархию объектов электронного каталога будет встраиваться каждый вновь создаваемый объект. Это позволит отделить этап ввода данных от этапа моделирования связей между объектами и потерь информации при ошибках моделирования связей. Вместе с тем, решено создавать виртуальные каталоги объектов для конкретного пользователя. Каждый объект может иметь некоторый набор связей с другими объектами, которые не отражаются в основной иерархии и описываются при его создании или модификации. Эти связи и организуют собственно сеть объектов.
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. Повторное использование данных Важной задачей, стоявшей в начале разработки проекта, являлось обеспечение эффективного повторного использования данных, внесенных в объекты ЭК. Это связано с тем, что в ЦБ часто возникают задачи создания объектов, значения некоторого набора атрибутов которых совпадали бы со значениями соответствующих атрибутов другого объекта. Для решения этой проблемы была предложена концепция наследования данных Положим, есть набор объектов, являющихся экземплярами класса персона. Атрибуты этих объектов содержат полную информацию о персональных данных. Положим далее, что при реализации какого-либо проекта понадобилось определить классы сотрудник, пользователь библиотеки, исследователь, порожденные от класса персона и отличающиеся от него наборами дополнительных атрибутов. Положим далее, что экземпляры порожденных классов будут описывать некоторое подмножество людей уже описанных объектами класса персона. В этом случае для создания новых объектов разумно уже использовать имеющуюся информацию. Каталог объектов Иванов (class Персона) Метаописания Class Персона Class Сотрудник Class Читатель Иванов (class Сотрудник) Иванов (class Читатель)
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. Поиск данных В качестве дальнейшего развития поисковой машины предполагается создать систему поиска по предметным терминам. Для решения этой задачи необходимо создание справочников предметных терминов и/или различных тезаурусов. В качестве основы для них могут служить уже существующие поисковые таблицы для атрибутов объектов соответствующих классов. С переходом от одной иерархии объектов к их множеству представляется возможным использовать в качестве основы для своеобразного тезауруса набор связей между объектами. При этом тип связи может выступать в качестве типа отношения терминов. В качестве терминов может выступать атрибут или атрибуты заданного типа. Другим направлением развития ЭК должны стать работы по реализации поиска информации близкой к заданному объекту. Под понятием близость, в данном случае, понимается связь объекта (объектов) или его атрибута с другим объектом или его атрибутом через тезаурус или по определенному правилу через определенное количество связей в электронном каталоге. При этом могут учитываться связи только определенного типа, связи через объекты только заданного класса и т.д. Отметим, что для этого типа поиска основным тезаурусом выступает сам электронный каталог (совокупность объектов и связей между ними). Организация эффективного поиска на количестве шагов более одного в такой постановке задачи является, вообще говоря, нетривиальным делом. Предполагается, что алгоритм такого поиска будет основываться на индексировании связей объект-объект для каждого объекта каталога. Для оптимизации и снижения объема индекса предполагается анализ и выделение групп объектов (модулей), связанных небольшим количеством связей, с последующим индексированием связей между модулями и внутри модулей.
Цифровая библиотека Ярославского региона. Итоги работы, перспективы развития. Заключение Проект создания цифровой библиотеки Ярославского региона находится в постоянном развитии и модернизации. В ходе работ по созданию ЦБ накоплен достаточный опыт и определены пути дальнейшего развития системы. Это прежде всего модернизация и расширение структуры хранения объектов электронного каталога, модернизация поисковой системы, расширение функций обработки данных. Дальнейшие работы по развитию цифровой библиотеки предполагается вести в рамках выполнения проектов поддержанных РФФИ (грант ) и РГНФ (грант в).