Соловьев Владимир Михайлович
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети В 2009 г. будет создана полномасштабная система распределенного сбора, хранения, обработки и управления потоками научных и технологических данных национальной нанотехнологической сети (ННС). Основу масштабируемой распределенной системы данных (РСД) составят пять онлайновых центров данных (ЦД) ННС, объединенных широкополосными каналами связи. В дальнейшем к этим ЦД, для наращивания объемов хранимой информации, могут подключаться географически удаленные ЦД и серверы, реализующие grid-сервисы хранения.
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Центр данных (ЦД) - это data grid cluster, выполненный на десяти серверах, подключенных через коммутатор к ННС. Конструктив ЦД представляет собой автономную стойку, питающуюся через источник бесперебойного питания. На серверах установлена операционная система Scientific Linux CERN 4.7, поддерживающая распределенную файловую систему. Для реализации grid-сервисов хранения на серверах установлен программный комплекс gLite 3.1. Аналогичное ПО должно стоять и на отдельных серверах, реализующие grid-сервисы хранения. Кластер установленный в РНЦ «Курчатовский институт» Кластер установленный в Саратовском государственном университете
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети В наноиндустрии при проведении уникальных и дорогостоящих экспериментов требуется долговременно хранить очень большие объемы «сырых» необработанных экспериментальных данных в десятки и сотни Тбайт. Распределенному хранилищу данных соответствует многоуровневая архитектура, содержащая уровень интерфейсов пользователя для управления данными, уровень программного интерфейса для grid- сервисов сбора, обработки и управления потоками данных, и ресурсный уровень.
Ресурсный уровень хранилища данных (РСД) Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Для объединения всех элементов хранения данных (SE) в единое хранилище, используется grid- сервис DPM (Disk Pool Manager) В РСД совокупность вычислительных ресурсов (Computing Element, CE) и элементов хранения данных (Storage Elements, SE) cосредоточена на сайте (Site)
Иерархическая модель предоставления информации о grid-сервисах в РСД: CE, SE GRIS GIIS BDII Ресурсный уровень хранилища данных (РСД продолжение) Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Сервис поддерживается по протоколу Lightweight Directory Access Protocol (LDAP) На каждом сайте информационные провайдеры GRIS (Grid Resource Information Server) собирают информацию о grid-сервисах CE и SE. Эта информация аккумулируется в коллекторах информации сайтов GIIS (Grid Index Information System) и сервисах BDII (Berkeley Database Information Index). На самом верхнем уровне находится grid-сервис top-BDII, имеющий информацию со всех сайтов.
Ресурсный уровень хранилища данных (РСД продолжение) Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Получение данных в РСД с помощью сервиса SRM (Storage Resource Manager) LFN - Logical File Name, логическое имя файла, создаваемое пользователем для его идентификации в РСД. LFC - Large Hydron Collider Computing Grid File Catalogue, сервис определяющий местоположения файлов в РСД. GUID - Globally Unique Identifier, внутренний (машинный) идентификатор элемента данных, соответствующий LFN. ACL - Access Control List, списки управления доступом к данным. SURL - Site Uniform Resource Locator, определитель физического местоположения реплики элемента данных (SE) в РСД. TURL- Transfer Uniform Resource Locator, идентификатор транспорта, определяющий место и протокол, получения файла. Каждый сайт поддерживает сервис управления хранением данных (SRM) – общий интерфейс к устройствам хранения
организует взаимодействие с цифровой библиотекой для создания цифровых объектов, поиска данных и управления потоками данных в РСД. Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Интерфейс пользователя для управления данными ( клиент РСД) Screen shots применения клиента РСД при работе с данными Клиент реализует следующие основные сервисы: организует взаимодействие пользователя ННС с хранилищем данных по протоколу grid-ftp; организует доступ к grid-сервисам на основе цифровых сертификатов;
Клиент предназначен для организации web-доступа к РСД. В шести разработанных версиях реализованы различные возможности: от выполнения всех сервисов на стороне клиента до выполнения всех сервисов на сервере. Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Интерфейс пользователя для управления данными ( клиент РСД продолжение)
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД Для работы с цифровыми объектами в РСД разработана подробная инструкция для пользователей Screen shots применения клиента РСД при работе с цифровой библиотекой
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД (продолжение) Интеграция клиента и Web-сервисов
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД (продолжение) Работа с цифровой библиотекой
Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Управление цифровыми объектами в РСД (продолжение) Работа с базами данных в РСД В РСД содержится вся информация о базах данных (БД) ННС, реплики БД и условия доступа к БД. Пользователь, используя эту информацию, через ННС соединяется с нужным сервером базы данных, используя клиент БД. Первый вариантВторой вариант Хранилище данных содержит специальные «облачные» приложения (сервисы) работы с базами данных (БД) ННС, располагающимися в РСД. Цифровая библиотека играет роль «посредника» между БД и соответствующим приложением.
В результате выполнения работы пользователь получает масштабируемое прозрачное хранилище гетерогенных данных с гарантированным качеством сервиса. В полномасштабном распределенном хранилище данных обеспечивается требуемый уровень защиты, сохранность данных, необходимое количество реплик, высокая скорость доступа к данным и унифицированный механизм обмена данными разного типа (файлы, таблицы, массивы, базы данных и т.д.). Хранилище совместимо с вычислительными сервисами grid-инфраструктуры и поддерживает долговременное хранение, поиск и удобный доступ к данным. Полномасштабное распределенное хранилище управляет жизненным циклом данных, включая создание материалов, передачу, сохранение и доступ ко всем цифровым материалам. Полномасштабное распределенное хранилище данных национальной нанотехнологической сети Результаты работы
Спасибо за внимание Докладчик – Владимир Михайлович Соловьев Е-Mail: Телефон: (8452)