Cоздание российского сегмента глобальной инфраструктуры LCG (LHC Computing GRID) Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (Дубна, ОИЯИ) RELARN июня 2003 года Санкт-Петербург
Five Emerging Models of Networked Computing From The Grid Distributed Computing –|| synchronous processing High-Throughput Computing –|| asynchronous processing On-Demand Computing –|| dynamic resources Data-Intensive Computing –|| databases Collaborative Computing –|| scientists Ian Foster and Carl Kesselman, editors, The Grid: Blueprint for a New Computing Infrastructure, Morgan Kaufmann, 1999,
CERN
The Large Hadron Collider Project 4 detectors CMS ATLAS LHCb Storage – Raw recording rate 0.1 – 1 GBytes/sec Accumulating at 5-8 PetaBytes/year 10 PetaBytes of disk Processing – 200,000 of todays fastest PCs
Online system Multi-level trigger Filter out background Reduce data volume Online reduction 10 7 Trigger menus Select interesting events Filter out less interesting level 1 - special hardware 40 MHz (40 TB/sec) level 2 - embedded processors level 3 - PCs 75 KHz (75 GB/sec) 5 KHz (5 GB/sec) 100 Hz (100 MB/sec) Data recording & offline analysis
LHC Challenges: Scale Data written to tape ~10 Petabytes/Year and UP (1 PB = 10**9 MBytes) Processing capacity TIPS and UP (1 TIPS = 10**6 MIPS) Typical networks Few Gbps Per Link Lifetime of experiment 2-3 Decades Users ~ 5000 physicists Software developers ~ 300 (Four Experiments)
MONARC project regional group LHC Computing Model evolving CERN Tier3 physics department Desktop Germany UK France Italy CERN Tier1 USA Tier1 The opportunity of Grid technology Tier2 Uni a Lab c Uni n Lab m Lab b Uni b Uni y Uni x Russia
Большой адронный коллайдер (БАК) потоки данных, этапы обработки и анализа ГБ/сек Архивное хранение ГБ/сек Интерактивный физический анализ Подготовка данных для анализа Подготовка данных для анализа детектор Суммарные данные по событию сырые данные Реконструкция события Реконструкция события Моделиро- вание событий Моделиро- вание событий Данные для анализа (выделенные по физ. каналам) Отбор событий и первичная реконструкция Отбор событий и первичная реконструкция ~100 MБ/сек 1-6 ПБ/год тысячи ученых 200 TБ/год ПБ/год 200 MБ/сек РИВК БАК 5-10%
Некоторые Grid Проекты NameURL/SponsorFocus European Union (EU) DataGrid datagrid.org European Union Создание реальной Grid для различных приложений в области Физики Высоких Энергий, Биоинформатики и ООС. EU DataTAG Project between European and US Grids CrossGridEuropean Union EuroGrid, Grid Interoperability (GRIP) European Union Создание технологий для удалённого доступа к суперкомпьютерам и их приложениям Globus Projectglobus.org DARPA, DOE, NSF, NASA, Msoft Исследование в области Grid технологий; создание и тех. поддержка Globus Toolkit; приложения. GridPPgridpp.ac.uk U.K. eScience Создание реальной Grid в Англии для научных исследований
Некоторые Grid Проекты NameURL/Spons or Focus Grid Physics Network griphyn.org NSF Cоздание технологий для анализа данных в физике: ATLAS, CMS, LIGO, SDSS International Virtual Data Grid Laboratory ivdgl.org NSF Создание реальной международной Grid для экспериментов над Grid технологиями и приложениями TeraGridteragrid.org NSF Научная инфраструктура в США, связывающая 4 организации 40 Gb/s Particle Physics Data Grid ppdg.net DOE Science Создание реальной Grid для анализа данных в Физике Высоких Энергий и Ядерной физике
The 13.6 TF TeraGrid: Computing at 40 Gb/s HPSS 5 UniTree External Networks Site Resources NCSA/PACI 8 TF 240 TB SDSC 4.1 TF 225 TB CaltechArgonne TeraGrid/DTF: NCSA, SDSC, Caltech, Argonne
U.S. PIs: Avery, Foster, Gardner, Newman, Szalay iVDGL: International Virtual Data Grid Laboratory Tier0/1 facility Tier2 facility 10 Gbps link 2.5 Gbps link 622 Mbps link Other link Tier3 facility
NL SURFnet Geneva UK SuperJANET4 Abilene ESNET MREN It GARR-B GEANT NewYork STAR-TAP STAR-LIGHT DataTAG project
EDG overview : structure, work packages The EDG collaboration is structured in 12 Work Packages WP1: Work Load Management System WP2: Data Management WP3: Grid Monitoring / Grid Information Systems WP4: Fabric Management WP5: Storage Element WP6: Testbed and demonstrators WP7: Network Monitoring WP8: High Energy Physics Applications WP9: Earth Observation WP10: Biology WP11: Dissemination WP12: Management } } Applications
EDG middleware architecture Globus hourglass Current EDG architectural functional blocks: –Basic Services ( authentication, authorization, Replica Catalog, secure file transfer,Info Providers) rely on Globus 2.0 (GSI, GRIS/GIIS,GRAM, MDS) OS & Net services Basic Services High level GRID middleware LHC VO common application layer Other apps ALICEATLASCMSLHCb Specific application layer Other apps GLOBUS 2.х GRID middleware
DataGrid Architecture Collective Services Information & Monitoring Replica Manager Grid Scheduler Local Application Local Database Underlying Grid Services Computing Element Services Authorization Authentication & Accounting Replica Catalog Storage Element Services Database Services Fabric services Configuration Management Configuration Management Node Installation & Management Node Installation & Management Monitoring and Fault Tolerance Monitoring and Fault Tolerance Resource Management Fabric Storage Management Fabric Storage Management Grid Fabric Local Computing Grid Grid Application Layer Data Management Job Management Metadata Management Object to File Mapping Logging & Book- keeping
LHC Computing Grid Project
Fundamental Goal of the LCG To help the experiments computing projects get the best, most reliable and accurate physics results from the data coming from the detectors Phase 1 – prepare and deploy the environment for LHC computing Phase 2 – acquire, build and operate the LHC computing service
Структура программного обеспечения LCG 1) В качестве основы промежуточного программного обеспечения выбран набор инструментальных средств Globus 2) Пакет VDT (Virtual Data Toolkit), разработанный в американских GRID проектах: PPDG – The Particle Physics Data Grid, GriPhyN – Grid Physics Network, и iVDGL – the International Virtual Data Grid Laboratory. Этот пакет представляет собой набор надстроек над библиотекой инструментальных средств GLOBUS, позволяющих реализовывать распределенную вычислительную систему, но практически без каких либо GRID сервисов. Он также включает в себя пакет Condor/Condor-G, который используется в качестве распределенной системы запуска заданий в пакетном режиме. 3) Набор сервисов и служб, разработанных в проекте EU DataGRID: ресурс-брокер (обеспечивающий сервис по распределению заданий), информационная служба, replica catalog и др.
Collaborating Computer Centres Building a Grid The virtual LHC Computing Centre Grid Alice VO CMS VO
DataGrid Architecture Collective Services Information & Monitoring Replica Manager Grid Scheduler Local Application Local Database Underlying Grid Services Computing Element Services Authorization Authentication & Accounting Replica Catalog Storage Element Services Database Services Fabric services Configuration Management Configuration Management Node Installation & Management Node Installation & Management Monitoring and Fault Tolerance Monitoring and Fault Tolerance Resource Management Fabric Storage Management Fabric Storage Management Grid Fabric Local Computing Grid Grid Application Layer Data Management Job Management Metadata Management Object to File Mapping Logging & Book- keeping
Освоена технология создания информационных серверов GIIS, собирающих информацию о локальных вычислительных ресурсах и ресурсов по хранению данных (создаваемых GLOBUS службой GRIS на каждом узле распределенной системы) и передающих эту информацию в динамическом режиме в вышестоящий сервер GIIS. Таким образом, освоена и протестирована иерархическая структура построения информационной службы GRIS-GIIS. Организован общий информационный сервер GIIS (ldap://lhc-fs.sinp.msu.ru:2137), который передает информацию о локальных ресурсах российских институтов на информационный сервер GIIS (ldap://testbed1.cern.ch:2137) европейского проекта EU DataGRID.
Russian National GIIS SRCC MSU, KIAM and TCSS participate only in Russian DataGrid project and are not involved in CERN projects. dc=ru, o=grid Country-level GIIS lhc-fs.sinp.msu.ru:2137 dc=ru, o=grid Country-level GIIS lhc-fs.sinp.msu.ru:2137 dc=sinp, dc=ru, o=grid SINP MSU, Moscow dc=sinp, dc=ru, o=grid SINP MSU, Moscow dc=srcc, dc=ru, o=grid SRCC MSU, Moscow dc=srcc, dc=ru, o=grid SRCC MSU, Moscow dc=itep, dc=ru, o=grid ITEP, Moscow dc=itep, dc=ru, o=grid ITEP, Moscow dc=jinr, dc=ru, o=grid JINR, Dubna dc=jinr, dc=ru, o=grid JINR, Dubna dc=kiam, dc=ru, o=grid KIAM, Moscow dc=kiam, dc=ru, o=grid KIAM, Moscow CERN Top-level WP6 GIIS testbed001.cern.ch:2137 CERN Top-level WP6 GIIS testbed001.cern.ch:2137 dc=ihep, dc=ru, o=grid IHEP, Protvino dc=ihep, dc=ru, o=grid IHEP, Protvino dc=tcss, dc=ru, o=grid TCSS, Moscow dc=tcss, dc=ru, o=grid TCSS, Moscow dc=?, dc=ru, o=grid St. Petersburg dc=?, dc=ru, o=grid St. Petersburg
CEWN lhc01.sinp.msu.ru lhc02.sinp.msu.ru НИИЯФ МГУ SE lhc03.sinp.msu.ru Пример использования EDG middleware (CMS VO) SINP MSU RB+ Information Index lhc20.sinp.msu.ru Пользователь lhc04.sinp.msu.ru ЦЕРН lxshare0220.cern.ch Падуя grid011.pd.infn.it
В НИИЯФ МГУ создан Сертификационный центр (Certification authority, СА) для российского сегмента. Сертификаты этого центра принимаются всеми участниками европейского проекта EU DataGRID. Разработана схема подтверждения запросов на сертификаты с помощью расположенных в других организациях Регистрационных центров (Registration authority, RC), заверяющих запросы пользователей электронной подписью с помощью сертификата GRID. Разработаны программы постановки и проверки электронной подписи, а также пакет программ для автоматизации работы Сертификационного центра. Предложенная схема CA+RC и пакет программ приняты в ЦЕРНе и других участниках европейского проекта EU DataGRID.
Инсталлирована и протестирована программа репликации файлов и баз данных GDMP (GRID Data Mirroring Package), которая создана для выполнения удаленных операций с распределенными базами данных. Она использует сертификаты GRID и работает по схеме клиент-сервер, т.е. репликация изменений в базе данных происходит в динамическом режиме. Сервер периодически оповещает клиентов об изменениях в базе, а клиенты пересылают обновленные файлы с помощью команды GSI- ftp. Текущая версия GDMP работает с объектно-ориентированнной базой данных Objectivity DB, а также создается версия с динамической репликацией обычных файлов. Программа GDMP активно используется для репликации в ЦЕРН распределенной базы смоделированных данных, создаваемой в ОИЯИ (Дубна), НИИЯФ МГУ и других институтах по физике высоких энергий для эксперимента LHC-CMS. Программа GDMP рассматривается в качестве GRID стандарта для репликации изменений в распределенных базах данных.
В ОИЯИ выполнен комплекс работ по мониторингу сетевых ресурсов, узлов, сервисов и приложений. Сотрудники ОИЯИ принимают участие в развитии средств мониторинга для вычислительных кластеров с очень большим количеством узлов ( и более), используемых в создаваемой инфраструктуре EU DataGRID. В рамках задачи Monitoring and Fault Tolerance (Мониторинг и устойчивость при сбоях) они участвуют в создании системы корреляции событий (Correlation Engine). Задача этой системы - своевременное обнаружение аномальных состояний на узлах кластера и принятие мер по предупреждению сбоев. С помощью созданного прототипа Системы корреляции событий (Correlation Engine) ведется сбор статистики аномальных состояний узлов на базе вычислительных кластеров ЦЕРН. Производится анализ полученных данных для выявления причин сбоев узлов. На втором этапе предусмотрено расширение прототипа Correlation Engine с учетом полученных результатов и испытание системы автоматизированного предупреждения сбоев на практике. Этот прототип установлен на вычислительных кластерах в ЦЕРН и ОИЯИ, где производится сбор статистики аномальных состояний узлов.
Задача массовой генерации событий для CMS на LHC (как это было) RefDB at CERN Environment IMPALA BOSS GK batch manager NFS jobs mySQL DB N1N2 CMKIN job executer Nn UI
Задача массовой генерации событий для CMS на LHC (предложенное решение) GRID Environment DOLLY BOSS jobs mySQL DB RefDB at CERN CE batch manager NFS WN1WN2 CMKIN IMPALA WNn UI EDG-RB UI job executer job
Useful References: GLOBAL GRID FORUM: European GRID FORUM: PPDG: IVDGL : EU DATA GRID Project: DATATAG Project: GLOBUS Project: GriPhynProject: CrossGRID : Condor: TERAGRID Project: RIVK-BAK Project: LCG «Ope n Systems» Journal: