Компьютерная система экспериментов Большого Адронного Коллайдера. ГРИД Юлия Андреева ЦЕРН В презентации использованы слайды коллег из IT отдела ЦЕРНа.

Презентация:



Advertisements
Похожие презентации
World LHC Computing Grid Юлия Андреева ЦЕРН В презентации использованы слайды коллег из IT отдела ЦЕРНа.
Advertisements

Архитектура LCG Ткачев Игорь ОИЯИ, Дубна, Россия 16 мая 2006 г.
В.И. Саврин, Совет информационых систем МГУ, 26 октября 2007 Суперкомпьютинг в физике высоких энергий, ядерной физике и космофизике всегда играл и играет.
А.Минаенко 17 мая 2005 ИФВЭ, Протвино Модель компьютинга эксперимента АТЛАС.
22 декабря 2006 г. 1Рабочее совещание ATLAS Проведение анализа данных ATLAS с применением программы GANGA Шиякова Мария Маринова НЭОВП - ATLAS.
Запуск коллайдера LHC 13 декабря 2009 года получены первые стокновения пучков при энергии 1.18 ТэВ ТэВ.
Большой Адронный Коллайдер МБОУ СОШ 1 Учитель физики – Архипова Ольга Леонидовна.
1 Министерство связи и массовых коммуникаций Российской Федерации «О создании и развитии инфраструктуры для высокопроизводительных вычислений с использованием.
Использование программы CompHEP для распределенных вычислений процессов столкновения элементарных частиц на коллайдерах высоких энергий Дипломная работа.
Компьютерные сети и Компьютерные сети и Интернет.
ЦЕРН Европейский Центр Ядерных Исследований. Научная школа для российских учителей физики в CERN г Логинова Т.А.
Перспективные информационно-сетевые технологии в космических исследованиях Институт космических исследований РАН, Телекоммуникационные сети и системы Москва,
На сегодняшний день в мире существует более 130 млн. компьютеров и более 80 % из них объединены в различные информационно- вычислительные сети - от малых.
Проектная работа на тему: «Компьютерные сети» Работу выполнили: студенты группы 6301 Айнатдинов Ильдар и Хаснутдинов Айдар.
Назначение и классификация компьютерных сетей Современное производство требует высоких скоростей обработки информации, удобных форм её хранения и передачи.
INFSO-RI Enabling Grids for E-sciencE ИТЭФ как партнер EGEE Оборудование, программы, каналы связи, перспективы. А.Селиванов, ИТЭФ,
Распределенная обработка информации Разработано: Е.Г. Лаврушиной.
РОССИЙСКАЯ АКАДЕМИЯ НАУК ПЕТЕРБУРГСКИЙ ИНСТИТУТ ЯДЕРНОЙ ФИЗИКИ им Б.П.Константинова Вычислительные мощности ПИЯФ для эксперимента АТЛАС Доклад для совещания.
Российский ЦБГС. Отчет за 2004 год А.Крюков
А.Минаенко Совещание по физике и компьютингу, 18 января 2007 г., МИФИ, Москва Текущее состояние и ближайшие перспективы компьютинга для АТЛАСа в России.
Транксрипт:

Компьютерная система экспериментов Большого Адронного Коллайдера. ГРИД Юлия Андреева ЦЕРН В презентации использованы слайды коллег из IT отдела ЦЕРНа

20 стран участниц ЦЕРН…

…и огромное сообщество пользователей в разных уголках планеты

LHC ускоритель частиц – Расположен в ЦЕРНе – 27 км суперпроводящих магнитов – Пучки протонов или тяжелых ионов сталкиваются с энергией 14 TeV – Эксперименты по плану должны работать до 2030 года Большой адронный коллайдер (LHC)

В результате столновений образуются тысячи элементарных частиц Эти процессы фиксируются очень сложными детекторами – ALICE: quark-gluon plasma studies – ATLAS and CMS: general purpose – LHCb: matter-antimatter asymmetry studies Эксперименты

Пучки протонов сталкиваются каждые 25 ns – В результате каждого столновения генерится 1.5 MB так называемых event (событие) данных – 1.5 MB/25 ns = 60 TB/s! Не все данные представляют интерес для современны физических исследований. Сильная фильтрация применяется для выделения интересных событий – Скорость после фильтрации 300 Hz 500 MB/s Эти так называемые сырые днные передаются в вычислительный центр, где реконструируются. Реконструкция это процесс воссоздания из данных снятых с детектора свойств частиц участвующих или образующихся в результате столкновений – Размер реконструированных событий сотни KB От столкновений к данным Data rates from the detector to mass storage at CERN ALICE100 MB (pp), 1.25 GB/s (heavy ions) ATLAS320 MB/s CMS450 MB/s LHCb60 MB/s

ЦЕРН не обладает вычислительными мощностями необходимыми для обработки и хранения данных Возможные решения: Многкратное увеличение компьютерного центра ЦЕРНе ИЛИ Использование ресурсов институтов участвующих в экспериментах и расположенных в разных уголках земного шара Альтернативы

The Worldwide LHC Computing Grid (WLCG)

Грид является географически распределённой инфраструктурой, объединяющей множество ресурсов разных типов (процессоры, долговременная и оперативная память, хранилища и базы данных, сети), доступ к которым пользователь может получить из любой точки, независимо от места их расположения. Идея грид-компьютинга возникла вместе с распространением персональных компьютеров, развитием интернета и технологий пакетной передачи данных на основе оптического волокна а также технологий локальных сетей (Gigabit Ethernet). Полоса пропускания коммуникационных средств стала достаточной, чтобы при необходимости привлечь ресурсы другого компьютера.интернеталокальных сетейGigabit Ethernet Термин «грид-вычисления» появился в начале 1990-х гг., как метафора о такой же лёгкости доступа к вычислительным ресурсам, как и к электрической сети (англ. power grid) в сборнике под редакцией Яна Фостера и Карла Кессельманаангл. Концепция ГРИДа

Распределенная компьютерная система предоствляющая ресурсы для LHC вычислений Разработанная, оперируемая и управляемая мировой научной коллаборацией между экспериментами и компьютерными центрами Главная идея заключается в использовании компьютерных ресурсов независимо от места их расположения Компьтерный ГРИД для LHC - это …

Мы имеем дело распределенными ресурсами (компьютерные мощности, кадры, финансирование) Участнинки LHC заинтересованы вкладывать деньги в ресурсы в своей стране одновременно решая общую задачу С техничекой точки зрения распределенная система более надежна. Компьтерный ГРИД для LHC - почему?

Компьютерный ГРИД для LHC это система созданная для пользователей Несколько слоев матобеспечения решают задачу абстагирования пользователя от сложности имплементасии компьтерной системы Пользователь видит ГРИД как единый вычислительный ресурс

Объем данных – Высокая скорость набора данных помножить на большой объем данных помножить на 4 эксперимента – 20 Petabytes новых данных в год – Все данные должны архивироваться на лентах Вычислительные мощности – Сложные события × большое количество событий × тысячи пользователей: 100,000 прсессоров Сложность имплементации диктуется высокими требованиями Распределенные ресурсы и финансирование Неоднородное матобеспечение Федерация ГРИД систем (EGEE, OSG, NorduGrid) Большое количество пользователей – 5000 ученых – 500 институтов WLCG инфраструктура работает с 2005 года

WLCG структура Tier-0 (CERN) 11 Tier Tier-2

Сеть – текущий статус

WLCG сегодня (2010) – CPU 100,000 cores – Диски 100 PB – Ленты 100 PB – Скорость передачи данных из ЦЕРНа 5 GB/s WLCG завтра (2012) – + 30% of CPU – + 50% дискового пространства – + 200% пространства на лентах WLCG сегодня и завтра Totals CERN CPU CERN disk CERN tape T1 CPU T1 disk T1 tape T2 CPU T2 disk CPU in kHEP-SPEC06 Disk and tape in PB

Передача данных – Туда, где они должны храниться и обрабатываться Production вычисления (рекострукция, симуляция) Analysis вычисления Задачи решаемые на WLCG

Архитектура WLCG Матобеспечение экспериментов Матобеспечение ГРИД File Transfer Service Сервис передачи данных ГРИД каталог Job management system Система управления заданиями Storage Resource Manager Мэнэджер доступа к устройству хранения данных Компьютерный элемент Уровень локального центра Базы данных Система хранения данных Организация вычислительных ресурсов Сеть

Обработка пользовательской задачи Пользователю нужно запустить задание, которое использует входные данные X и версию матобеспечения Y Матобеспечение эксперимента Система запуска задач проверит в каких центрах находятся входные данные X и подготовит пакет содержащий пользовательский код и комаду запуска задания на языке понятном ГРИД системе управления задач. Система запуска задач обратится к ГРИД системе управления задач Пользователь может спросить о статусе своей задачи и извлечь результат вычислений Пользователь не общается напрямую с ГРИДом. ГРИД Система управления задач Принимает решение на какой компьютерный элемент послать задачу Пересылает рабочий пакет и передает управление на компьютерный элемент Система слежения за выполнением задачи Система Идентификации пользователя Проверяет имеет ли пользователь право использовать вычислительнй ресурс Компьютерный элемент Помещает задачу в очередь на выполнение на конкретном центре. После завершения выходные данные пересылаются на систему хранения данных принадлежащей системе управления задач. Система слежения за выполнением задач оповещается о завершении задачи Локальный компьютерный центр Задача пересылается на вычислительный ресурс и запускается.

Передача данных Export rates from Tier-0 up to 3 GB/s Baseline is 1.5 GB/s Tier-0: writing to tape > 3 GB/s not a problem Target: 1.5 GB/s Aggregated data transfers Все поставленные задачи решены с запасом прочности в два раза STEP09 June 2009 Peaks 7 GB/s 0.5 PB/day!

Вычисления Jobs per experiment Постоянное увеличение числа обаботанных задач 1,000,000 задач в день Wallclock time per experiment 80,000 параллельно работающих задач

Распределение задач по компьютернм центрам 26 June Распределение задач по компьютерным центрам демонстрирует важность использования ГРИД системы – Вклад центро второго уровня ~ 50%; – >85% iвычислений производится вне ЦЕРНа Tier 2 sites Tier 0 + Tier 1 sites

9 Российских и один Украинский центр предоставляют свои ресурсы для LHC. Эти центры являютя частью Российского ГРИДА (Russian Data Intensive GRID) Они расположены в Москве, Помосковье, Петербурге, Ленинграской области и Киеве Являются центрами второго уровня Вклад Российских центров (1)

Вклад Российских центров (2) Russia

Добиться надежной и эффективной работы такой большой, сложной и неоднородной инфраструктуры очень трудно Компьютерные смены Постоянное общение между экспериментами и вычислительными центрами (ежедневные получасовые рабочие собрания) Тестирование распределенных центров и сервисов Мониторирование Как добиться надежной и эффективной работы инфраструктуры

Разработана система удаленного тестирования распределенных сервисов и центров Тесты проверяющие определенную функциональность регулярно запускаются как ГРИД задачи на все центры инфраструктуры Результаты выполнения этих тестов сохраняются в центральной базе данных На основании результатов етих тестов вычисляется эффективность работы центра Центры не справляющиеся с критическими тестами временно исключаются из информационной системы и становятся невидимыми длясистемы управления задач Тестирование

Видимое улучшение качества работы инфраструктуры

Разработано большое количество систем позволяющих мониторировать состояние и эффективность работы отдельных сервисов, сайтов, а так же эффективность передачи данных и ведения вычислений Роль систем мониторирования очень важна, т.к. они позволяют обнаружить проблемы, идентифицирвать их причины и принять меры по их устранению Мониторирование

ГРИД стал реальностью WLCG инфраструктура – в настоящий момент самая большая существующая ГРИД инфраструктура. Она была создана для вычислений и хранения данных экспериментов БАК (Большого Адронного коллайдера). Эта инфраструктура объединяет более 150 компьютерных центров в разных уголках планеты и используется учеными 500 институтов Первый опыт исползования инфраструктуры после запуска ускорителя доказал правильность технического решения имплементации компьютерной системы БАК в виде распределенной ГРИД системы Заключение