Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемАнгелина Загудалова
1 Enabling Grids for E-sciencE A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE Olga Kodolova, SINP MSU Elena Tikhonenko, JINR, Dubna The training coursesCMS user analysis using EGEE/LCG infrastructure Moscow, ITEP, April 16, 2007
2 Enabling Grids for E-sciencE 2 Contents Содержание Специфика приложений ФВЭ Проект LCG Проект EGEE Как стать пользователем среды LCG/EGEE GRID User Interface Основные понятия и команды для запуска задач пользователя CMS Dashboard Инструментальные средства запуска задач пользователей CMS в среде LCG/EGEE Заключение и полезные ссылки
3 Enabling Grids for E-sciencE 3 CMS ATLAS LHCb ALICE При ожидаемой скорости записи сырых данных потребуются ресурсы для хранения данных порядка десятков и сотен ПБ. Для обработки данных потребуются сотни тысяч персональных компьютеров ( максимальной на текущий момент производительности) Эксперименты на LHC
4 Enabling Grids for E-sciencE 4 Обработка данных и вычисления в физике высоких энергий интерактивный физический анализ Пакетная обработка данных Пакетная обработка данных детектор суммарные данные по событиям «сырые» данные Реконструкция событий Реконструкция событий моделирование физических событий моделирование физических событий объекты для физического анализа (выделенные по физическим каналам) Отбор событий и первичная реконструкция Отбор событий и первичная реконструкция обработанные данные Триггер 1-го уровня ESD AOD RAW
5 Enabling Grids for E-sciencE 5 Специфика приложений ФВЭ Требования по данным Колоссальные объемы данных (десятки и сотни Петабайт) Данные типа WORM (писать единожды, читать многократно) Структуризация данных с последующим извлечением информации из данных (data mining) Продолжительное время хранения данных, а также необходимость создания копий данных в разных странах мира Требования к обработке данных Обработка данных подразделяется на 2 типа – регулярное производство данных и «нерегулярный» анализ данных Производство (моделирование ) данных происходит систематически; при этом производятся наборы данных порядка ~ 10**9 физических событий. Анализ физических данных (на наборах данных порядка 10**7 событий) проводится произвольным образом и в индивидуальном порядке многими сотнями отдельных пользователей Высокий уровень параллелизма обработки на уровне событий, который может быть описан ориентированным графом с указанием последовательности обработки Поскольку интерактивная работа очень важна при анализе данных, необходимо предусмотреть возможность спасения сессий с сохранением информации об источнике данных («проверяемость», provenance) Необходимость глобального доступа к базам данных экспериментов для получения значений констант, условий работы и т.д.
6 Enabling Grids for E-sciencE 6 Требования к компьютингу для LHC Надежное и безопасное хранение данных (ежегодно будет производиться ~15 Петабайт данных) Скоростная сеть с малыми задержками и высокой пропускной способностью Управление разделением ресурсов между экспериментами, анализом и производством данных, различными группами анализа и индивидуальными пользователями, т.е. необходимость выработки общих правил (common policies) Поддержка и обучение пользователей Необходимо обеспечить прозрачный доступ к данным и вычислительным ресурсам для ~5000 ученых в ~500 институтах, расположенных по всему миру
7 Enabling Grids for E-sciencE 7 Проект LCG Проект LCG – the LHC Computing Grid Project ( ) – был организован для создания компьютерной инфраструктуры, необходимой для моделирования, обработки и анализа данных cтроящихся на LHC экспериментов. Проект был принят ЦЕРН в 2001 году и включает в себя 2 этапа: 1-й этап – (разработка общего прототипа мат.обеспечения и запуск пилотного вычислительного сервиса для LHC). 2-й этап – (оснащение и ввод в эксплуатацию вычислительного сервиса для LHC). В проект вовлечены эксперименты LHC, GRID-проекты в Европе и США, региональные и национальные компьютерные центры.
8 Enabling Grids for E-sciencE 8 Applications Area Библиотеки и инструментальные средства Управление данными Middleware Area Разработка, тестирование, интеграция и поддержка промежуточного программного обеспечения CERN Fabric Area Управление кластерами и данными Сети (глобальные и локальные) Вычислительный сервис в ЦЕРН Grid Deployment Area Установка и управление сервисами грид (сертификация, безопасность и т.д.). Service Challenges Направления работ в LCG Distributed Analysis Распределенный анализ данных
9 Enabling Grids for E-sciencE 9 LHC computing Grid Service LCG real time monitor (June, 2006) задач
10 Enabling Grids for E-sciencE 10 LHC computing Grid Service LCG real time monitor (January, 2007) задач
11 Enabling Grids for E-sciencE 11 LCG основывается на 2-х основных структурах грид в сфере науки LCG-инфраструктура реализована и успешно функционирует на базе 2-х инфрастуктур, обеспечиваемых проектами: EGEE - Enabling Grids for E-Science OSG - US Open Science Grid EGEE-II: (с апреля 2006 года) 90 институтов из 32стран > 20,000 CPU
12 Enabling Grids for E-sciencE 12 Что такое EGEE? EGEE – это крупнейшая инфраструктура грид в Европе: 90 ведущих научно-исследовательских институтов 32 странах, объединенные в региональные федерации грид расширяяет национальные и региональные работы по грид EGEE-I начат в апреле 2004 Активизирует международное научное сотрудничество Цель EGEE: создать глобальную инфраструктуру грид-сервисов, круглосуточно доступную для ученых и специалистов LCG и EGEE – различные проекты Но именно тесное сотрудничество обеспечивает разделение, а не дублирование работ
13 Enabling Grids for E-sciencE 13 РДИГ – Российский грид для интенсивных операций с данными
14 Enabling Grids for E-sciencE 14 Среда LCG-2/EGEE Cреда LCG-2 /EGEE– инфраструктура, промежуточное математическое обеспечение (middleware) которой может рассматриваться как логическое продолжение и развитие достижений таких grid – проектов, как Сondor, Globus, DataGrid, DataTag, GriPhyn, iVDGL и EGEE (Enabling Grids for E- sciencE). Под middleware понимается совокупность Grid-сервисов, независимых от ресурсов и приложений и обеспечивающих аутентификацию, авторизацию, размещение и распределение ресурсов, получение результатов выполнения задач, статистику и служебную информацию, удаленный доступ к данным, стратегию и способы обнаружения неисправностей.
15 Enabling Grids for E-sciencE 15 Последовательность действий для осуществления возможности работать в среде LCG-2/EGEE Во-первых, следует ознакомиться с Правилами использования ресурсов LCG/EGEE Затем получить персональный цифровой сертификат – для организаций на территории России – в Сертификационном центре в Курчатовском институте ( ). По завершению процесса регистрации Вы получите по электронной почте свой цифровой сертификат, который следует сохранить в файле usercert.pem Загрузить персональный сертификат в браузер См. Зарегистрироваться в соответствующей виртуальной организации по адресу: Для возможности работы в инфраструктуре LCG/EGEE надо получить сертификат и зарегистрироваться в соответствующей виртуальной организации; вся необходимая последовательность действий описана на странице: virtual organization (VO) – виртуальная организация - объединение пользователей, организаций и ресурсов (компьютеров, ПО и данных) в новый административный домен в рамках grid-инфраструктуры
16 Enabling Grids for E-sciencE 16 UI (User Interface) – cервис, обеспечивающий доступ к ресурсам Grid; c UI-компьютера пользователь может запускать или прерывать свои задачи, получать информацию о статусе выполняемых задач, находить ресурсы, необходимые для исполнения конкретной задачи, получать учетную информацию о своей задаче: а также копировать, реплицировать или уничтожать файлы в инфрастуктуре Grid. CE (Computing Element) – очередь в системе пакетной обработки инфраструктуры Grid WN (Working Node) – вычислительный узел фермы в инфраструктуре Grid SE (Storage Element) –cервис, обеспечивающий унифицированный доступ к ресурсам памяти инфраструктуры Grid (ресурсами памяти при этом могут быть как простые дисковые серверы, так и дисковые массивы или системы массовой памяти (MSS)). RB (Resource Broker) : сервис поиска наилучших ресурсов в среде GRID для запуска конкретной задачи Что такое UI, CE, WN, SE, RB?
17 Enabling Grids for E-sciencE 17 JDL – расширяемый язык, предназначенный для описания задач пользователя с помощью задания значений для атрибутов и появившияся еще при создании системы распределенных вычислений CONDOR Пользователь для запуска свой задачи в инфраструктуре grid должен сформировать файл ( job_definition.jdl ) Некоторые из атрибутов описываются пользователем, а некотрые атрибуты автоматически формируются UI до запуска задания в инфрастуктуру grid Атрибуты подразделяются на атрибуты описания задачи, атрибуты ресурсов и атрибуты описания данных. Job Description Language (JDL) Язык описания задачи
18 Enabling Grids for E-sciencE 18 Job Submission Атрибуты описания задачи Executable (обязательный) –имя исполняемой команды (программы) Arguments (необязательный) –аргументы, которые необходимы для исполнения команды, указанной в Executable StdInput, StdOutput, StdErr (необязательный) –стандартные ввод/вывод/ошибки задачи Environment (необязательный) –список установок среды InputSandbox (необязательный) –список файлов на локальном диске на UI, необходимых для выполнения задачи –перечисленные файлы помещаются на удаленный CE OutputSandbox (необязательный) –Список файлов, которые будут сформированы в результате выполнения задания и которые необходимо получить пользователю после выполнения задачи
19 Enabling Grids for E-sciencE 19 Job Submission Атрибуты ресурсов Resource Attributes Requirements –Требования задачи на вычислительные ресурсы –Если не определяются пользователем, то используется значение, заданное в конфигурации UI
20 Enabling Grids for E-sciencE 20 Job Submission Атрибуты описания данных Data Attributes InputData (необязательный) –относится к данным, используемым как входные к задаче: эти данные публикуются в Replica Catalog и запоминаются в SEs) –PFNs и/или LFNs DataAccessProtocol (обязательный, если определен атрибут InputData) –Протокол или список протоколов, требумых для доступа к InputData на данном SE OutputSE (необязательный) –имя SE-хоста –RB использует его для выбора CE, совместимого в требованиями задачи и наидолее близко расположенного к SE OutputData (необязательный) –Выходные данные, которые должны быть сформированы в конце выполнения задачи
21 Enabling Grids for E-sciencE 21 Команды запуска задачи Выполняем команду voms-proxy-init –voms cms –вводим в процессе выполнения данной команды свой пароль на гридовский сертификат –получаем в результате proxy – временный сертификат, дающий право доступа к сервисам и ресурсам Grid в рамках VO VMS Выполняем команду: edg-job-submit myjob1.jdl и получаем в результате уникальный идентификатор задачи (Job Identifier), JobId По выполнению команды: edg-job-status JobId получаем статусную информацию о ходе выполнения задачи После завершения выполнения задачи можно выполнить команду edg-job-get-output JobId в результате чего получаем имя временнго каталога на машине UI, где находятся результаты выполнения задачи.
22 Enabling Grids for E-sciencE 22 Некоторые полезные команды UI edg-job-list-match Получение списка ресурсов, соответствующих описанию задачи (запуск задачи при этом не требуется) edg-job-cancel прекращение выполнения задачи edg-job-get-logging-info получение информации о прохождении задачи полезно при отладке программы Подробнее об атрибутах задачи и процессе запуска задач в среде LCG/EGEE см.
23 Enabling Grids for E-sciencE 23 В CERN при вхождении на lxplus.cern.ch следует выполнить скрипт cms_ui_env.csh командой в результате чего установятся переменные окружения, необходимые для доступа к сервису UI. А при работе на lxplus.cern.ch с ASAP для доступа к сервису UI достаточно выполнить команду UI в CERN source /afs/cern.ch/cms/LCG/LCG-2/UI/cms_ui_env.csh source /afs/cern.ch/sw/arda/install/CMS/asap3/setup.csh
24 Enabling Grids for E-sciencE 24 CMS Dashboard
25 Enabling Grids for E-sciencE 25 CMS Dashboard: Job Monitoring Interactive View sorted by user
26 Enabling Grids for E-sciencE 26 Инструментальные средства запуска задач пользоватлей Инструментальные средства, облегчающие пользователю запуск заданий в среде грид, должны «скрывать» от пользователя всю сложность работы в распределенной среде, обеспечивая ему простой и удобный интерфейс. На данный момент подобные решения существуют в CMS. Это системы CRAB и ASAP.
27 Enabling Grids for E-sciencE 27 Заключение и полезные ссылки Близок запуск LHC. Без умения работать в среде грид физикам уже не обойтись! полезная документация The LCG-2 User Guide UserGuide.html gLite 3.0 User Guide LCG-2 User Scenario ClassAd language LCG-2 Frequently Asked Questions / CRAB Tutorial ASAP User Guide
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.