RDIG CIC & ROC мониторинг В.Д.Позе, И.М.Ткачёв ЛИТ ОИЯИ
Мониторинг CIC & ROC Согласно SA1 Organisation ( ) Core Infrastructure Centres (CIC) –The CICs will function as a single distributed entity by sharing operational information on a frequent and regular basis. They will be in continuous contact and collectively they will manage day-to-day operation of the EGEE Grid infrastructure according to the operational policy defined by the EGEE Operations Management Centre. –By maintaining transparency of the Grid operational state between them, any one of these EGEE Core Infrastructure Centres will be able to take over the operational responsibilities of another in the event of a serious operational problem. –The CICs will act as Grid Operations Centres performing monitoring and troubleshooting of the basic services and resources. The initial model for this activity will be based on the experience gained in LCG with the Grid Operations Centres at RAL and Taipei, and by the operational support group (IT-GD-GIS) at CERN. As part of their CIC responsibility, RAL will package the monitoring tools and distribute them to the other CICs. Regional Operations Centres (ROC) –Under the coordination of the Operations Management Centre the ROC is responsible for negotiating service level agreements (SLAs) with each Resource Centres in the region, and will include monitoring the Resource Centres to ensure delivery of the agreed services. централизованный отбор, распределение, сопровождение ПО мониторинга для CIC (ROC) необходимы; ответственным за эту работу определён CIC RAL
Специфика CIC мониторинга Согласно SA1 Organisation ( ) Regularly monitor the accessibility of operational services and resources at Resource Centres and take remedial action as necessary.. Monitoring of sites and services, and proactive troubleshooting. This includes verification of certificate lifetimes, etc. Performance monitoring – for example of data transfers, job throughput etc. Metrics and important parameters to be monitored will be developed as part of the CIC program of work.
Развитие средств мониторинга и статистики GOC RAL в 2004-м году Grid Operations Centre RAL к лету 2004г.: –реально «как-то» работали пакеты GridIce и Mapcenter GridIce может предоставлять подробную информацию о характеристиках и загрузке hardware и ОС всех узов Resource Center и CIC Mapcenter показывает наличие отклика основных сервисов по протоколам TCP и UDP доступны дистрибутивы для автономной инсталяции –появился пакет GIIS Monitor предоставляющий оперативную информацию и статистику по загрузке а также тесты основных сервисов Resource Center и CIC дистрибутивы для автономной инсталяции не доступны во второй половине 2004г.: –появились тесты проверяющие выполнение операций job submission, replica management и др. дистрибутивы для автономной инсталяции этих тестов не доступны
RDIG CIC мониторинг в ОИЯИ в 2004г. установлен сервер для CIC & ROC мониторинга rocmon.jinr.ru основным направлением остаётся ожидание дистрибутивов ПО мониторинга, которые должен предоставить CIC RAL введены в эксплуатацию доступные на данный момент на сайте GOC RAL для автономной инсталяции пакеты мониторинга (мониторятся только российские сайты) –GridIce –Mapcenter ?если росcийский CIC должен отвечать требованиям взаимозаменяемости CIC, то придётся мониторить не только российские, но все сайты вводится в эксплуатацию пакет MonALISA
Использование пакета Monalisa для RDIG CIC & ROC мониторинга почему выбран пакет MonALISA –обладает гибкостью: позволяет расширять/менять перечень собираемой информации, собирать множество различных величин (разнородных - grid,net...) –вся информация будет представлена в едином стиле –предоставляет возможность отслеживать историю –активное развитие пакета в настоящее время и растущая популярность: используется для мониторинга Grid3, US-CMS, Alice, Star и др. Используя пакет MonALISA, RDIG CIC & ROC смогут при необходимости расширить перечень собираемой информации, независимо от ПО CIC RAL опыт работы с пакетом MonALISA –MonALISA support team показал себя отзывчивым и оказывает широкую поддержку –основные трудности: сложность этой системы и отсутствие подробной документации в основном удалось преодолеть предварительные планы по развёртыванию пакета MonALISA –первый этап: сбор информации из BDII сервера ЛИТ ОИЯИ по LDAP протоколу(running jobs, jobs in queue, used space, available space); для этого не нужна установка дополнительного ПО на LCG сайтах RDIG –второй этап: сбор информации о свободных и занятых процессорах, локальных scratch и, возможно, к.-л. другой; предполагается организовать сбор через SNMP протокол. Для этого мы подготовим ПО для установки на СЕ и предложим его установить администраторам российских сайтов.