EGEE-II INFSO-RI Enabling Grids for E-sciencE Запуск задач в EGEE (gLite 3.0) Олешко С.Б. Петербургский институт ядерной физики г.Гатчина
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Необходимые условия Наличие сертификата, выданного одним из CA, который признан в EGEE (РДИГ) Быть членом одной из виртуальных организаций EGEE (РДИГ) или Регионального Грид (nw_ru) Быть зарегистрированным пользователем машины, на которой установлен элемент ПО gLite User Interface (UI)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Создание proxy сертификата Перед началом работы создаём proxy сертификат voms-proxy-init --voms gilda При этом нужно будет ввести пароль, которым защищён сертификат. По умолчанию время жизни такого сертификата равно 12 часам. Для получения информации о proxy- сертификате можно воспользоваться следующей командой: voms-proxy-info –all
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Удаление proxy сертификата По окончании сеанса работы рекомендуется уничтожить proxy сертификат voms-proxy-destroy
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Job Management Services Сервисы управления заданиями (Job Management Services ) computing element job management (запуск и управление заданиями) Информирование о своих характеристиках и статусе workload management управление запуском заданий accounting учёт и статистика вычислительных, сетевых ресурсов и ресурсов памяти job provenance сохранение данных о запущенных заданиях, условий выполнения и окружения и т.п. На длительный период времени odebugging, post-mortem analysis, comparison of job execution package manager автоматизация процессов установки, обновления, настройки и удаления пакетов программ oрасширение традиционных кластерных систем для Грид
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Возможности пользователя по управлению заданиями Пользователь управляет заданиями через подсистему управления загрузкой (Workload Management System - WMS); Основная задача WMS - планирование и управление распределенными ресурсами в системе Grid; Что может пользователь? –Посылать задачи на выполнение; –Выполнять задачи на наиболее подходящих для этого ресурсах (WMS автоматически оптимизирует использование ресурсов); –Получать информацию о состоянии задач; –Получать результаты выполнения задач. Есть 2 различных пользовательских интерфейса для выполнения этих задач: –интерфейс командной строки –графический интерфейс
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, JDL: Job Description Language JDL определяет характеристики задания, которые будут использоваться для выбора оптимального ресурса для его запуска. –Характеристики самого задания –Требования к компьютерным ресурсам (и к software) –Требования к входным и выходным данным JDL Attribute = value;JDL состоит из предложений типа: Attribute = value; где value может быть Boolean, Integer, String.
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, JDL: атрибуты JobType Normal, Interactive, MPICH, Checkpointable Executable (mandatory) Имя выполняемой программы Arguments (optional) Параметры программы StdOutput, StdError (optional) Стандартный input/output/error InputSandbox (optional) Список файлов на UI, которые необходимы для выполнения задания. Эти файлы будут переданы на удаленный узел. OutputSandbox (optional) Список файлов, сгенерированных заданием, которые должны быть затребованы на UI
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Job Requirements Требования (Requirements) –Определяют требования на ресурсы –Определяются, используя т.н. GLUE атрибуты ресурсов, опубликованных в Информационной Системе ГРИД Например: Requirements = other.GlueCEUniqueID == "grid010.ct.infn.it:2119/jobmanager-lcgpbs-long"; Requirements = Member("POVRAY- 3.5",other.GlueHostApplicationSoftwareRunTimeEnvironment); ; Requirements = other.GlueCEStateFreeCPUs > 100;
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Ранжирование ресурсов Rank –Как ранжировать ресурсы, которые удовлетворяют специфицированным требованиям –Выбирается CE с наивысшим рангом, например: Rank= - other.GlueCEStateEstimatedResponseTime (наименьшее время доступа) Rank= other.GlueCEStateFreeCPUs (наибольшее количество CPUs) Rank= (other.GlueCEStateWaitingJobs == 0 ? other.GlueCEStateFreeCPUs : - other.GlueCEStateWaitingJobs)
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Пример (hostname.jdl) i.JobType = "Normal"; Тип задания ii.Executable = "/bin/hostname"; Имя задания, которое будет запущено в Грид iii.StdOutput = "hostname.out"; Имя файла стандартного вывода. iv.StdError = "hostname.err"; Имя файла, куда будут выводиться сообщения об ошибках. v.OutputSandbox = {"hostname.err","hostname.out"}; Список файлов, которые будут созданы заданием и сохранены для получения на UI. vi.Arguments = "-f"; Аргументы, которые будут переданы, как строка, для исполняемого задания. Разделяются пробелом. vii.ShallowRetryCount = 3; Количество попыток перезапуска задания, если оно ещё не попадёт на удалённый узел для выполнения. viii.RetryCount = 0; Количество попыток перезапуска задания, когда оно уже попало на удалённый узел для выполнения. Рекомендуется оставлять = 0.
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Запуск задания glite-job-submit -o myIds hostname.jdl Selected Virtual Organisation name (from proxy certificate extension): gilda Connecting to host glite-rb.ct.infn.it, port 7772 Logging to host glite-rb.ct.infn.it, port 9002 ================================ glite-job-submit Success ========= The job has been successfully submitted to the Network Server. Use glite-job-status command to check job current status. Your job identifier is: - The job identifier has been saved in the following file: /home/gcw/tutorial/myIds
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, glite-job-submit Опции команды glite-job-submit --vo - запуск задания с ВО, отличном от значения по умолчанию --output, -o - сохранить jobid в файле --resource, -r - запустить задание на определённом ресурсе --nomsgi – запрещение вывода в стандартные файлы вывода и ошибок
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Просмотр статуса задания glite-job-status -i myIds ************************************************************* BOOKKEEPING INFORMATION: Status info for the Job : Current Status: Running Status Reason: Job successfully submitted to Globus Destination: trigrid-ce00.unime.it:2119/jobmanager-lcgpbs-short Submitted: Fri Jun 2 12:04: CEST *************************************************************
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Выполнение задания SUBMITTED - задание послано пользователем, но пока не обработано Network Server WAITING - задание принято Network Server, но ещё не обработано Workload Manager READY - заданию назначен Computing Element, но оно туда ещё не передано SCHEDULED - задание ожидает в очереди на Computing Element RUNNING - задание выполняется DONE - задание завершилось ABORTED - задание снято WMS (т.к. слишком долгое, срок действия сертификата истёк, и т.п.) CANCELLED - задание снято пользователем CLEARED - Output Sandbox передан на User Interface
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Получение выходных данных Когда задание завершилось (статус Done), файлы, указанные в атрибуте OutputSandbox могут быть переданы на UI, с которого было запущено задание. glite-job-output --dir -i myIds Retrieving files from host: glite-rb.ct.infn.it ( for :9000/1yO1XFjV3-YCqROfyIcgSw ) ********************************************************************* JOB GET OUTPUT OUTCOME Output sandbox files for the job: - have been successfully retrieved and stored in the directory: /home/gcw/tutorial/gcw_1yO1XFjV3-YCqROfyIcgSw
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Просмотр доступных узлов Ещё до запуска задания можно просмотреть список доступных узлов, удовлетворяющих требованиям задания glite-job-list-match hostname.jdl Selected Virtual Organisation name (from proxy certificate extension): gilda Connecting to host glite-rb.ct.infn.it, port 7772 *************************************************************************** COMPUTING ELEMENT IDs LIST The following CE(s) matching your job requirements have been found: *CEId* dgt01.ui.savba.sk:2119/jobmanager-lcgpbs-infinite dgt01.ui.savba.sk:2119/jobmanager-lcgpbs-long dgt01.ui.savba.sk:2119/jobmanager-lcgpbs-short gilda01.ihep.ac.cn:2119/jobmanager-lcgpbs-infinite gilda01.ihep.ac.cn:2119/jobmanager-lcgpbs-long gilda01.ihep.ac.cn:2119/jobmanager-lcgpbs-short gildace.oact.inaf.it:2119/jobmanager-lcgpbs-infinite gildace.oact.inaf.it:2119/jobmanager-lcgpbs-long gildace.oact.inaf.it:2119/jobmanager-lcgpbs-short grid-ce.bio.dist.unige.it:2119/jobmanager-lcgpbs-long grid-ce.bio.dist.unige.it:2119/jobmanager-lcgpbs-short ……………………………………………………………..
Enabling Grids for E-sciencE EGEE-II INFSO-RI Saint-Petersburg, EGEE tutorial, Снятие задания Задание может быть снято пользователем glite-job-cancel -i myIds Are you sure you want to remove specified job(s)? [y/n]n :y =================== glite-job-cancel Success==================== The cancellation request has been successfully submitted for the following job(s) - ===========================================================