Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВалентин Стрепетилов
1 Текущая конфигурация опорной сети ЦИВК ОИЯИ – сайта JINR LCG2: мотивация и результаты А.Г.Долбилов, В.В.Кореньков, В.В.Мицын,
2 ОИЯИ принимает участие в тестировании сайта JINR-LCG2 посредством массового запуска типичных задач анализа эксперимента CMS (CMS Job Robot) с октября 2007 года, и при этом практически сразу стала наблюдаться перезагрузка локальной сети ОИЯИ. На тот момент все 80 4-х ядерных вычислительных узлов, размещенных в 3-х стойках, были связаны с основным маршрутизатором локальной сети ОИЯИ через 3 соединения по 1GbE, а все 12 узлов с пулами SE - через одно соединение в 1GbE. Попытка улучшить ситуацию подключением всех 3-х стоек с вычислительными узлами к основному маршрутизатору через одно соединение в 1GbE, а каждого из 12-ти узлов, на которых размещены дисковые пулы, через соединение в 1GbE, не дало улучшения ситуации и привело к перезагрузке сети на участке подключения стоек с вычислительными узлами. Следует отметить, что задачи, запускавшиеся системой Job Robot CMS, требовали небольшого процессорного времени (всего несколько минут). Эти задачи обращались к файлам большого размера (2GB), делали выборку и результатом выполнения задачи являлось создание файла меньшего размера с физическими данными, необходимыми для задачи дальнейшего анализа этих данных. При этом отмечалось, что чтение файлов вызывало в локальной сети передачи данных примерно в 3 раза больше, чем собственно размер файла. В результате избыточная загрузка локальной сети вызывала сбои в работе сетевых протоколов TCP/IP, SNMP и SSH и приводила к низкой эффективности исполнения задач (3 минуты на исполнение – и полтора часа астрономического времени). Предпосылки к реконфигурации
3 Было принято решение создать выделенную подсеть для дисковых пулов, вычислительной фермы и ряда NFS- серверов. Такая реконфигурация потребовала установки нового маршрутизатора Procurve 3500yl-48G в качестве основного и нескольких коммутаторов Procurve G/48G. В результате все стойки с вычислительными узлами и все узлы SE обеспечены соединением 4-8 1GbE к основному маршрутизатору локальной сети. Тестирование новой конфигурации массовым запуском задач, идентичных тестовым задачам CMS,вызывавшим перезагрузку локальной сети, продемонстировало отсутствие перезагрузки сети и заметное увеличение эффективности выполнения задач (в 10 раз). Произведенная реконфигурация
4 Одноуровневая схема LAN сайта невозможна. Две причины: - блайд сервера имеют встроенный ethernet; - реализовать подключение > 200 отдельных машин к одному коммутатору можно только теоретически. В настоящее время cisco catalist 3570 (48 x 1GeB) используется как 1-ый уровень, основной маршрутизатор LAN сайта. Подключен на 1GeB к граничныму маршрутизатору ОИЯИ. CMS требует пропускную способность задача данные >= 5Mbyte/sec. Получаем: 5 x 80 ядер в стойке/блейд сервере = 400Mbyte/sec = ~4Gbit/sec - требуемая пропукная способность на каждую стойку/блейд сервер. Реальная пропукная способность ethernet = ~1/2 от его скорости. Некоторые выводы
5 1-ый 2-х уровневый вариант в ЦИВК ОИЯИ (сайт JINR-LCG2). - 3 стойки по 80 ядер подключены через различные маршрутизаторы к cisco 3570 по 1GbE каждый; - 12 дисковых пулов dcache подключены через cisco catalist 2950 по 1GbE каждый, cisco catalist 2950 подключен к cisco 3570 по 1GbE. Основная проблема - перегруженность линка cisco 2950 cisco Проявилось на задачах job robot cms. Приводило к сбоям протокола spanning tree. 2-ой 2-х уровневый вариант. - 3 стойки по 80 ядер подключены через различные маршрутизаторы к cisco 3570 по 1GbE каждая; - 12 дисковых пулов dcache подключены по 1GbE каждый непосредственно к cisco Основная проблема - перегруженность линков стойки cisco Сбои в NSF/SMNP. Детализация 2-х предыдущих вариантов конфигурации ЦИВК ОИЯИ (сайт JINR LCG2)
6 3-ий, текущий вариант. - 3 стойки по 80 ядер подключены через procurve /48G к cisco 3570 по 4-м 1GeB каждая, ~2Gb реальная пропукная способность от каждой стойки на основной маршрутизатор (надо ~4Gb); - 12 дисковых пулов dcache подключены по 1GbE каждый к cisco 2950, cisco 2950 подключен к cisco 3570 по 8-ми 1GeB, ~4Gb реальная пропукная способность от всех 12-ти пулов. Проблем пока не отмечено. Текущая конфигурация ЦИВК ОИЯИ (сайт JINR LCG2)
7 - замена 1-ого уровня, основного маршрутизатора - cisco 3570, на procurve 3500cl-48G, с возможным расширением 1-ого уровня созданием стека из 3500yl-48G, соединенных по 10GbE. - альтенативный план - создание 1-ого уровня на procurve 54xx-zl, внутренняя шина 576 Гбит/сек, до 288 1GbE, можно построить 1-ый уровень LAN без стека. - соединение стойка/блейд сервер по 6-8-ми линкам с 1-ым уровнем. - группировка пулов по 8 на коммутатор/маршрутизатор типа procurve G и соединение каждой такой группы по 8 линкам с 1-ым уровнем. - соединение 1-ого уровня с граничным маршрутизатором ОИЯИ по 2-м линкам 10GbE. Ближайшие планы развития сетевой структуры ЦИВК ОИЯИ (сайт JINR LCG2)
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.