Лекция III: Оценка надежности центров обработки данных. Метод графов. К.ф.-м.н. Самодуров В.А. (sam@prao.ru), базовая кафедра группы компаний Стек sam@prao.ru. - презентация

Презентация на тему: " Лекция III: Оценка надежности центров обработки данных. Метод графов. К.ф.-м.н. Самодуров В.А. (sam@prao.ru), базовая кафедра группы компаний Стек sam@prao.ru." — Транскрипт:

1 Лекция III: Оценка надежности центров обработки данных. Метод графов. К.ф.-м.н. Самодуров В.А. базовая кафедра группы компаний Стек Оценка надежности информационных систем (Центры Обработки Данных) Телефон: (495) , факс: (495) , Москва, ул. Большая Академическая, д. 5a

2 Надежность:Термины и определения Методы повышения надежности можно классифицировать по области их использования. Методы Методы Конструктивные Cоздание надежных элементов; Cоздание надежных элементов; Создание благоприятного режима работы; Создание благоприятного режима работы; Методы рационального проектирования систем; Методы рационального проектирования систем; Методы введения избыточности: Методы введения избыточности: o Нагрузочная, o Параметрическая, o Функциональная, o Резервирование структуры Методы, защищающие элементы от разрушающих факторов Методы, защищающие элементы от разрушающих факторов Производственные Эксплуатационные Совершенствование технологии; Совершенствование технологии; Автоматизация производства; Автоматизация производства; Тренировка элементов и модулей системы. Тренировка элементов и модулей системы. Методы предупреждения отказов, основанные на прогнозировании моментов их появления; Методы предупреждения отказов, основанные на прогнозировании моментов их появления; Методы предупреждения отказов, основанные на статистических данных о долговечности элементов; Методы предупреждения отказов, основанные на статистических данных о долговечности элементов; Повышение квалификации обслуживающего персонала; Повышение квалификации обслуживающего персонала; Научные методы эксплуатации Научные методы эксплуатации

3 Показатели надежности сложных систем. Последовательное соединение элементов Отличительными чертами сложных систем является: многоканальность-наличие нескольких каналов, каждый из которых выполняет определенную функцию, частную по отношению к общей задаче системы. многосвязность – большое количество функциональных связей между элементами системы. наличие вспомогательных и дублирующих устройств. Системой с последовательным соединением элементов называется система, в которой отказ любого элемента приводит к отказу всей системы. В системе с последовательным соединением для безотказной работы в течении некоторой наработки необходимо и достаточно, чтобы каждый из ее n элементов работал безотказно в течении этой наработки. Считая отказы элементов независимыми, вероятность одновременной безотказной работы n элементов определяется по теореме умножения вероятностей: вероятность совместного появления независимых событий равна произведению вероятностей этих событий: (12) И вероятность отказа: (13) Даже при высокой надежности элементов надежность системы при последовательном соединении оказывается тем более низкой, чем больше число элементов. Интенсивность отказов системы при последовательном соединении эл-в и простейшем потоке отказов равна сумме интенсивностей отказов эл-в. Тогда для системы из n равнонадежных эл-в =n, T 0 =T i /n, т.е. интенсивность отказов в n раз больше, а средняя наработка в n раз меньше, чем у отдельного эл-та Э1Э1 Э2Э2 ЭnЭn

4 Показатели надежности сложных систем. Параллельное соединение элементов Системой с параллельным соединением элементов называется система, отказ которой происходит только в случае отказа всех ее элементов. Такие схемы надежности характерны для ТС, в которых элементы дублируются или резервируются, т.е. параллельное соединение используется как метод повышения надежности. Для отказа системы с параллельным соединением элементов в течение наработки необходимо и достаточно, чтобы все ее элементы отказали в течение этой наработки. Так что отказ системы заключается в совместном отказе всех элементов, вероятность чего (при допущении независимости отказов) может быть найдена по теореме умножения вероятностей как произведение вероятностей отказа элементов: (14) Соответственно, вероятность безотказной работы: (15) т.е. надежность системы с параллельным соединением повышается при увеличении числа элементов. Поскольку f i

5 Расчет надежности ЦОД – вначале была схема… Для расчета надежности ЦОД можно, например, разбить его на ряд системных блоков, определить вероятность отказа для каждого, потом рассчитать по схемам общую надежность. А можно применить графы (довольно удобно и часто применяемо). Или: для расчета надежности ЦОД также составляются Деревья отказов (деревья отказов объекта, представляющие графическое отображение причинно-следственных связей, обуславливающих определенные виды его отказов (стандарт МЭК 1025))….

6 Состав рассчитываемых показателей : Системы с невосстанавливаемыми элементами: - cредняя наработка до отказа (T 0 ); - Вероятность Безотказной Работы к заданной наработке по времени P(t); - Плотность Распределения Отказов к заданной наработке f(t). - Интенсивность Отказов к заданной наработке (t); Системы с восстанавливаемыми элементами (например, ЦОД!) - T 0 ; P(t); а также коэффициент готовности, коэффициент оперативной готовности, параметр потока отказов. НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ МАТЕМАТИЧЕСКИМЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ (краткое предварение) (0) – главная формула для нас при расчете надежности ЦОД! ПОВТОР: Лекция 1, часть III. Дата-центры с точки зрения теории надежности: Введение

7 …(справочник)… Связь между показателями надежности (внимание, Q(t) – то же самое, что и F(t)) : НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ (краткое повторение пройденного) ПоказателиP(t)Q(t) F(t)f(t) (t) P(t)–1 – Q(t) Q(t)1 – P(t)– f(t) – P(t)Q(t)– (t) –

8 Используемые в теории надежности законы распределения случайных величин. Но для нас главное и практически единственное – экспоненциальное! Поскольку оно отражает поведение системы в период нормальной эксплуатации.

9 Понятия теории надежности: язык математики (повтор) В период нормальной эксплуатации объекта время работы между отказами подчинено экспоненциальному закону распределения с параметрами (t) = 0 = const, поэтому вероятность безотказной работы из (7,9) (10) А f(t), соответственно, из (9): f(t)= 0 e - 0 t Соответствующие кривые приведены ниже : Выясним смысл среднего времени безотказной работы T 0 : подставив в (9) t = T 0, получим P(T 0 )=e , т. е. T 0 есть время, в течение которого вероятность безотказной работы изделия уменьшается в e раз. Можно также (9) подставить в (5) (11) т.е. при простейшем потоке отказов средняя наработка Т 0 обратна интенсивности отказов

10 НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ (краткое повторение пройденного) Задача расчета надежности: определение показателей безотказности системы, состоящей из (не)восстанавливаемых элементов, по данным о надежности элементов и связях между ними. Цель расчета надежности: обосновать выбор того или иного конструктивного решения; выяснить возможность и целесообразность резервирования; выяснить, достижима ли требуемая надежность при существующей технологии разработки и производства.

11 Расчет надежности состоит из следующих этапов: 1. Определение состава рассчитываемых показателей надежности. 2. Составление (синтез) структурной логической схемы надежности (структуры системы), основанное на анализе функционирования системы (какие блоки включены, в чем состоит их работа, перечень свойств исправной системы и т. п.), и выбор метода расчета надежности. 3. Составление математической модели, связывающей рассчитываемые показатели системы с показателями надежности элементов. 4. Выполнение расчета, анализ полученных результатов, корректировка расчетной модели. НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ (краткое повторение пройденного)

12 Способы описания условий работоспособности системы Анализ надежности информационной системы начинается с изучения ее состава, принципа работы, функциональных связей между элементами и особенностей эксплуатации. Все множество состояний системы можно разделить на два подмножества - работоспособных и неработоспособных состояний. При графическом представлении условий работоспособности систем чаще всего применяют модели в виде структурной схемы надежности (ССН). По ССН определяют структурную функцию - ФАЛ (функций алгебры логики) работоспособности, либо дерево отказов, по которым определяют количественные показатели надежности - функцию надежности системы h(r). Обобщенный алгоритм преобразования изображен ниже: СИСТЕМА ССН ФАЛ h(r) Под структурной схемой надежности (ССН) понимают некоторую условную схему, учитывающую влияние элементов и особенно связей между ними на работоспособность системы в целом. ССН основана на анализе последствий отказов элементов. В ходе ее составления анализируются возможные виды отказов элементов и влияние отказов элементов и их различных комбинаций на работоспособность системы. При этом функциональные элементы системы заменяются логическими элементами, принимающими значение либо 1, либо - 0, где 1 - соответствует работоспособному состоянию элемента, а 0 - неработоспособному, а функциональные связи заменяются логическими. Схема должна учитывать удобства дальнейшего анализа как надежности элементов, так и надежности системы в целом. ССН может существенно отличаться от функциональной схемы этой же системы, учитывающей прохождение сигналов.

13 Расчет надежности ЦОД – вначале была схема… Для расчета надежности ЦОД можно, например, разбить его на ряд системных блоков, определить вероятность отказа для каждого, потом рассчитать по схемам общую надежность. А можно применить графы (довольно удобно и часто применяемо). Или: для расчета надежности ЦОД также составляются Деревья отказов (деревья отказов объекта, представляющие графическое отображение причинно-следственных связей, обуславливающих определенные виды его отказов (стандарт МЭК 1025))….

14 Расчет надежности ЦОД – вначале была схема… Итак, какие необходимые, важнейшие системы мы имеем из различных блок схем? Расположены эти узлы де-факто последовательно (обрыв любой из них приводит к неминуемому отказу ЦОД), но каждый из них – сам устроен сложным образом Провайдер, связь ЦОД Электросна бжение Кабельная система Пожаротуш ение Охлаждение

15 Математическая модель надежности – формальные преобразования, позволяющие получить расчетные формулы. Модели могут быть реализованы с помощью: метода интегральных и дифференциальных уравнений; на основе графа возможных состояний системы; на основе логико-вероятностных методов; на основе дедуктивного метода (дерево отказов). Наиболее важным этапом расчета надежности является составление структуры системы и определение показателей надежности составляющих ее элементов. НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ (краткое повторение пройденного)


17 Рис. 1. Двухполюсный граф G и дерево отказов D Вершины v 1 и v 3 – полюсные вершины. На вершину v 1 подается сигнал, который должен достичь вершины v 3. Главное событие S – непрохождение сигнала от вершины v 1 до вершины v 3. Промежуточные события S i, i={1,2,3,4}, – непрохождение сигнала до вершины v i. Пунктиром изображены резервное соединение (на графе G) и соответствующее ему событие (на дереве D). Считая надежность (вероятность безотказной работы в течение некоторого промежутка времени) для всех вершин графа равными 0.9 получаем, что надежность функционирования коммуникационной сети в виде графа G без резервного соединения равна: Расчет надежности с помощью дерева отказов Простой пример Р( )=1– =1– (1–0.9 3 )(1–0.9 3 )(1–0.9 4 )0.975, с резервным – Р( )=1– (1–Р(S 3 S 4 S 1 ))(1–Р(S 3 S 2 S 1 ))(1–Р(S 3 S 2 S 4 S 1 ))(1–Р(S 3 S 1 ))= =1– (1–0.9 3 )(1–0.9 3 )(1–0.9 4 )(1–0.9 2 ) Событие – событие противоположное событию S, т.е. – функционирование коммуникационной сети G. (1-Р(S 3 S 4 S 1 )) × (1-Р(S 3 S 2 S 1 )) × (1-Р(S 3 S 2 S 4 S 1 ))=


19 Характерный расчет показателей одной из систем - надежности кабельного оборудования ЦОД (из реального диплома – по разработке горизонтальной кабельной системы для ЦОД) ПРИМЕР 1. Расчет для 1 узла ЦОД – кабельного оборудования Интенсивность отказов 1 км кабеля – Среднее время восстановления 1 км кабеля – Исходные данные: ….общая длина кабелей – L= км Расчет интенсивности отказов всей горизонтальной подсистемы: Расчет среднего времени безотказной работы горизонтальной подсистемы: Расчет коэффициента готовности горизонтальной подсистемы: Таким образом, можно сделать вывод, что спроектированная горизонтальная подсистема способна выполнять свои функции с необходимым качеством для ЦОД уровня Tier III Вот только… Допущена ошибка в одном знаке!… Все в 10 раз лучше!

20 ПРИМЕР 1. Расчет для 1 узла ЦОД – кабельного оборудования Интенсивность отказов 1 км кабеля – Среднее время восстановления 1 км кабеля – Исходные данные: ….общая длина кабелей – L= км Расчет интенсивности отказов всей горизонтальной подсистемы: Расчет среднего времени безотказной работы горизонтальной подсистемы: Расчет коэффициента готовности горизонтальной подсистемы: Таким образом, можно сделать вывод, что спроектированная горизонтальная подсистема способна выполнять свои функции с необходимым качеством для ЦОД уровня Tier IV Теперь-то всё? НЕТ! Мы не учли, что система кабелей – не 1 кусок провода, а много систем, в том числе дублирующих… Вот только… Допущена ошибка в одном знаке!… Все в 10 раз лучше!

21 У восстанавливаемых систем: 1) Большое число состояний 2) наличие последействия отказов элементов 3) зависимость показателей надежности от большого числа факторов (интенсивности восстановления, дисциплины обслуживания) Следствие: расчет надежности восстанавливаемых систем – более сложная задача, чем расчет надежности невосстанавливаемых систем ЦОД – восстанавливаемая система, поэтому – некоторые определения, более системно…

22 Интенсивность восстановления обратно пропорциональна времени восстановления. Время восстановления для ВС определяется: 1) временем восстановления аппаратуры; 2) временем восстановления информации. Время восстановления аппаратуры определяется: 1)временем обнаружения отказа системами контроля; 2)временем локализации отказа системами диагностирования; 3)временем ремонта. ЦОД – восстанавливаемая система, поэтому – некоторые определения, более системно…

23 Дисциплины обслуживания восстанавливаемых систем Под дисциплиной обслуживания понимается порядок восстановления отказавших элементов при кратных отказах. Виды дисциплин обслуживания (приоритетов): 1) Прямой приоритет – при отказе нескольких элементов первым восстанавливается первый отказавший элемент; 2) Обратный приоритет – при отказе нескольких элементов первым восстанавливается последний отказавший элемент; 3) Назначенный приоритет; 4) Неограниченное восстановление – каждый из элементов системы обладает своим ремонтным органом.

24 Метод расчета надежности восстанавливаемых систем Восстанавливаемую систему целесообразно рассматривать как систему массового обслуживания (СМО), в которой поток заявок на обслуживание представляет собой поток отказов. Каналами обслуживания являются ремонтные органы, восстанавливающие работоспособность. Будем считать, что справедливо экспоненциальное распределение наработки между отказами В этом случае для анализа надёжности восстанавливаемой системы при ординарных независимых отказах можно использовать теорию марковских случайных процессов и метод дифференциальных уравнений для вероятностей состояний (уравнений Колмогорова).

25 Расчет надежности восстанавливаемых систем методом графов – наш основной метод для расчета надежности ЦОД. При использовании метода для системы S необходимо иметь математическую модель в виде множества состояний системы S 1, S 2, …, S n, в которых она может находиться при отказах и восстановлениях элементов. Для рассмотрения принципа составления модели введены допущения: - отказавшие элементы системы (или сам рассматриваемый объект) немедленно восстанавливаются (начало восстановления совпадает с моментом отказа); - отсутствуют ограничения на число восстановлений; - если все потоки событий, переводящих систему (объект) из состояния в состояние, являются пуассоновскими (простейшими), то случайный процесс переходов будет марковским процессом с непрерывным временем и дискретными состояниями S 1, S 2, …, S n.

26 Расчет надежности с помощью графов Пусть имеется некоторая физическая система S, которая с течением времени меняет свое состояния, причем заранее неизвестным, случайным образом. Например, S – техническое устройство, состоящее из ряда узлов, которые время от времени выходят из строя, заменяются либо восстанавливаются. Если система S с течением времени t изменяет свои состояния S(t) случайным образом, то говорят, что в системе S протекает случайный процесс. В любой момент времени система пребывает только в одном из состояний, то есть для любого момента времени t найдется единственное состояние S i такое, что S(t) = S i. Определение. Марковским называется случайный процесс, протекающий в системе, если для любого момента времени t 0 вероятностные характеристики процесса в будущем зависят только от его состояния в данный момент t 0 и не зависят от того, когда и как система пришла в это состояние. Пусть в настоящий момент t 0 (см. рис.) система находится в определенном состоянии S 0. Нас интересует будущее состояние при t > t 0. Можно ли его предсказать? В точности - нет, т.к. процесс случайный. Но какие-то вероятностные характеристики процесса в будущем можно найти. Например, вероятность того, что через некоторое время t система S окажется в состоянии S i или сохранит состояние S 0, и т. п. Для марковского случайного процесса такое «вероятностное предсказание» оказывается гораздо проще, чем для немарковского. Если процесс - марковский, то предсказывать можно, только учитывая настоящее состояние системы S 0 и забыв о его «предыстории» (поведении системы при t< t 0 ). Само состояние S 0, разумеется, зависит от прошлого, но как только оно достигнуто, о прошлом можно забыть. Иначе формулируя, в марковском процессе «будущее зависит от прошлого только через настоящее». Связь будущего состояния системы с прошлым через настоящее

27 Приближенные методы анализа надежности В большинстве практических случаев расчет надежности сложных систем с помощью точных аналитических методов невозможен в связи со следующими особенностями решаемых задач: Большая размерность систем уравнений Сложность структурной схемы (схемы расчета надежности) системы Большие погрешности показателей надежности элементов сложной системы

28 Приближенный метод расчета надежности восстанавливаемых систем Поэтому делают допущения: 1)Время восстановления намного меньше времени безотказной работы 2)Интенсивности отказов и интенсивности восстановлений – постоянные величины 3)Отказы и восстановления отдельных подсистем – независимые случайные события Это, по своей сути – предположения о простейшем (Пуассоновском) потоке событий

29 ПОВТОР: Понятия теории надежности: язык математики Случайные события, следующие одно за другим в некоторой последовательности, образуют поток случайных событий. Ординарный поток событий - поток, при котором вероятность попадания двух событий на один и тот же малый участок времени Δt пренебрежительно мала (в один и тот же момент времени может произойти только одно событие). Поток без последействия - поток, при котором будущее развитие процесса появления событий не зависит от того, как этот процесс протекал в прошлом. Стационарный поток - поток, параметры которого не зависят от времени, т.е. плотность потока событий (среднее число событий в единицу времени) является постоянной. Поток, обладающий свойствами ординарности, стационарности и отсутствия последействия, называется простейшим потоком или стационарным пуассоновским потоком. За что же так любят простейший поток событий? 8-) Ввиду следующих факторов: имеется предельная теорема, согласно которой сумма большого числа независимых потоков с любыми законами распределения приближается к простейшему потоку с ростом числа слагаемых потоков; из практики исследования потоков отказов, потоков восстановлений и других потоков, имеющих место при исследовании надежности: простейшие потоки широко распространены

30 Приближенный метод расчета надежности восстанавливаемых систем Обозначения: - интенсивность отказов последовательной (параллельной) группы из n (m) подсистем К Г – коэффициент готовности последовательной (параллельной) группы из n (m) подсистем - интенсивность восстановлений последовательной (параллельной) группы из n (m) подсистем Те же переменные с индексами обозначают соответствующие показатели отдельных подсистем

31 Основные правила составления модели: 1. Математическую модель изображают в виде графа состояний. Элементы графа: а) кружки (вершины графа S 1, S 2, …, S n ) – возможные состояния системы S, возникающие при отказах элементов; б) стрелки – возможные направления переходов из одного состояния S i в другое S j. Над/под стрелками указываются интенсивности переходов.

32 Примеры графа: S 0 – работоспособное состояние; S 1 – состояние отказа.

33 «Петлей» обозначаются задержки в том или ином состоянии S 0 и S 1 соответствующие: - исправное состояние продолжается; - состояние отказа продолжается (в дальнейшем эти петли на графах не рассматриваем). Граф состояний отражает конечное (дискретное) число возможных состояний системы S 1, S 2, …, S n. Каждая из вершин графа соответствует одному из состояний. 2. Для описания случайного процесса перехода из состояния в состояние (отказ/ восстановление) применяют вероятности состояний P 1 (t), P 2 (t), …, P i (t), …, P n (t), где P i (t) – вероятность нахождения системы в момент t в i-м состоянии, т. е. P i (t) = P{S(t) = S i }.

34 Очевидно, что для любого t (нормировочное условие, поскольку иных состояний, кроме S 1, S 2, …, S n нет). 3. По графу состояний составляется система обыкновенных дифференциальных уравнений первого порядка (уравнений Колмогорова), имеющих вид: Правило составления уравнений: а) в левой части – производная по времени t от P i (t); б) число членов в правой части равно числу стрелок, соединяющих рассматриваемое состояние с другими состояниями; Приток, значит + Сток, значит –

35 Правило составления уравнений: а) в левой части – производная по времени t от P i (t); б) число членов в правой части равно числу стрелок, соединяющих рассматриваемое состояние с другими состояниями; Приток, значит + Сток, значит – в) каждый член правой части равен произведению интенсивности перехода на вероятность того состояния, из которого выходит стрелка; г) знак произведения положителен, если стрелка входит (направлена острием) в рассматриваемое состояние, и отрицателен, если стрелка выходит из него.

36 Правило составления уравнений: ….. Проверкой правильности составления уравнений является равенство нулю суммы правых частей уравнений. 4. Чтобы решить систему дифференциальных уравнений для вероятностей состояний P 1 (t), P i (t), …, P n (t) необходимо задать начальное значение вероятностей P 1 (0), P i (0), …, P n (0), при t = 0, сумма которых равна 1. Если в начальный момент t = 0 состояние системы известно, например, S(t=0) = Si, то P i (0) = 1, а остальные вероятности равны нулю.

37 Связь логической схемы надежности с графом состояний Переход от логической схемы к графу состояний необходим: 1) при смене методов расчета надежности и сравнении результатов; 2) для оценки выигрыша в надежности при переходе от невосстанавливаемой системы к восстанавливаемой. Рассмотрим типовые логические структуры надежности. Типовые соединения рассмотрены для: – невосстанавливаемых систем (граф – однонаправленный, переходы характеризуются Интенсивностью Отказов ). – Для восстанавливаемых систем в графах состояний добавляются обратные стрелки, соответствующие интенсивностям восстановлений.

38 Расчет надежности с помощью графов Итак, граф состояний: вершины – это состояния системы, дуги со стрелками – вероятности перехода от одной вершины к другой. Простейшие примеры графов (невосстанавливаемая система):

39 Нерезервированная восстанавливаемая система, состоящая из одного элемента. Система находится под действием пуассоновского (т.е. простейшего) потока отказов с интенсивностью. После отказа система начинает немедленно восстанавливаться (ремонтироваться). Поток восстановлений - пуассоновский с интенсивностью. В любой момент времени система может находиться в одном из двух состояний: S 0 - состояние работоспособности, S 1 - состояние отказа (ремонта), P 0 (t), P 1 (t) - вероятности нахождения системы в состояниях S 0, S 1 соответственно

40 Простейший граф состояний S0S0 S1S1 Требуется определить функцию готовности К г (t) и функцию простоя К п (t) нерезервированной восстанавливаемой системы. Функция готовности определяет вероятность нахождения системы в работоспособном состоянии в момент t, совпадает с вероятностью работоспособного состояния, т.е. К г (t) = Р 0 (t) Функция простоя совпадает в данном случае с вероятностью отказа, т.е. К п (t) = Р 1 (t)

41 Система дифференциальных уравнений Колмогорова при t = 0 система находилась в работоспособном состоянии, т.е. Для любого момента времени t имеем Решив систему, определяем характеристики надежности: S0S0 S1S1

42 При длительной эксплуатации, т.е. при t имеем: где К г - коэффициент готовности системы, К п - коэффициент простоя системы.

43 Расчет надежности с помощью графов Большое значение имеют марковские случайные процессы с дискретными состояниями и непрерывным временем. Процессом с дискретными состояниями называется процесс, если его возможные состояния S 1, S 2, S 3,... можно заранее перечислить (пронумеровать), и переход системы из состояния в состояние происходит «скачком», практически мгновенно. Процессом с непрерывным временем называется процесс, если моменты возможных переходов из состояния в состояние не фиксированы заранее, а неопределенны, случайны, если переход может осуществиться, в принципе, в любой момент. Будем рассматривать только процессы с дискретными состояниями и непрерывным временем. Пример такого процесса: система S состоит из двух узлов, каждый из которых в случайный момент времени может выйти из строя (отказать), после чего начинается ремонт узла, тоже продолжающийся заранее неизвестное, случайное время (рисунок 8.2). Состояния системы можно перечислить: S 0 - оба узла исправны, S 1 - первый узел ремонтируется, второй исправен, S 2 - второй узел ремонтируется, первый исправен, S 3 - оба узла ремонтируются. Рисунок 8.2. Граф отказов и восстановлений 2-х компонентной системы Переходы системы S из состояния в состояние происходят практически мгновенно, в случайные моменты выхода из строя того или другого узла или окончания ремонта. При анализе случайных процессов с дискретными состояниями используют граф состояний. Состояния системы изображаются прямоугольниками (или кругами, или даже точками), а возможные переходы из состояния в состояние - стрелками, соединяющими состояния. Граф состояний для данного примера представлен на рисунке. Стрелка, направленная из S 0 в S 1, означает переход в момент отказа первого узла; стрелка, направленная обратно, из S 1 в S 0, переход в момент окончания ремонта этого узла. Остальные стрелки объясняются аналогично. Предполагается, что узлы выходят из строя независимо друг от друга, а вероятностью строго одновременного выхода их из строя бесконечно мала.

44 Расчет надежности с помощью графов Мы помним, что происходит, когда узлы абсолютно одинаковы:

45 Расчет надежности с помощью графов Примеры графов резервированной системы: 2 μ 2μ2μ 2 μ μ μ 2μ2μ μ μ 0 1k n+ m Ω1Ω1 Λ0Λ0 m+ 1 Λ1Λ1 Λ k- 1 ΛkΛk ΛmΛm Λ m+1 Λ m+n-1 Ω2Ω2 ΩkΩk Ω k+1 Ω m+1 Ω m+ 2 Ω n+ m ……… Нагруженный резерв, элементы могут восстанавливаться как по одному так и одновременно Нагруженный резерв, элементы восстанавливаются по одному Ненагруженный резерв, элементы восстанавливаются по одному Ненагруженный резерв, элементы восстанавливаются без ограничений Общая схема системы с некоторым числом резервных элементов:

46 Восстанавливаемая система, состоящая из одного основного и n-1 резервных элементов Резервные элементы находятся в нагруженном режиме. Отказавшие элементы образуют очередь на ремонт, который осуществляется одной бригадой с интенсивностью. Интенсивность отказа любого элемента равна. Введём в рассмотрение состояния S 0, S 1, … S n, : S 0 - работоспособны все n элементов, S 1 - отказал один элемент, остальные работоспособны, S 2 - отказали два элемента, остальные работоспособны, S i - отказали i элементов, остальные работоспособны, ……………………………………………………. S n - отказала вся система, т.е. отказали все n элементов.

47 Граф состояний системы с резервными элементами S0S0 SnSn SiSi S2S2 S1S1 n (n - 1) (n - 2) (n i ) (n - i ) установившемся Система дифференциальных уравнений Колмогорова в установившемся режиме: ………. S 0 : S 1 : S n : S 2 : S i : ……….

48 Вероятности состояний Коэффициент простоя К п = Р n Коэффициент готовности К г =1 – К п = 1 – Р n Коэффициент готовности для n=2 :

49 Расчет надежности с помощью графов (из учебника) …….

50 Расчет надежности с помощью графов, из одного учебника То есть, Но мы же только что вывели: Почему различается? Ответ: в учебнике – последовательная структура, у нас – параллельная!

51 Последовательное соединение Параллельное соединение При неограниченном восстановлении В случае одной ремонтной бригады К г = 1- λ/µ

52 Расчет надежности с помощью графов Примеры графов однократно резервированной системы: 2 μ 2μ2μ 2 μ μ μ 2μ2μ μ μ Нагруженный резерв, элементы могут восстанавливаться как по одному так и одновременно Нагруженный резерв, элементы восстанавливаются по одному Ненагруженный резерв, элементы восстанавливаются по одному Ненагруженный резерв, элементы восстанавливаются без ограничений По состоянию резервных элементов до момента включения их в работу различают: нагруженный (горячий) резерв резервные элементы нагружены так же, как и основные – это и есть в ЦОД!; облегчённый (ждущий) резерв резервные элементы нагружены меньше, чем основные; ненагруженный (холодный) резерв резервные элементы практически не несут нагрузки

53 Действительно, отказ дублированной группы наступает лишь тогда, когда во время восстановления одного из узлов отказывает второй узел. Возможные состояния: "0" – оба узла исправны; "1" – отказ в одном узле; "2" – отказ в обоих узлах. Таким образом, состояния исправности системы – "0", "1", отказа – "2". При расчете такой модели получаются явно завышенные значения показателей надежности, не отражающие реальную надежность системы. При исходных значениях интенсивности отказов λ = 0, /ч (наработка на отказ составляет ч) и интенсивности восстановления µ = 0,25 1/ч (4 ч на восстановление) получим из расчета графа значение коэффициента готовности Кг = 0, (семь девяток). Притом что взятая наработка в 20 тыс. ч – это нижняя планка MTBF серверных платформ, обычно для серверов указывают значения 50–100 тыс. ч и, следовательно, результаты получаются даже более «хорошими». Отсюда возникает резонный вопрос: что лучше – подтвержденные три «девятки» или маркетинговые шесть? Отсюда возникает резонный вопрос: что лучше – подтвержденные три «девятки» или маркетинговые шесть? Кроме того, «пять девяток» декларируются, как правило, только для платформы; для конечной системы значения готовности будут совсем другими, не говоря уж о значениях RTO (Recovery Time Objective, целевое время восстановления). По приведенной выше модели ведется расчет и других резервируемых систем ЦОД: от телекоммуникационного оборудования до систем бесперебойного питания. Традиционный расчет надежности – некоторый сарказм экспертов… …Для доказательства высокой проектной оценки надежности часто применяют следующий «удобный» расчет дублированной группы серверов. Используется марковская цепь, приведенная на рисунке. В качестве параметров модели задаются интенсивности отказов λ и восстановления µ. Отказом считается выход из строя обоих узлов: состояние «2». 2 μ μ Нагруженный резерв, элементы восстанавливаются по одному

54 Действительно, отказ дублированной группы наступает лишь тогда, когда во время восстановления одного из узлов отказывает второй узел. Возможные состояния: "0" – оба узла исправны; "1" – отказ в одном узле; "2" – отказ в обоих узлах. Таким образом, состояния исправности системы – "0", "1", отказа – "2". При расчете такой модели получаются явно завышенные значения показателей надежности, не отражающие реальную надежность системы. При исходных значениях интенсивности отказов λ = 0, /ч (наработка на отказ составляет ч) и интенсивности восстановления µ = 0,25 1/ч (4 ч на восстановление) получим из расчета графа значение коэффициента готовности Кг = 0, (семь девяток). Притом что взятая наработка в 20 тыс. ч – это нижняя планка MTBF серверных платформ, обычно для серверов указывают значения 50–100 тыс. ч и, следовательно, результаты получаются даже более «хорошими». По приведенной выше модели ведется расчет и других резервируемых систем ЦОД: от телекоммуникационного оборудования до систем бесперебойного питания. Традиционный расчет надежности – из статьи: что НЕ упомянуто?… …Для доказательства высокой проектной оценки надежности часто применяют следующий «удобный» расчет дублированной группы серверов. Используется марковская цепь, приведенная на рисунке. В качестве параметров модели задаются интенсивности отказов λ и восстановления µ. Отказом считается выход из строя обоих узлов: состояние «2». Нагруженный резерв, элементы восстанавливаются по одному

55 Пусть значение интенсивности отказов λ = 0, /ч (наработка на отказ составляет ч) и интенсивности восстановления µ = 0,25 1/ч (t=4 ч на восстановление) получим из расчета графа: К г = 1 –P 0 = 1 - λ /µ 1/(1+ λ /µ + µ/(2λ))= /( /(0.0001)) = (параллельное соединение) К г =P 0 = µ 2 /((µ +λ) 2 +λ 2 ) = /( ) = / = (последовательное соединение) Из статьи: «Значение коэффициента готовности Кг = 0, » Притом что взятая наработка в 20 тыс. ч – это нижняя планка MTBF серверных платформ, обычно для серверов указывают значения 50–100 тыс. ч и, следовательно, результаты получаются даже более «хорошими». [авторы недоумевают, не верят и…. (в след. лекции)] Расчет надежности – для N=2 Посчитаем-ка сами, чтобы понять, какие неявные предположения еще приняты. λ = 0, /ч, µ = 0,25 1/ч

56 Резервирование систем ЦОДа Для увеличения надежности ЦОД применяют резервирование различных систем. Из документа SP– (Стандарт TIA-942): G.1.1 Общее представление о резервировании Для повышения степени резервирования и надёжности следует исключить точки одиночных отказов как в самом дата-центре и в поддерживающей инфраструктуре, так и во внешних сервисах и системе общего энергоснабжения. Резервирование повышает как отказоустойчивость, так и ремонтопригодность. Резервирование следует рассматривать в отдельности на каждом уровне каждой системы. … G.1.2 Общее представление об уровнях Настоящий Стандарт рассматривает четыре уровня, связанных с разной степенью готовности инфраструктуры оборудования дата-центра. Более высокие уровни соответствуют не только более высокой готовности, но также вызывают повышенные строительные затраты. Во всех случаях, уровни с более высоким рейтингом включают в себя требования к уровням более низкого рейтинга. Дата-центр может иметь разные рейтинги уровней для разных частей своей инфраструктуры. Например, дата-центр может иметь рейтинговый уровень 3 для электрооборудования, но уровень 2 для механического оборудования. Однако общий рейтинг этого дата-центра равен самому нижнему уровню по всем частям его инфраструктуры. Таким образом, если дата-центр имеет уровень 4 для всех частей инфраструктуры, кроме электрооборудования, где рейтинг равен 2, то весь дата-центр получает рейтинг 2. Общий рейтинг дата-центра совпадает с рейтингом самого слабого компонента. Следует уделять внимание поддержанию функциональных возможностей механической и электрической систем на правильном уровне, поскольку нагрузка на дата-центр с течением времени возрастает. Дата- центр может спуститься с уровня 3 или 4 до уровня 1 или 2 по мере того, как резервированная мощность будет использоваться для поддержки нового вычислительного и телекоммуникационного оборудования…..

57 Резервирование систем ЦОДа Из документа SP– (Стандарт TIA-942): G.2 Резервирование G.2.1 N - Базовое требование Система соответствует основным (базовым) требованиям и не имеет резервирования (избыточности). Примечание: N это – Need (только необходимые элементы) G.2.2 Резервирование N+1 (Need plus One) Резервирование N+1 предусматривает один дополнительный узел, модуль, путь (канал, тракт) или одну систему в дополнение к тому минимуму, который нужен для удовлетворения базового требования. Отказ или ремонт (техническое обслуживание) любого одного узла, модуля или тракта не нарушает работу. G.2.3 Резервирование N+2 Резервирование N+2 предусматривает два дополнительных узла, модуля, пути (канала, тракта) или две системы в дополнение к тому минимуму, который нужен для удовле творения базового требования. Отказ или ремонт (техническое обслуживание) любых двух одиночных узлов, модулей или трактов не нарушает работу. G.2.4 Резервирование 2N Резервирование 2N предусматривает два комплектных узла, модуля, пути (канала, тракта) или две системы для каждого(-ой) одного(-ой), требуемого(-ой) для базовой системы. Отказ или ремонт (техническое обслуживание) любого одного целого узла, модуля, тракта или системы не нарушает работу. G.2.5 Резервирование 2(N+1) Резервирование 2(N+1) предусматривает два комплектных (N+1) узла, модуля, пути (канала, тракта) или две системы. Даже в случае отказа или ремонта (технического обслуживания) любого одного узла, модуля, тракта или системы будет обеспечено некоторое резервирование и работа не будет нарушена.

58 Резервирование систем ЦОДа, снова об уровнях TIA Из документа SP– (Стандарт TIA-942): G Дата-центр уровня 2 – с резервированными (избыточными) компонентами Дата-центр уровня 2 имеет резервированные (избыточные) компоненты, но только один путь. Он имеет один путь для распределения электропитания и охлаждения, но имеет резервированные (избыточные) компоненты на этом пути распределения. Оборудование уровня 2 с избыточными компонентами несколько меньше подвержено нарушениям нормального хода работы от плановых и от внеплановых действий, чем базовый дата-центр уровня 1. Проектные возможности ИБП и генераторов имеют оценку N+1 (Need plus One), что означает однопоточный путь распределения по всей площади. Техническое обслуживание и ремонт критического пути электроснабжения и других частей инфраструктуры объекта потребует остановки процесса обработки данных. Из первой лекции: Уровень 1 это самый простой ЦОД, без резервирования какой бы то ни было избыточности и возможностей проведения регламентных работ без остановки систем. На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1. Уровень 3 это уже принципиально другой класс ЦОДов, в которых дублируется не только вычислительная система, но и системы распределения электропитания и кондиционирования. Наконец, уровень 4 это по сути два ЦОДа: самая надежная система, все компоненты и системы которой зарезервированы. Точек отказа у ЦОДов первого и второго уровней может быть много, у третьего несколько, но у ЦОДа уровня 4 их нет совсем.

59 Резервирование систем ЦОДа, снова об уровнях TIA Из документа SP– (Стандарт TIA-942): G Дата-центр уровня 3 – с возможностью параллельного проведения ремонтов Дата-центр уровня 3 имеет несколько путей распределения электропитания и охлаждения, но только один путь активен. Поскольку резервированные компоненты имеются не на одном пути распределения, эта система позволяет производить техническое обслуживание и ремонты параллельно с работой дата- центра. Возможности уровня 3 позволяют осуществлять любую плановую деятельность инфраструктуры объекта без какого-либо нарушения нормального хода работы технических средств машинного зала. К плановой деятельности относится профилактическое и программируемое техническое обслуживание, ремонт и замена компонентов, добавление или удаление компонентов, влияющих на производительность, тестирование компонентов и систем и пр. В дата-центрах, использующих охлаждённую воду, это означает наличие двух независимых комплекта труб. Необходимо иметь в наличии достаточную мощность и распределительные возможности, чтобы одновременно нести нагрузку на одном пути и в то же время выполнять ремонт или тестирование на другом пути. Внеплановые действия, например ошибки при эксплуатации или самопроизвольные отказы компонентов инфраструктуры объекта, всё же будут вызывать нарушения нормального хода работы дата-центра. Объекты уровня 3 зачастую проектируют с перспективой наращивания ресурсов до уровня 4, когда бизнес клиента оправдает стоимость дополнительной защиты. Объект должен находиться под управлением человека 24 часа в сутки. Из первой лекции: Уровень 1 это самый простой ЦОД, без резервирования какой бы то ни было избыточности и возможностей проведения регламентных работ без остановки систем. На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1. Уровень 3 это уже принципиально другой класс ЦОДов, в которых дублируется не только вычислительная система, но и системы распределения электропитания и кондиционирования. Наконец, уровень 4 это по сути два ЦОДа: самая надежная система, все компоненты и системы которой зарезервированы. Точек отказа у ЦОДов первого и второго уровней может быть много, у третьего несколько, но у ЦОДа уровня 4 их нет совсем.

60 ДАТА-Центр: надежность 3-ой уровень надежности ЦОД- tier 3 Дата-центр с данным уровнем надежности позволяет провести ремонтно- профилактические работы без остановки работы ЦОД. То есть возможна одновременно эксплуатация и техническое обслуживание центра обработки данных вплоть до замены компонентов системы, добавления и удаления вышедшего из строя оборудования. Чтобы обеспечить 3-ий уровень уже необходимо для системы охлаждения спроектировать и построить два трубопровода, обеспечить резервными мощностями работу всего оборудования с учетом выхода из строя или профилактики системы электроснабжения. Но ошибки в работе и отказы могут вызывать перебои в работе дата-центра. Имеет несколько путей (каналов) для распределения электропитания и охлаждения, но лишь один из них активен; имеет резервированные компоненты (обеспечение потребностей выражается в виде формулы «N+1») Время простоя за год 1,6 часа Коэффициент отказоустойчивости 99,982% Класс дата - центра Время доступности сервиса Сумма времени отказов за год Tier IV99,995%26 минут Tier III99,982%94 минуты Tier II99,749%22 часа Tier I99,671%29 часов

61 Резервирование систем ЦОДа, снова об уровнях TIA Из документа SP– (Стандарт TIA-942): G Дата-центр уровня 4 – отказоустойчивый Дата-центр уровня 4 имеет несколько активных путей распределения электропитания и охлаждения. Поскольку в дата-центре уровня 4 по крайней мере два пути являются нормально активными, то инфраструктура обеспечивает повышенную степень отказо- устойчивости. Дата-центры уровня 4 обеспечивают несколько путей подвода электропитания ко всем видам вычислительного и телекоммуникационного оборудования. Уровень 4 требует, чтобы всё компьютерное и телекоммуникационное оборудование имело несколько силовых входов (power inputs). Оборудование должно быть способно продолжать функционировать, когда один из этих силовых входов отключён. Оборудование, не имеющее нескольких встроенных силовых входов, потребует наличия автоматических переключателей (для перевода на другую электрическую линию) без разрыва тока. Уровень 4 предусматривает возможность и способность инфраструктуры объекта позволять любую плановую деятельность без нарушения нормального хода работы критически важной нагрузки. Отказоустойчивая функциональность также обеспечивает способность инфраструктуры дата-центра выдержать по крайней мере один внеплановый отказ (или событие) наихудшего свойства без последствий для критически важной нагрузки. Это требует одновременной активности путей распределения, обычно в конфигурации «Система+Система». С точки зрения электрооборудования, это означает наличие двух отдельных систем ИБП, в которых каждая система имеет резервирование N+1. В связи с правилами противопожарной безопасности и электробезопасности всё-таки будет происходить некоторое воздействие простоя из-за срабатывания пожарной сигнализации или из-за того, что кто-то из персонала инициирует процесс аварийного отключения нагрузки (EPO, Emergency Power Off). Инфраструктуры дата-центра уровня 4 являются наиболее совместимыми с ИТ-концепцией высокой эксплуатационной готовности, которая использует кластеризацию центральных процессоров (CPU), матрицу независимых дисковых накопителей с избыточностью/запоминающие устройства с прямым доступом (RAID/DASD) и дублированные коммуникации с целью достижения надёжности, готовности и ремонтопригодности. Из первой лекции: Уровень 1 это самый простой ЦОД, без резервирования какой бы то ни было избыточности и возможностей проведения регламентных работ без остановки систем. На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1. Уровень 3 это уже принципиально другой класс ЦОДов, в которых дублируется не только вычислительная система, но и системы распределения электропитания и кондиционирования. Наконец, уровень 4 это по сути два ЦОДа: самая надежная система, все компоненты и системы которой зарезервированы. Точек отказа у ЦОДов первого и второго уровней может быть много, у третьего несколько, но у ЦОДа уровня 4 их нет совсем.

62 ДАТА-Центр: надежность 4-ой уровень надежности ЦОД- tier 4 Отказоустойчивый дата-центр с резервированием всех систем, позволяющий выполнить любые плановые и внеплановые работы без прерывания работы ЦОД. На этом уровне обеспечивается надежная защита от сбоев. Чтобы отвечать требованию 4-ого уровня надежности необходимо дублирование всех систем с учетом того, что в каждой системе и ее «резервной копии» будет находиться, как минимум, еще один дополнительный компонент, обеспечивающий резервирование по схеме «N+1». То есть в дата-центре должно быть резервирование системы на уровне «N+1» и сама система еще должна быть, как минимум, продублирована. Отказы могут иметь место в случаях ручного аварийного отключении системы электроснабжения и срабатывания системы пожарной безопасности. На 4-ом уровень даже структурированная кабельная система должна быть полностью зарезервирована. Системы имеют двойное резервирование с учетом, как минимум, дополнительного компонента Имеет несколько активных путей распределения нагрузки и охлаждения с резервными компонентами 2 (N+1), т.е. 2 ИБП с избыточностью N+1 каждый (обеспечение потребностей выражается в виде формулы «2 (N+1)») Время простоя за год 0,4 часа Коэффициент отказоустойчивости 99,995% Класс дата - центра Время доступности сервиса Сумма времени отказов за год Tier IV99,995%26 минут Tier III99,982%94 минуты Tier II99,749%22 часа Tier I99,671%29 часов

63 ДАТА-Центр: надежность …….

64 Резервирование систем ЦОДа Для увеличения надежности ЦОД применяют резервирование различных систем. Из документа SP–3-0092: (Стандарт TIA-942) Резервирование телекоммуникационной инфраструктуры На рис. представлены различные резервные компоненты телекоммуникационной инфраструктуры, которые можно добавить к базовой инфраструктуре. Надёжность телекоммуникационной инфраструктуры можно повысить, предусмотрев резервные зоны перекрёстного соединения и физически разделенные кабельные каналы. Обычная практика для дата-центров – иметь несколько провайдеров доступа, поставляющих услуги, а также иметь резервные маршрутизаторы, резервное центральное распределение (core distribution) и оконечные коммутаторы (edge switches). Хотя такая топология сети обеспечивает определённый уровень резервирования, но всё же одно только дублирование сервисов и аппаратуры не обеспечивает исключения единых точек отказов.

65 Резервирование телекоммуникационной инфраструктуры Резервные смотровые люки и внешние кабельные каналы Резервные сервисы провайдеров доступа Резервирование комнат ввода Резервная главная распределительная зона Резервная магистральная разводка Резервная горизонтальная разводка Но: резервирование делать разумно, «без фанатизма» (С). Далее - примеры: Резервные смотровые люки и внешние кабельные каналы: …Наличие нескольких внешних кабельных каналов от собственной линии провайдера к комнате (комнатам) ввода исключает единую точку отказа для провайдерских сервисов, входящих в здание. Смотровые люки и внешние кабельные каналы должны находиться с противоположных сторон стены здания и должны быть удалены друг от друга по крайней мере на 20 м. В дата-центрах с двумя комнатами ввода и двумя смотровыми люками нет необходимости устанавливать кабельные трубопроводы от каждой комнаты ввода к каждому из двух смотровых люков. При такой конфигурации от каждого провайдера доступа обычно требуют установить два внешних кабеля, один к главной комнате ввода через главный смотровой люк, и один ко вспомогательной комнате ввода через вспомогательный смотровой люк. Кабельные трубопроводы от главного смотрового люка к вспомогательной комнате ввода и от вспомогательного смотрового люка к главной комнате ввода обеспечивают гибкость, но не являются обязательными. Резервирование систем ЦОДа

66 Резервирование телекоммуникационной инфраструктуры Резервные смотровые люки и внешние кабельные каналы Резервные сервисы провайдеров доступа Резервирование комнат ввода Резервная главная распределительная зона Резервная магистральная разводка Резервная горизонтальная разводка Резервные сервисы провайдеров доступа: …С целью обеспечения непрерывности услуг связи, поставляемых дата-центру провайдерами доступа, можно привлечь несколько провайдеров, использовать несколько провайдерских центральных офисов, а также предусмотреть несколько разных кабельных трасс от провайдеров доступа к дата-центру. Наличие нескольких провайдеров обеспечит непрерывность связи в случае масштабной аварии у провайдера или в случае его финансового краха, способного повлиять на сервис. Но всё же одно лишь использование нескольких провайдеров доступа не гарантирует непрерывности сервиса, поскольку провайдеры часто сообща занимают площадь в центральных офисах и совместно используют трубопроводные трассы. Пользователю следует обеспечить такое положение, при котором сервисы поставляются из разных провайдерских центральных офисов и кабельные трассы к этим центральным офисам идут по разным маршрутам. Эти трассы должны быть физически отдалены друг от друга на расстояние не менее 20 м во всех точках по всей длине этих трасс. Резервирование систем ЦОДа

67 Резервирование телекоммуникационной инфраструктуры Резервные смотровые люки и внешние кабельные каналы Резервные сервисы провайдеров доступа Резервирование комнат ввода Резервная главная распределительная зона Резервная магистральная разводка Резервная горизонтальная разводка Резервирование комнат ввода: … Несколько комнат ввода можно устроить с целью резервирования, а не только для того, чтобы обойти ограничения на максимальную длину линии. Наличие нескольких комнат ввода повышают степень резервирования, но усложняет организационное управление. Следует весьма внимательно распределить линии между комнатами ввода. Провайдеры доступа должны установить своё оборудование в обеих комнатах ввода таким образом, чтобы линии всех требуемых типов можно было подготовить к работе (инициировать) из каждой комнаты. Инициирующее оборудование провайдера в одной комнате ввода не должно быть подчинённым по отношению к оборудованию в другой комнате ввода. Оборудование провайдера в каждой из комнат ввода должно быть способно работать в случае отказа в другой комнате ввода. Две комнаты ввода следует отодвинуть друг от друга на расстояние не менее 20 м и разместить в раздельных огнезащитных зонах. Комнаты ввода не должны иметь общих распределительных щитов питания и общего оборудования для 1 кондиционирования воздуха.

68 Резервирование систем ЦОДа Резервирование телекоммуникационной инфраструктуры Резервные смотровые люки и внешние кабельные каналы Резервные сервисы провайдеров доступа Резервирование комнат ввода Резервная главная распределительная зона Резервная магистральная разводка Резервная горизонтальная разводка Резервная главная распределительная зона : Второстепенная распределительная зона обеспечит дополнительное резервирование, но при этом усложнится организационное управление. Основные маршрутизаторы и коммутаторы следует распределить между главной распределительной зоной и второстепенной распределительной зоной. Линии также следует распределить между двумя этими зонами. Устраивать второстепенную распределительную зону не имеет смысла, если машинный зал представляет собой единое пространство, поскольку пожар в одной части дата-центра потребует, вероятно, отключения всего дата-центра целиком. Второстепенную распределительную зону и главную распределительную зону следует размещать в раздельных огнезащитных зонах, снабжать энергией от разных распределительных щитов питания и оснащать отдельными системами кондиционирования воздуха.

69 Резервирование систем ЦОДа Резервирование телекоммуникационной инфраструктуры Резервные смотровые люки и внешние кабельные каналы Резервные сервисы провайдеров доступа Резервирование комнат ввода Резервная главная распределительная зона Резервная магистральная разводка Резервная горизонтальная разводка Резервная магистральная разводка : Резервная магистраль защищает от общего выхода из строя вследствие отказа магистральной кабельной разводки. Резервная магистраль может быть устроена по-разному, в зависимости от желаемой степени защиты. Магистральная разводка между двумя зонами, например, между горизонтальной распределительной зоной и главной распределительной зоной, может быть выполнена путём укладки двух кабелей между этими зонами, предпочтительно по двум разным маршрутам. Если дата-центр имеет главную распределительную зону и второстепенную распределительную зону, то укладывать резервирующую магистральную разводку к горизонтальной распределительной зоне нет необходимости, однако кабели к главной распределительной зоне и второстепенной распределительной зоне следует проложить по разным маршрутам. Некоторую степень резервирования можно также обеспечить путём установки магистрального кабеля между горизонтальными распределительными зонами. Если магистральная разводка от главной распределительной зоны к горизонтальной распределительной зоне будет повреждена, можно будет переключать соединения через другую горизонтальную распределительную зону.

70 Резервирование систем ЦОДа Резервирование телекоммуникационной инфраструктуры Резервные смотровые люки и внешние кабельные каналы Резервные сервисы провайдеров доступа Резервирование комнат ввода Резервная главная распределительная зона Резервная магистральная разводка Резервная горизонтальная разводка Резервная горизонтальная разводка : Горизонтальную кабельную разводку к критически важным системам можно проложить по разным маршрутам, чтобы повысить степень резервирования. При выборе маршрутов следует соблюдать осторожность, чтобы не превысить максимально допустимую длину горизонтального кабеля. Для критически важных систем можно предусмотреть две разные горизонтальные распределительные зоны, если только не превышать ограничений на максимальную длину кабелей. Но такая степень резервирования, возможно, не обеспечит намного более надёжную защиту, чем укладка горизонтальной разводки по разным маршрутам, если две эти горизонтальные распределительные зоны находятся в одной и той же огнезащитной зоне.

71 Рефераты по расчетам надежности ЦОД 1. Надежность провайдерских линий связи ЦОД и их влияние на надежность Дата-Центра в целом. 2. Надежность кабельной системы ЦОД и ее влияние на надежность Дата-Центра в целом. 3. Надежность системы энергоснабжения ЦОД и ее влияние на надежность Дата-Центра в целом 4. Надежность систем кондиционирования ЦОД и ее влияние на надежность Дата-Центра в целом. 5. Надежность систем пожаротушения ЦОД и ее влияние на надежность Дата-Центра в целом. 6. Системы мониторинга и их влияние на общую надежность ЦОД. 7. Надежность серверного узла ЦОД и его влияние на оценку надежности Дата-Центра в целом. 8. Надежность работы автоматизированной системы управления ЦОД и ее влияние на оценку надежности Дата-Центра в целом. 9. Оценка влияния DDoS атак на надежность ЦОД, методы борьбы. 10. Стандарт надежности ЦОД ТИА-942 и другие документы по надежности Дата-Центров. 11. Влияние скрытых отказов на надежность ЦОД. 12. Катастрофоустойчивые ЦОД. 13. Влияние человеческого фактора на надежность ЦОД. 14. История и перспективы развития в будущем уровней надежности дата-центров. 15. Статистика уровней надежности дата-центров у нас в стране и в мире в целом. 16. Оценка надежности программных комплексов. 17. Свободная тема (дата-центры / теория надежности). 18. Свободная тема (дата-центры / теория надежности). 19. Свободная тема (дата-центры / теория надежности). 20. Свободная тема (дата-центры / теория надежности). Подготовить рефераты: 10 страниц - прислать по е-мэйлу Сдача через 22/03/2014, ~10 минут (+ презентация на 5-15 слайдов!)

72 Спасибо за внимание! Вопросы ?

Скачать бесплатно презентацию на тему "Лекция III: Оценка надежности центров обработки данных. Метод графов. К.ф.-м.н. Самодуров В.А. (sam@prao.ru), базовая кафедра группы компаний Стек sam@prao.ru." в формате .ppt (PowerPoint)

Лекция III: Оценка надежности центров обработки данных. Метод графов. К.ф.-м.н. Самодуров В.А. (sam@prao.ru), базовая кафедра группы компаний Стек sam@prao.ru. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Лекция III: Оценка надежности центров обработки данных. Метод графов. К.ф.-м.н. Самодуров В.А. (sam@prao.ru), базовая кафедра группы компаний Стек sam@prao.ru. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь