Введение
Дата-центры (центры обработки данных, ЦОД) играют ключевую роль в инфраструктуре глобальной сети Интернет, осуществляя хостинг, обработку и хранение данных веб-сайтов, а также предоставляя облачные сервисы. Дата-центры давно стали системами критического применения. Отказ даже одного сервера вследствие проблем с электроснабжением с частичной потерей данных в большинстве случаев приводит к тяжелым финансовым последствиям как для пользователей, так и для владельцев дата-центра.
Современные дата-центры крупных интернет-компаний являются по сути промышленными объектами, которые занимают большие площади и требуют отдельного электроснабжения. Так например один из небольших дата-центров компании Facebook занимает 2300 м2 и с суммарным потреблением 5 МВт [1].
В этой связи, вопросы проектирования и моделирования резервных источников бесперебойного питания (UPS, ИБП) дата-центров как объектов критического применения являются актуальными и требуют всестороннего исследования.
Простейшим подходом к моделированию динамики систем с резервированием является применение цепей Маркова [2]. Однако, средняя наработка до отказа для систем бесперебойного питания зависит от состояния заряда батареи на момент отключения электрической сети. Естественным формализмом моделирования подобных систем является полумарковский процесс [2]. Вопросам моделирования восстанавливаемых систем с помощью полумарковских процессов посвящены монографии отечественных [3] и зарубежных ученых [4].
Полумарковская модель
Пусть отказ и восстановление электропитания подчиняются классическими требованиями для марковских процессов непрерывного времени: переходы между состояниями статистически независимы и подчинены экспоненциальному распределению с интенсивностью отказов и восстановления , соответственно. Таким образом, имеем два марковских состояния 1 – присутствие напряжения в сети, 2 – отказ электропитания с активацией бесперебойного источника. Кроме того, существует еще одно состояние 3, в которое переходит система при полном разряде батареи – полный отказ электроснабжения, в том числе резервного. Очевидно, что переход из 2 в 3 (как и из 2 в 1) не подчиняется условиям классического марковского процесса и зависит от состояния заряда батареи (показаны на рисунке 1 серым цветом). Пусть величина – время работы системы от аккумулятора. Переход из 2 в 3 происходит если за время электроснабжение не восстановлено. Переход из 3 в 1 происходит в соответствии с экспоненциальным распределением с интенсивностью восстановления .
Рисунок 1. Диаграмма состояний полумарковской модели ИБП.
Отсюда имеем следующую матрицу переходных вероятностей
где
– вероятность того, что электроснабжение откажет до или в момент времени ;
– вероятность того, что электроснабжение будет восстановлено до момента времени ;
– вероятность того, что электроснабжение не будет восстановлено до момента времени ;
– вероятность того, что электроснабжение будет восстановлено до или в момент времени ;
– единичная ступенчатая функция.
Интересующий параметр – стационарный коэффициент готовности, который выражается через финальную вероятность нахождения в состоянии 3:
Для вычисления запишем уравнения марковского восстановления [4]:
, (1)
где , – вероятность нахождения в состоянии после состояния в момент времени , – символ Кронекера, , – вероятность того, что система не покинет состояния до момента времени :
.
Первое слагаемое в (1) удобно представить в виде диагональной матрицы с элементами :
.
Далее уравнение (1) может быть записано в операторной форме, если осуществить преобразование Лапласа для всех элементов матриц:
,
,
.
Если также учесть, что второе слагаемое в (1) – свертка, которая есть произведение операторных образов функций и , то в матричном операторном виде (1) записывается как:
.
Отсюда
,
где – единичная диагональная матрица.
Согласно предельной теореме для преобразования Лапласа, получаем матрицу установившихся вероятностей переходов:
.
Кроме того, вследствие эргодичности полумарковского процесса, все элементы столбцов матрицы окажутся равными между собой, т.е. мы можем взять любую строку в качестве финальных вероятностей, например первую
.
Непосредственные вычисления дают:
,
,
.
В силу относительной простоты выражений для , инверсия матрицы может быть выполнена аналитически и выражения для могут быть получены в явном виде. В настоящей работе был использован пакет символьных вычислений Symbolic Toolbox для системы Matlab в качестве инструмента автоматических преобразований формул.
Искомая вероятность для определения коэффициента готовности определятеся как:
.
Обратное преобразование Лапласа дает вероятность пребывания в аварийном состоянии в явном виде:
.
Отсюда непосредственно получается финальная вероятность и стационарный коэффициент готовности
,
.
Очевидно, что по заданному коэффициенту готовности можно определить требуемую емкость батареи , что является основной задачей выбора ИБП для ЦОД:
.
Из общеизвестных положений теории надежности [2], коэффициент готовности определяется как отношение наработки на отказ к общему периоду работы (наработки на отказ и времени восстановления ):
.
Среднее время восстановления для экспоненциального распределения равно , отсюда можно вычислить среднюю наработку на отказ:
.
Имитационное моделирование
Для верификации аналитической модели было проведено имитационное моделирование в среде Matlab.
Рассмотрим пример, приближенный к реальности, на основе ЦОД с полной нагрузкой 100 кВт и соответствующего ИБП типа Symmetra PX 100KW, обеспечивающего минут непрерывной работы системы от аккумуляторов. Под восстановлением работоспособности можно понимать время запуска и выхода на режим аварийных генераторов, взяв вполне реалистично минуты. Внеплановое отключение электричества в среднем происходит один раз в год, что дает среднее время между отказами минут. Для большей репрезентативности моделирования, представим гипотетическую ситуацию когда питание отключается в среднем каждые минут (что на 5 порядков больше реальной интенсивности отказов).
Моделирование полумарковского процесса осуществлялось до достижения 1000 переходов между состояниями. Заряд батареи варьировался в пределах минут с шагом 0.1. Каждый численный эксперимент для конкретного был проведен 500 раз с целью накопления необходимой статистики для оценки среднего и вычисления доверительных интервалов (с уровнем 0.95).
Результаты моделирования показаны на рисунке 2.
Рисунок 2. Результаты имитационного моделирования и аналитическая зависимость
Как следует из представленных результатов, разработанная аналитическая модель для оценки полностью согласуется с данными имитационного моделирования.
Исходный код имитационной модели вместе со всеми необходимыми функциями для Matlab можно скачать по ссылке:
https://sites.google.com/site/akpc806a/SemiMarkov_ups.rar
Библиографический список
- Ali Ghiasi, Rich Baca. Overview of Largest Data Centers // Interim Meeting Material, May 12 – 14, 2014, Norfolk, USA [Электронный ресурс] — Режим доступа. — URL: http://www.ieee802.org/3/bs/public/14_05/ghiasi_3bs_01b_0514.pdf (дата обращения 10.08.2015)
- Черкесов Г. Н. Надежность аппаратно-программных комплексов. Учебное пособие. — СПб.: Питер, 2005. — 479 с.
- Копп В. Я. Стохастические модели автоматизированных производственных систем с временным резервированием / В. Я. Копп, Ю. Е. Обжерин, А. И. Песчанский. — Севастополь, 2000. — 285 c.
- Kulkarni V. G. Modeling and Analysis of Stochastic Systems — CRC Press, 1996. — 634 pp.