Мониторинг в Mail.Ru Group Лихобабин Сергей Руководитель отдела внутренней разработки
Зачем нужен мониторинг? Мы хотим быть в курсе: Если что-то сломалось Если что-то скоро сломается Если что-то ломается часто
Платформа мониторинга Mail.Ru Group Как устроена? Почему не готовое решение? Почему платформа?
Немного статистики Более 20 тысяч хостов Более 50 тысяч событий за день Более 820 тысяч проверяемых параметров
Почему не готовое решение? Скорость Гибкость Интеграция c другими сервисами
Что проверяем? Оборудование Производительность Безопасность Сетевая связность и параметры сети Логика приложений
Что проверяем: Оборудование Температура Параметры ИБП
Что проверяем: Безопасность Уязвимые версии пакетов Автоматические сканы уязвимостей Проверки пользователей и ключей на машинах
Что проверяем: Производительность Graphite Север-side Client-side Slow Query log анализ Отставания репликации
Что проверяем: Бизнес-логика Паттерны в логах Проверяем пользовательские сценарии Генерация инцидентов приложением
Что проверяем: Сетевая связность DNS Резолвинг из разных точек IPv4 и IPv6 Закрытость служебных сервисов извне
Архитектура мониторинга Отсутствие единой точки отказа Распределенные демоны активного мониторинга Мониторинг as a service
Архитектура мониторинга
Демоны активного мониторинга Проверки статуса систем (PING, SNMP, TCP, DNS) Проверки приложений (HTTP, DNS, SMTP и др.) Асинхронный опрос Простая инициализация новых инстансов
Мониторинг as a service Агрегация инцидентов Прием сообщений из других систем мониторинга, специфичных для проектов Простой REST интерфейс
API мониторинга Максимально простая реализация со стороны клиента Оптимизированная отправка ОК статусов Идентификация клиентов мониторингом
Интеграция с внутренними системами Централизованная авторизация Интеграция с таск-трекером(Jira) Интеграция с 1С (закупки железа) Интеграция с внутренним порталом(отпуска) Мониторинг базовых параметров при заведении сервера в инвентаре
Интеграция в процессы Простейший таск-трекер Иерархии ответственности История событий и действий Автоматические уведомления и дежурные
Гибкие уведомления Настраиваемые условные уведомления Уведомление при превышении порога в группе серверов Зависимость от времени суток, дня недели, графика дежурств
SLA Время реакции на проблему Количество проблем в зоне ответственности Среднее время решения
Мониторинг мониторинга Отслеживание «живучести» демонов Проверки из разных ДЦ Создание событий мониторинге о проблемах в мониторинге
Спасибо за внимание