От Статистики до Статистики Яндекс Докладчик: Юхно Олег руководитель группы администрирования 11
О чем я хочу рассказать? Развитии системы статистики 2 Проблемах и их решении
Зачем нужна система расчета статистики 3
Почему нужна система расчета статистики 4 Много проектов Много данных Потребовалось считать статистику регулярно и единообразно
5
6 Сначала данных и проектов было мало < 10Gb в сутки
Исходная архитектура 7 в СУБД складываем только необходимые фрагменты строк из лога СУБД резервируем считаем возможности экстенсивного роста неограниченными Проблема: конструкция не масштабируется.
8
9 Данных и проектов еще было мало < 100Gb в сутки
Первая попытка масштабирования кластеризация считающих машин("парсеров") кластеризация СУБД SAN с использование iscsi Проблема: все пропало, сеть не может обеспечить нужную производительность :( 10
11
Когда данных стало Гб в сутки 12
Вторая попытка масштабирования 13 Пределы экстенсивного роста Научились эффективно балансировать нагрузку на сеть (а именно TCP сессии iscsi) Учли особенности работы с кластеризованной СУБД Проблема: монолитность системы
Вторая попытка масштабирования 14 Пределы экстенсивного роста
Финальное решение
16
17
18 Сейчас ежесуточно статистика обрабатывает 2-3Тб данных
19
"оптимальность инструмента" расчетов разделение монолитной системы на обособленные функциональному признаку подсистемы 11 Пересмотр архитектуры
А будет еще больше… 21 Рост в 3-4 раза каждый год!
Пересмотр архитектуры: почему? Недостатки старой архитектуры: - сложности масштабирования - монолитность системы Достоинства старой архитектуры: - единая точка входа - SQL-интерфейс - ну и то что она как-то работает :) 22
Пересмотр архитектуры: почему? 23 Недостатки новой архитектуры: Необходимость локализации расчетов Достоинства новой архитектуры Масштабируемость Надежность Большая емкость вычислительных и сетевых ресурсов
Итог: 24 Нерешаемые проблемы решаются просто Децентрализация системы сильно упрощает ее обслуживание. Децентрализация системы повышает ее надежность. (возможно этот слайд нафиг не нужен)
Итог: 25 Децентрализация системы Специализация компонентов Автономность компонентов «Простота» компонентов ОтказоустойчивостьПроизводительность Простота в обслуживании и высокая эффективность
Спасибо! Юхно Олег руководитель группы администрирования 26