Эволюция архитектур систем статистики Максим Зотов, Герман Клименко. Компания LiveInternet.ru РИФ 2006, 22 марта
Эволюция архитектур систем статистики В последние годы продолжается быстрый рост производительности процессоров и оперативной памяти. Вместе с тем производительность и скорость работы жестких дисков практически не возрастает. С этим связаны изменения в подходах к построению систем, работающих с высокой нагрузкой. Местом хранения данных становится не жесткий диск, а оперативная память – её объемы позволяют, при эффективном хранении, размещать там достаточное количество данных. Например статистика LiveInternet хранит всю информацию за текущий день, а это более 230 млн просмотренных страниц. Пример старой архитектуры – TopMail (бывший TopList), где в оперативной памяти хранятся только последние просмотры. Разделение задачи статистики на онлайновую статистику(которая генерируется по мере работы) и анализ логов – обработку «сырых» данных по запросу пользователя.
Общая архитектура работы сервисов статистики LiveInternet Прием информации о просмотре страниц, генерация цифр на счетчиках на основе статистики и отдача картинок-счетчиков. Просмотр страницы 230 млн в сутки Хранение статистики за текущий день. Архив статистики за все время Раз в сутки Статистические отчеты – за все время (по архиву) и «онлайн» Просмотр отчета по сайту 200 тыс. раз в сутки Поиск по сайтам (на основе засчитанных поисковых переходов) 330 млн единиц индексации (учитываемые переходы на страницы) Поисковый запрос Хранилище необработанных данных за 30 суток. Отчеты по запросу пользователя (экспресс-аудит) Сервисы для маркетологов