Н.В. Курмышев, М.И. Кривый, С.Н. Сидорин ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АНАЛИЗА ОБРАЩЕНИЯ К ИНТЕРНЕТ-РЕСУРСАМ Новгородский государственный университет Докладчик: Курмышев Николай Васильевич, к.т.н., проректор по НИТ НовГУ, Тел. +7 (8162) АНАЛИЗ ВРЕМЕННЫХ ХАРАКТЕРИСТИК РАБОТЫ ПОЛЬЗОВАТЕЛЯ С ИНТЕРНЕТ-РЕСУРСОМ
Программный комплекс для анализа обращения к Интернет-ресурсам 2 Состав программного комплекса модуль сбора статистики; модуль выделения групп пользователей; модуль частичного анализа статистики; модуль построения сводных отчетов.
Программный комплекс для анализа обращения к Интернет-ресурсам 3 Модуль сбора статистики IP-адрес пользователя Дата и время обращения к ресурсу Тип запроса Адрес запрашиваемого объекта Адрес ссылающейся страницы Информация о браузере пользователя Объем полученных данных Модуль сбора статистики собирает следующую информацию:
Программный комплекс для анализа обращения к Интернет-ресурсам 4 Модуль выделения групп пользователей Разделение производилось по IP адресам пользователей. Для этих целей была разработана база данных содержащая информацию о принадлежности определенных IP адресов к соответствующим группам. Группы пользователи было сформированы по региональным интернет- провайдерам: Все пользователи Новлайн Новгород-Дейтаком Максима Комьюникейшнс Новгородский Государственный Университет имени Ярослава Мудрого Остальные пользователи
Программный комплекс для анализа обращения к Интернет-ресурсам 5 Модуль частичного анализа статистики Для каждого из полученных журналов обращений производились краткий анализ статистики посещаемости ресурса. Для этих целей использовался программный комплекс Webalizer. Webalizer позволил выделить непоказтельные временные промежутки и исключить их из дальнейшего анализа.
Программный комплекс для анализа обращения к Интернет-ресурсам 6 Модуль построения сводных отчетов Для окончательного анализа информации по обращениям был разработан программный комплекс вычисляющий количество обращений по минутам, часам и дням для каждой из групп. Полученные данные были экспортированы в Microsoft Excel, где в полуавтоматическом режиме были выделены моменты пиковых нагрузок и построены сводные таблицы и графики для этих промежутков времени.
Анализ временных характеристик работы пользователя с Интернет-ресурсом 7 Процесс работы пользователя с ресурсом Пользователь запрашивает страницу; Источник ресурса отправляет браузеру список объектов на странице; Браузер пользователя, последовательно посылает источнику запросы на получение этих объектов; Источник передает запрашиваемые объекты данных браузеру; После получения всех необходимых объектов браузер формирует страницу.
Анализ временных характеристик работы пользователя с Интернет-ресурсом 8 Детализированная временная диаграмма работы пользователя с ресурсом
Анализ временных характеристик работы пользователя с Интернет-ресурсом 9 Разработка анализатора протоколов Для получения и последующего анализа временных характеристик работы пользователя с Интернет-ресурсом был создан программный анализатор протоколов. Данный анализатор путем обработки логов исследуемого прокси-сервера и (или) сервера Интернет-ресурса позволяет получать различную статистическую информацию, такую как: общее количество обращений к ресурсу; количество обращений по заданному временному интервалу (неделя, день, час); временные задержки обработки различных запросов с точностью до 1 секунды; позволяет производить фильтрацию обращений по IP адресам (отдельным пользователям или группам пользователей) и многое другое. Анализ полученной информации позволяет выявлять характеристики и свойства исследуемых объектов (пользователей и ресурсов).
Анализ временных характеристик работы пользователя с Интернет-ресурсом 10 Время между запросами отдельных пользователей Задача 1. Определение вида распределения плотности вероятности времени между запросами к страницам Интернет-ресурса со стороны отдельных пользователей Подопытные ресурсы различной тематики: С помощью анализатора произведена обработка логов протоколов доступа к этим ресурсам за один из произвольных дней их работы. Построены распределения плотности вероятности времени между запросами к страницам Интернет-ресурса со стороны отдельных активных пользователей. Активными считались пользователи, многократно обращающиеся к ресурсу в заданном промежутке времени (15 минут).
Анализ временных характеристик работы пользователя с Интернет-ресурсом 11 Типичные результаты эксперимента
Анализ временных характеристик работы пользователя с Интернет-ресурсом 12 Время между запросами отдельных пользователей и стандартным отклонением. Анализ более чем ста результатов экспериментов (различные дни, временные промежутки, пользователи) на нормальность вида полученных распределений по критерию Пирсена показал, что они соответствуют нормальному распределению случайной величины. Таким образом, можно считать, что интервалы между пользовательскими запросами к источнику ресурса имеют нормальное распределение с индивидуальными для каждого пользователя и ресурса характеристиками: математическим ожиданием и стандартным отклонением.
Анализ временных характеристик работы пользователя с Интернет-ресурсом 13 Время между запросами отдельных пользователей n – номер пользователя; T n – случайная, нормально распределенная величина интервала времени между пользовательскими запросами; µ n – математическое ожидание интервала времени между запросами; σ n – стандартное отклонение интервала времени между запросами. Таким образом, функцию распределения времени между запросами пользователя можно выразить через функцию Лапласа:
Анализ временных характеристик работы пользователя с Интернет-ресурсом 14 Время между запросами группы пользователей Задача 2. Определение вида распределения плотности вероятности времени между запросами к страницам Интернет-ресурса со стороны группы пользователей. Если исходить из того, что плотность распределения запросов от отдельных пользователей имеет нормальный вид, то можно предполагать, что плотность запросов от большого числа одновременно работающих пользователей будет иметь также нормальный вид.
Анализ временных характеристик работы пользователя с Интернет-ресурсом 15 Запросы от нескольких пользователей Проекция пользовательских запросов на единую временную ось Пользовательские запросы к источнику ресурса
Анализ временных характеристик работы пользователя с Интернет-ресурсом 16 Время между запросами группы пользователей Применяя центральную предельную теорему Линдеберга можно показать, что общая частота потока запросов будет иметь нормальное распределение:, при, где Здесь N (M, D) – обозначение нормального распределения случайной величины с математическим ожиданием M и дисперсией D.
Анализ временных характеристик работы пользователя с Интернет-ресурсом 17 Время между запросами группы пользователей Для подтверждения правильности сделанных выводов была проведена вторая серия экспериментов с теми же Интернет-ресурсами. С помощью анализатора произведена обработка логов протоколов доступа к этим ресурсам за один час их пиковой (максимальной) загрузки. Обработка производилась с дискретностью в 1 минуту. В ходе обработки подсчитывалось количество запросов за каждую минуту этого часа, рассчитывались плотность распределения количества запросов в этом часовом диапазоне, математическое ожидание и стандартное отклонение количества запросов в минуту на этом часовом диапазоне.
Анализ временных характеристик работы пользователя с Интернет-ресурсом 18 Результаты эксперимента Типичные результаты эксперимента для ресурса в час пик: Количество обращений за каждую минуту в течение часа пик Стандартное отклонение за каждую минуту
Анализ временных характеристик работы пользователя с Интернет-ресурсом 19 Подтверждение теоретических выводов Результаты проведенных экспериментов подтверждают, что для актуальных (с большим числом пользователей) Интернет-ресурсов (и особенно в часы их максимальной загрузки) распределение частоты потока запросов пользователей имеет нормальный вид, у которого математическое ожидание намного превышает стандартное отклонение. Т.е. для подобных ресурсов можно считать, что поток запросов имеет практически постоянную (мало изменяемую) частоту в пределах часового интервала. Заметные изменения и колебания этой частоты могут происходить при переходе к ночному времени (если ресурс имеет ограниченную географию пользователей). График плотности распределения частоты потока запросов пользователей для данного эксперимента:
Спасибо за внимание! Новгородский государственный университет Докладчик: Курмышев Николай Васильевич, к.т.н., проректор по НИТ НовГУ, Тел. +7 (8162)