Технология извлечения знаний из использования Интернет.

Презентация:



Advertisements
Похожие презентации
Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Advertisements

Прогнозирование в Deductor. BaseGroup Labs Задача прогнозирования Прогнозирование – одна из самых востребованных, но при этом и самых сложных задач анализа.
Проект : Ассоциативный поиск информации с помощью нейронных сетей. Задача: методы кластеризации данных.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
Data Mining – инструмент оптимизации работы с клиентами.
Кластеризация данных Александр Котов, гр Николай Красильников, гр
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Построение поисковых индексов Автор: Елисафенко М.Е. гр
Лекция 2. Поддержка принятия управленческих решений А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений1.
Data Mining – подготовка данных. BaseGroup Labs Последовательность работы Гипотеза, предположение Сбор и систематизация данных Подбор модели Тестирование,
Модели принятия решений Задачи распознавания Детерминированный случай Распознавание при стохастических данных Показатели качества распознавания Оптимальный.
Поиск значимой информации; Создание новых знаний вне информации, доступной на Web; Персонализация информации; Изучение потребителя или индивидуального.
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Технология Data Mining в экономических приложениях Выполнил Лашковский Евгений Александрович, студент 3 курса, специальность «Прикладная информатика (в.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Белорусский государственный университет Факультет прикладной математики и информатики Кафедра математической.
CRM БИЗНЕС СИСТЕМА. MS TelemarketingSIA "Multi Stream"2 CRM Customer Rrelationship Management - Управление взаимоотношениями с клиентами; Модель взаимодействия,
© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Транксрипт:

Технология извлечения знаний из использования Интернет

Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.

Основные области применения Финансы Страхование Медицина Биология Интернет

OLAP/Data mining

Структура web mining

Структура web content mining

Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально полезных знаний в деятельности пользователей Интернет.

Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети

Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining Кластеризация Поиск ассоциативных правил Поиск наиболее частых подпоследовательностей

Сбор информации

Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий

Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение тех элементов где A к общему числу Уверенность – отношение элементов, где выполняется правило к элементам с А

Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели

Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы

Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров Расстояние: по наиболее близкими или наиболее удалённым точкам, по центрам.

Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с наибольшей вероятностью используются для пересчёта центров.

Верификация кластеризации

Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы

Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется с учётом положения страниц Нечёткий C-Medoids метод

Данные Sigla.ru посещений в день 1300 сессий в день 50 страниц Данные за три дня Сессии с длинной от 3 до 40 визитов

Расстояние Евклида Каждая сессия это вектор v i = {x 1,..x n } x j = 1 если страница j входит в сессию. x j = 0 иначе.

Расстояние редактирования Примеры строк: cat, cash CAT -> CAS -> CASH Общее расстояние 3.

Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость замены Если совпадают dir 21 и dir 22 то стоимость снижается еще больше

Индекс Беждека

Энтропия разбиения

Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров

Предлагаемый метод

Спасибо! Ваши вопросы?..