Технология извлечения знаний из использования Интернет. - презентация

Презентация на тему: " Технология извлечения знаний из использования Интернет." — Транскрипт:

1 Технология извлечения знаний из использования Интернет

2 Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.

3 Основные области применения Финансы Страхование Медицина Биология Интернет

4 OLAP/Data mining

5 Структура web mining

6 Структура web content mining

7 Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально полезных знаний в деятельности пользователей Интернет.

8 Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети

9 Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining Кластеризация Поиск ассоциативных правил Поиск наиболее частых подпоследовательностей

10 Сбор информации

11 Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий

12 Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение тех элементов где A к общему числу Уверенность – отношение элементов, где выполняется правило к элементам с А

13 Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели

14 Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы

15 Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров Расстояние: по наиболее близкими или наиболее удалённым точкам, по центрам.

16 Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с наибольшей вероятностью используются для пересчёта центров.

17 Верификация кластеризации

18 Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы

19 Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется с учётом положения страниц Нечёткий C-Medoids метод

20 Данные Sigla.ru посещений в день 1300 сессий в день 50 страниц Данные за три дня Сессии с длинной от 3 до 40 визитов

21 Расстояние Евклида Каждая сессия это вектор v i = {x 1,..x n } x j = 1 если страница j входит в сессию. x j = 0 иначе.

22 Расстояние редактирования Примеры строк: cat, cash CAT -> CAS -> CASH Общее расстояние 3.

23 Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость замены Если совпадают dir 21 и dir 22 то стоимость снижается еще больше

24 Индекс Беждека

25 Энтропия разбиения

26 Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров

27 Предлагаемый метод

28 Спасибо! Ваши вопросы?..

Скачать бесплатно презентацию на тему "Технология извлечения знаний из использования Интернет." в формате .ppt (PowerPoint)

Технология извлечения знаний из использования Интернет. - презентация

Похожие презентации

Презентация на тему: " Технология извлечения знаний из использования Интернет." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Технология извлечения знаний из использования Интернет. - презентация

Похожие презентации

Презентация на тему: " Технология извлечения знаний из использования Интернет." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь