Лист 1Системы поддержки принятия решения БД Информация Большие массивы данных Точные расчеты и детальный анализ Анализ – сложный процесс Анализ Информация АналитикСППР Законы предметной области Данные для анализа
Лист 2Системы поддержки принятия решения СППР Ввод данных Хранение данных Анализ данных Предметная область Поиск решений СППР Эргономичность Механизмы автоматического сбора данных Расширенная визуализация результатов оператор аналитик датчик
Лист 3Системы поддержки принятия решения СППР Информационно поисковые Оперативно аналитические Интеллектуальные Фиксированный набор запросов Динамическая генерация запросов Алгоритмы поиска закономерностей в данных
Лист 4Системы поддержки принятия решения
Лист 5Системы поддержки принятия решения
Лист 6Системы поддержки принятия решения
Лист 7 Хранилище данных Хранилище данных Предметная ориентация Интеграция Поддержка хронологии Неизменяемость
Лист 8Хранилище данных СППР с витринами данных СППР с ХД и ВД
Лист 9Хранилище данных Агрегированные аддитивные полуаддитивные неаддитивные Детальные измерения факты
Лист 10Хранилище данных Метаданные Объекты артибуты, значения, источники информации Пользователи идентификация, права доступа, действия, и др. Место хранения сервер, ПО, данные Действия при переносе, при эксплуатации, и др. Время загрузка, архивирование, агрегирование, извлечение, и др. Причины требования, статистика обращений и др.
Лист 11Хранилище данных Входной поток Extraction извлечение Transformation преобразование Load загрузка ETL процесс Вспомогательное ПО Средства OLTP систем Обобщение Перевод значений Создание полей Очистка данных Запись детальных данных Запись агрегированных данных Архивирование
Лист 12Хранилище данных Очистка данных Ячейка ЗаписьТаблица Одиночная БДМножество БД Опечатки Пустые значения Фиктивные значения Логические ошибки Кодированные значения Составные значения Противоречивость данных разных полей Нарушение уникальности Дублирование Противоречивость Целостность Различие структур Одинаковые наименования разных арт. Разное представление одинок. данных Различие классификаторов Различная временная градация Различные ид. одного и того же объекта Этапы очистки 1. Определение важных данных 2. Выявление проблем в данных 3. Определение правил очистки 4. Тестирование правил очистки 5. Очистка данных 1. Расщепление артибутов 2. Проверка допустимости и исправления 3. Стандартизация 4. Сопоставление данных, относящихся к одному элементу 5. Слияние записей 6. Исключение дубликатов Процедуры над отдельными ОИД
Лист 13Хранилище данных Особенности: Подготовка данных для анализа Отсутствует предопределение архитектуры аналитической системы Не решаемые задачи: Способ организации данных для анализа Организация доступа к данным Использование технологии анализа данных
Лист 14OLAP системы 1993 г. Кодд (недостатки OLTP для многомерного анализа) Основные понятия Операции OLAP Оперативно-аналитическая обработка Методы сбора, хранения и обработки информации Поддержка принятия решения Показатель Гиперкуб
Лист 15OLAP системы Правила Кодда для OLAP, тест FASMI 1. Многомерность 2. Прозрачность 3. Доступность 4. Постоянная производительность при разработке отчетов 5. Клиент-серверная архитектура 6. Равноправие измерений 7. Динамическое управление разреженными мартицами 8. Поддержка многопользовательского режима 9. Неограниченные перекрестные операции 10. Интуитивная манипуляция с данными 11. Гибкие возможности создания отчетов 12. Неограниченная размерность и число уровней агрегаций Fast Analysis Shared Multidimensional Information
Лист 16OLAP системы Архитектура OLAP систем OLAP система OLAP клиент OLAP сервер Способ реализации гиперкуба MOLAPROLAPHOLAPDOLAPJOLAP MOLAP гиперкубполикуб Высокая скорость поиска Расширяемость по функциям Увеличение объема данных в 2,5 – 100 раз Высокая степень разреженности Чувствительность к структурным изменениям Особенности Реккомендации Объем данных не более нескольких Гб Набор измерений стабилен Время отклика критично Необходимость функционального расширения
Лист 17OLAP системы Архитектура OLAP систем MOLAP Снежинка Адаптация схемы Звезда Таблица фактов Таблицы измерений * * * * * * * * * * * * Факты Связь с транзакциями Transaction facts Связь с моментальными снимками Snapshot facts Связь с элементами документа Line-item facts Связь с событиями/состояниями объекта Event/state facts Типы фактов Анализ реляционных ИД Меньший размер хранилища Добавление нового измерения не требует полной физической реорганизации Отработаны вопросы безопасности Эффективная работа с разреженными данными Снижение производительности Особенности
Лист 18Data Mining Пятецкий – Шапиро (1996 г.) Data Mining Знания ранее не известные нетривиальные практически полезны интерпретируемые скрытые
Лист 19Data Mining Задачи Data Mining Описательные Предсказательные Кластеризация Поиск ассоциативных правил Классификация Регрессия Обучение с учителем Обучение без учителя Задачи Data Mining Классификация задач Data Mining
Лист 20Data Mining Задача классификации, регрессии Кредитоспособность место работы размер з/п составе семьи кредитная история др. да-нет Фильтрация эл. почты Частота появления определенных слов спам не спам Распознавание образа цифры Мартица точек независимые зависимые Построение обучающей выборки Построение функции классификации (регрессии) Большая обучающая выборка Охват всей области определения На каждом интервале ОЗ много объектов Проблемы overfittingunderfitting Интерпретация частного случая Множество ошибок
Лист 21Data Mining Задача поиска ассоциативных правил / секвенциальный анализ Задача кластеризации Комплекты товаров, продаваемых вместе Комплекты услуг Симптомы болезни {e1, e5, e3,…} Последовательность событий Объекты Кластерыкластеризация Сегментация рынка Таблица Менделеева Способ разбиения зависит от: 1. Природы элементов (детерм., стохастич) 2. Связи объект – кластер (например, возможность принадлежности нескольким кластерам) Области применения Телекоммуникации Интернет-технологии Медицина Торговля Промышленность Банковское дело
Лист 22Data Mining Модели Data Mining Модели Классификации Описательные Последовательности Предсказательные Регрессионные Кластеризации Исключений Ассоциации Итоговые Факты, верные для всех записей, но редко встреч. в общей выборке X -> Y Анализ уникальных фактов Разбиение на группы Функциональная зависимость (незав /зав) Использование обучающей выборки Прогнозирование событий на основании предыд.
Лист 23Data Mining Процесс обнаружения знаний
Лист 24Data Mining Подготовка данных Эл. письмо Текст Методы Data Mining Параметры письма Частота встречаемости ключевых слов Средняя длина предложений Параметры сочетаемости предложений Числовые Нечисловые Выбор и расчет Формирование таблицы фактов Таблица фактов Предварительная обработка, очистка Обработанная таблица фактов Исключение идентичных объектов Исключение ряда категориальных признаков Исключение не важных полей
Лист 25Data Mining Проверка построенных моделей БД Таблица фактов Таблица фактов, V 1 Таблица фактов, V 2 V 1 >> V 2 Модель Data Mining получение проверка