Л 1: Введение: информационные технологии анализа данных доцент кафедры Информационные системы и технологии к.т.н., доцент Шлаев Дмитрий Валерьевич 1
Введение Современные информационные технологии анализа данных широко используются в крупномасштабных корпоративных информационных системах (КИС) крупномасштабных предприятий и организаций. КИС включают подсистемы, построенные на основе концепций систем поддержки и принятия решений (System for Support of Decision - SSD). В состав КИС входят проблемно-ориентированные хранилища данных -Data Ware House (DW), обеспечивающие централизованное хранение данных, источниками которых являются различные базы данных систем оперативной обработки данных (On-Line Transaction Processing, OLTP), используемых для автоматизации бизнес-процессов корпоративной информационной системы, а также внешние источники. Обычно хранилища данных создаются путем конвертирования и совместной обработки источников данных, хранимых под управлением различных СУБД на разнородных аппаратных платформах. Помещаемые в DW данные должны отвечать требованиям полноты, целостности, достоверности и актуальности для целей анализа. Применительно к хранилищам данных, имеющих хранимых данных, используются специфические технологии хранения данных. 2
Структура хранилища данных 3
Метаданные содержат всю необходимую информацию о структуре, размещении и способах преобразования источников данных, обеспечивают взаимодействие компонентов хранилища данных. Метаданные имеют, как правило, объектное представление. В КИС широко применяются технологии OLAP (On-Line Analytical Processing) - совокупность средств многомерного анализа данных хранилищ. Создаваемые OLAP-приложения должны обеспечивать быстрый анализ разделяемой многомерной информации. Разработан специальный тест FASMI (Fast Analysis Sheared Multidimensional Information) для OLAP-приложений, которые должны обеспечивать: Многомерность представления данных. Санкционированный доступ пользователей к данным для целей анализа. Получение необходимой для анализа информации. Эффективность выполнения анализа информации по всем аспектам. Выполнение стандартных видов обработки числового и статистического анализа данных. 4
Первые два уровня представлены во всех OLAP-средствах. Третий уровень наиболее часто реализуется средствами реляционных СУБД, а многомерные запросы транслируются в запросы на языке SQL (Structured Query Language). К представителям OLAP-средств относятся многомерные серверные СУБД (Microsoft OLAP Server, Oracle Express Server и др.), OLAP-клиенты в составе различных программных средств, в том числе Microsoft Office В КИС широко применяются и информационные технологии интеллектуального анализа данных - Data Mining (DM), основанные на методах количественного анализа данных, поиске функциональных и логических закономерностей, построении моделей прогнозирования новой информации и т.п. Процесс "получение знания" (knowledge discovery) информационных технологий DM представлен на следующем слайде 5
Процесс "получение знания" 6
В базе данных хранятся все «исторические» данные об объектах. Обычно такая информация не оптимизирована для нужд решаемой задачи. Для этого делается выборка данных, их «очистка» и предварительная обработка (поиск и исправление ошибок, проверка согласованности данных и т. п.). Данные обычно трансформируются (преобразовываются в иной формат), «обогащаются» (добавление дополнительной информации для увеличения точности и ценности результатов проводимого анализа). Собственно исследование данных – Data Mining выполняется с помощью методов, моделей, которые применяются для описания зависимостей и отношений в данных, прогнозирования дальнейшего их развития и т. п. Информационные технологии DM широко используют различные математические и эвристические модели, экспертные оценки и формализованные критерии оценки этих моделей. 7
Представление данных - это этап, на котором модель приобретает вид, удобный для дальнейшего использования с помощью средств визуализации и манипулирования данными, объяснения и интерпретации результатов для получения нового знания. Информационные технологии DM выявляют закономерности и выводят правила, которые можно использовать для принятия решений и прогнозирования их последствий. На пересечении искусственного интеллекта, статистики и теории баз данных в рамках DM возникло новое направление KDD (Knowledge Discovery in Databases) - обнаружение знаний в базах данных), которое актуально также и применительно к хранилищам данных в корпоративных информационных системах. 8
Стандартные закономерности 1.Ассоциация - нахождение постоянных составляющих (трендов), которые можно использовать для объяснения событий (например, выбор товаров и услуг, определение уровней запасов, схем складирования и др.). 2.Последовательность - установление временных серий последовательных действий (транзакций), правил выполнения отдельных транзакций. 3.Классификация - выявление признаков, характеризующих группу объектов, распределение объектов по группам для моделирования поведения объектов, прогнозирования значений свойств объектов и др. 4.Кластеризация - распределение по группам или сегментам. В отличие от классификации, кластеры формируются в процессе анализа. 5.Прогнозирование - предсказания будущих значений непрерывно изменяющихся переменных и др. 9
Классификация программных средств анализа Предметно-ориентированные аналитические системы Нейронные сети Системы рассуждений (case based reasoning – CBR) на основе аналогичных случаев Деревья решений (decision trees) Нелинейные регрессионные методы Специализированные программные средства методо–ориентированной направленности 10
Предметно-ориентированные аналитические системы Наиболее типичный представитель – системы анализа финансовых рынков, построенные на основе методов прогноза динамики цен, различных эмпирических моделях динамики рынка. Эти системы относительно дешевы (до 500 долл.), но большинство их ориентировано на западный рынок, например, MetaStock (компания Equis International), SuperCharts (Omega Research), Candlestick Forecaster (IPTC), Wall Street Money (Market Arts). 11
Нейронные сети Используется архитектура многослойного персептрона: нейрон верхнего уровня соединен по входу с выходами нейронов нижних уровней. На нейроны нижнего слоя подаются входные параметры, на основе которых вырабатываются решения. На выходе нейрона самого верхнего слоя вырабатывается некоторое значение – реакция нейронной сети на введенные значения входных параметров. Нейронная сеть предварительно «обучается» на известных значениях входных параметров и правильных ответах, в результате чего подбираются веса межнейронных связей, обеспечивающие наибольшую близость ответов к известным правильным ответам. 12
Системы рассуждений (case based reasoning – CBR) на основе аналогичных случаев Системы CBR находят в прошлом близкие аналоги и выбирают тот же ответ, который был для них правильным. Эти системы не создают каких-либо моделей или правил, а обобщают предыдущий опыт: Kate Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США). Деревья решений (decision trees) Применяются для решения задач классификации, создают иерархическую структуру правил типа "ЕСЛИ... ТО..." для распределения множества случаев по отдельным классам, подклассам, видам и т.п. 13
Нелинейные регрессионные методы Поиск зависимости целевых переменных от остальных в форме функционала определенного вида Нелинейные регрессионные методы Math Works Matlab, Maple, Statistica, Mathematica и др. Как правило, приложения Microsoft Office наиболее часто выступают в качестве «клиентов» OLAP или DM. Это обеспечивается средствами интеграции. Компонентная модель (Component Object Model, COM) приложений Microsoft Office позволяет интегрировать в них функции обработки данных различных программ в виде дополнительных пользовательских команд или специальных надстроек. 14
Специализированные программные средства методо–ориентированной направленности Math Works MATLAB Анализ и визуализация данных, численные и символьные вычисления, имитационное моделирование. Специализированные приложения: Statistics Toolbox - для статистического анализа данных; Optimization Toolbox - для оптимизационных расчетов; Neural Network Toolbox - для проектирования и моделирования систем с помощью нейронных сетей; System Identification Toolbox - для построения модели системы на основе входных и выходных данных; Financial Toolbox - для ввода, обработки, вывода финансовых данных, финансового анализа и прогноза, Financial Time Series Toolbox – для анализа данных финансовых рынков методом временных рядов и др. Maple Встроенные функции для различных аналитических расчетов с использованием методов преобразования и упрощения алгебраических выражений, линейной алгебры, статистических методов, методов финансовых расчетов и анализа и др. StatisticaСтатистический анализ данных, поддержка классических методов статистического анализа данных, многомерная линейная и нелинейная регрессия, прогнозирование временных рядов, факторный, кластерный, дискриминантный и дисперсионный анализ; деревья классификации, анализ надежности, анализ выживаемости, методы добычи данных и др. Mathematica Аналитические и численные расчеты, набор специализированных приложений: DataBase Access Kit - интерфейс с реляционными базами данных; Finance Essentials - проектирование и анализ финансовых систем; Mathematica Link for Excel - расширение возможностей Microsoft Excel и др. 15
Надстройки Excel Надстройки Data Mining к приложению Microsoft Office Excel 2007 для извлечения и обработки данных 16