Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
Количество данных в электронном виде очень быстро растет Но большая часть информации не несет какой-либо практической пользы Возникает проблема извлечения полезной информации из большого объема «сырых» данных Предпосылки появления
Область Data Mining началась с семинара, проведенного Григорием Пятецким-Шапиро в 1989 году Тогда же было предложено 2 термина – Data Mining и Knowledge Discovery In Data 1994 г. – создан один из первых сайтов по Data Mining История появления
Data Mining это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Интеллектуальный анализ данных (Data mining)
Знания должны быть: Ранее неизвестными Нетривиальными Практически полезными Доступными для интерпретации Пояснение определения
У нас есть достаточно крупная база данных В ней есть некие «скрытые» знания Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных Постановка задачи
Паттерн – извлеченное знание Для отсева малополезных паттернов вводится функция полезности Важные характеристики «интересного» знания: Неожиданность Применимость Паттерны
Изучение предметной области Сбор данных Предварительная обработка данных Очистка данных от противоречий и шумов Интеграция данных Преобразование данных Анализ данных Интерпретация найденных паттернов Использование новых знаний Этапы решения задачи
Информация об измерениях представлена в виде таблиц «объект-свойство» Представление данных Ученик Средняя успеваемость Возраст Средний заработок в семье Иванов
Шкала, формально говоря, это тройка из следующих элементов: 1) Эмпирическая система E = {A, R}, где A – множество объектов, а R – множество отношений между ними 2) Символьная система N = {M, P}, где M – множество символов, а P – множество отношений между ними 3) g – это функция из E в N. Указывает по какому правилу сопоставлять символы объектам Шкалы
Абсолютная. Пример – количество чего-либо Шкала отношений. Пример – вес в килограммах и граммах Шкала интервалов. Пример – температура в шкалах Цельсия, Кельвина и др. Шкала ппорядка. Отношения ппорядка. Пример – номера людей при упорядочивании по росту Шкала ннаименований (номинальная). Есть только 2 отношения – «равно» и «не равно». Пример – имена людей Виды шкал
По расположению предсказываемых элементов: В одной строке В одном столбце Иначе По количеству предсказываемых элементов Один Часть Все Классификация задач По шкалам (Н)наименований (П)порядка (К)количественные (абсолютная, отношений и интервальная) (Р)разнотипные
Семейство задач Предсказание элементов столбца/строки Предсказание элементов таблицы Классы задач эл-т 1.2 Не все 1.3 Все 2.1 Не вся 2.2 Вся Типызадач Типызадач шкалы Н Распознавание образов (классов) Таксономия З а п п р о о л б н е е л н о и в е Г е т н а е б р л а и ц ц и я П Вставка в упорядоч. последовательность Упорядочивание К Прогнозирование Оценка Р --- Классификация задач
Банковское дело анализ кредитных рисков сегментация клиентов привлечение и удержание клиентов управление ресурсами Страховые компании анализ рисков Торговля анализ деятельности торговых точек построение профиля покупателя управление ресурсами Биржевые трейдеры выработка оптимальной торговой стратегии контроль рисков Практическое применение Data Mining
Генетика и генная инженерия изучение генов разработка новых лекарств Медицина построение диагностических системы выбор лечебных воздействий Геология и геофизика оценка запасов степень извлекаемости полезных ископаемых Интернет-технологии персонализация посетителей Web-сайтов Web Mining Практическое применение Data Mining
Системы Data mining Предметно-ориентированные аналитические системы Технический анализ Статистические пакеты Нейронные сети
Системы Data mining Системы рассуждений на основе аналогичных случаев Деревья решений
Генетические алгоритмы Алгоритмы ограниченного перебора Системы Data mining
Data mining в геофизике
Спасибо за внимание!