Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемСтепан Гольский
1 Процесс анализа данных
2 Основные подходы
3 Уровни анализа Визуализация Моделирование Прогнозирование Оптимизация
4 Выборка данных Очистка данных Трансформация Data Mining - моделирование Интерпретация результатов Знания Процесс анализа
5 Данные для анализа CRM, ERPБазы данных Офисные приложения Интернет Социальные сети Выборка данных
6 Атрибут Персона 1Персона 2 ФИОИванов Иван Иванович Иван Иванович Адресг. Рязань ул. Новая 53 в Телефон+7 (4912) Дата рождения 1971 г.15 декабря Место работыBaseGroup LabsBGL ИсточникCRM-системаFacebook Выборка данных: проблема Это один человек?
7 Выборка данных: решение Оценка близости и связывание
8 Данные всегда плохие Ошибки ввода ПропускиАномалии ДублиПротиворечия Очистка данных
9 Очистка данных: пример Аномалия или норма? Нет данных или нет продаж?
10 Проблема Вариант решения Ошибки ввода Проверить по справочникам Пропуски Интерполировать Аномалии Срезать выбросы Дубли Оставить одну запись Противоречия Удалить записи Очистка данных: решение
11 Фильтрация Расчет агрегатов Группировка данных Квантование Сэмплинг Трансформация Подготовка данных к анализу
12 Трансформация: проблема Средний чек - 359?
13 Трансформация: решение Медиа = 120 Среднее = 359
14 Data Mining Новые данные Модель Прогноз Исторические данные Модель Обобщение опыта Применение модели
15 Трудно понять модель Нет доверия к результатам Отказ в применении модели Интерпретация результатов
16 Визуализация – способ понять Структура кластеров Различие кластеров
17 Выборка данных 25% Очистка 25% Трансформация 20% Data Mining 15% Интерпретация 15% Трудоемкость этапов
18 Выборка данных История продаж История остатков Маркетинговые акции Связывание данных Очистка Заполнить пропуски Удались аномалии Трансформация Сгруппировать помесячно Скользящее окно Data Mining – моделирование Линейная регрессия Нейронная сеть Интерпретация результатов Диаграмма рассеяния Ретро-прогноз Распределение ошибки Пример: прогнозирование
19 Выборка данных История звонков Параметры тарифных планов Очистка Исключить редкие события Удалить аномалии Трансформация Сгруппировать понедельной Сбалансировать классы Data Mining – моделирование Логистическая регрессия Дерево решений Интерпретация результатов Таблица сопряженности Дерево правил Пример: отток клиентов
20 Data Mining
21 Data Mining – это процесс обнаружения в 'сырых' данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений Data Mining
22 Кластеризация Регрессия Классификация Ассоциативные правила Последовательные шаблоны Анализ временных рядов Анализ связей Анализ отклонений Классы задач Data Mining
23 Объединение «похожих» объектов в сравнительно однородные группы, существенно отличающихся от других групп Кластеризация
24 Сегментация клиентов Выявление целевой аудитории Анализ миграции клиентов Канибализация товаров Кластеризация: задачи
25 Предсказание значения непрерывной зависимой переменной с помощью независимых переменных Регрессия
26 Прогнозирование спроса Вероятность отклика на предложение Оценка эластичности цен Кредитный скоринг Регрессия: задачи
27 Отнесение объектов к одному из известных классов с помощью независимых переменных Классификация
28 Оценка перспективности клиента Предсказание мошенничества Прогнозирование оттока Анализ рисков Классификация: задачи
29 Обнаружение в транзакциях зависимостей, что из события X с определенной вероятностью следует событие Y Ассоциация
30 Анализ рыночной корзины Кросс-продажи (Cross-sale) Повышение доходности (Up-sale) Лучшее товарное предложение (Next Best Offer) Ассоциация: задачи
31 Выявление зависимости, что после события Х, с определенной вероятностью наступит событие Y Купил Принтер Бумага Предложить Тонер Последовательность Спустя некоторое время
32 Предсказание переходов по сайту Анализ отложенного спроса Оптимизация работы службы технической поддержки Последовательность: задачи
33 Предсказание будущих значений временного ряда по настоящим и прошлым значениям Анализ временных рядов
34 Прогнозирование спроса Оптимизация складских запасов Прогнозирование финансовых потоков Прогнозирование потребности в ресурсах Анализ временных рядов: задачи
35 Выявление отношений между объектами сети для определения ранее неизвестных характеристик объектов Анализ связей
36 Противодействие мошенничеству Защита конфиденциальных данных Построение профилей клиентов Выбор каналов воздействия Анализ связей: задачи
37 Обнаружение наиболее нехарактерных случаев, выбивающихся из общих закономерностей Анализ отклонений
38 Выявление подозрительной активности Анализ влияния маркетинговых акций Автоматический контроль выполнения KPI Анализ отклонений: задачи
39 Решение большинства задач бизнес- аналитики сводятся к описанным классам задач Data Mining или их комбинациям. Применение в бизнесе
40 Кейс: мошенничество
41 До 70% потерь происходит по вине персонала. Проблемная зона – касса: Воровство и обман покупателей Неправомерное использование скидок Начисление баллов на бонусные карты Мошенничество в рознице
42 Мошенничество – не только воровство, но и осознанное нарушение корпоративных правил работы: Начисление баллов на свою карту Использование служебной карты для родственников и знакомых Что такое мошенничество
43 Противодействия мошенничеству базируются на выявлении последовательности подозрительных действий, оценке вероятности обмана и расчете финансовых потерь: Жесткие правила известных схем обмана Частотный анализ действий Аномальные выбросы во временных рядах Анализ последовательности действий Поиск подозрительных сочетаний Кластеризация транзакций Выявление мошенничества
44 Много бонусов Кассир начислил подозрительно много бонусов
45 Аномальное сторно Слишком много подозрительных операций
46 Странный возврататат транзакции Дата транзакции Время транзакции Тип транзакции ККМ чека возвратат. чека Код кассира Код товара Цена Количеств о Сумма :19:1511 – регистрация товара :19:2011 – регистрация товара :19:2711 – регистрация товара :19:5140 – оплата :19:5155 – закрытие чека транзакции Дата транзакции Время транзакции Тип транзакции ККМ чека возвратат. чека Код кассира Код тов.Цена Кол-во Сумма :53:33 80 – возврататат по номеру чека :53:5013– возврататат :53:5340 – оплата :53:5355 – закрытие чека Создан чек Отмена чека через час
47 Плохие сочетания Профиль нормального чека Профиль «плохого» чека
48 Big Data
49 Каждый день в мире генерируется байт информации 90% всех существующих данных созданы за последние 2 года Каждый час Wal-Mart генерирует данных в 170 раз больше объема данных Библиотеки Конгресса США Big Data Интернет вещей Социальные сети Мобильная связь Чеки Логи Обвал данных
50 Проблемы больших данных: Volume – огромные объема данных Velocity – высокая скорость генерации новых данных Variety – многообразие структурированных и неструктурированных источников данных Big Data
51 Мнение клиентов Рекомендательные системы Массовая кастомизация услуг Противодействие оттоку Борьба с мошенничеством Построение профилей клиентов Потенциал Big Data
52 Ручная обработка огромных потоков данных практически бесполезна. Технологии Data Mining – реальный способ извлечь ценные знания из Big Data, превратив умение анализировать данные в конкурентное преимущество. Знания из данных
53 basegrpoup.ru
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.