Проблемы построения систем защиты от спама в Интернете Карбачинский И.О.

Презентация:



Advertisements
Похожие презентации
Методы выбора оптимального набора информативных признаков для задач классификации текстов Борисова Татьяна 3 курс ВМК МГУ.
Advertisements

1 Построение регрессионных моделей и решение задачи предсказания.
Классификация и регрессия (продолжение) Храброва М.О.
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Уравнение множественной регрессии y t = a 0 +a 1 x 1t +a 2 x 2t +a 3 x 3t +…+a k x kt +U t (8.1) Наилучшая линейная процедура получения оценок параметров.
Тема доклада Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации.
Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило.
Белорусский государственный университет Механико-математический факультет Кафедра математических методов теории управления Федорович Марина Николаевна.
АЛГОРИТМЫ И СТРУКТУРЫ ДАННЫХ АЛГОРИТМЫ И СТРУКТУРЫ ДАННЫХ Лекции для студентов-заочников 2 курса, специальность (Прикладная информатика)
Численные методы линейной алгебры. Методы решений нелинейных уравнений и систем. Лекция 3:
Москва, Конспиролог Андрей Гулин Matrixnet.
Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Обучение без учителя Владимир Вежневец, Антон Конушин Александр Вежневец Компьютерное зрение МГУ ВМК, Осень 2006.
Сети глубокого обучения. Локальное и нелокальное в пространстве признаков обучение Прототипом всякого локально-обучающего алгоритма является построение:
Многометодные процедуры оптимального управления Архитектура и реализация программного комплекса Исследовательский Центр процессов управления Работа выполнена.
Модели в виде систем одновременных уравнений. Оценка параметров структурной формы модели Предполагаем, что модель идентифицируема. Для иллюстрации этого.
1 Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает.
МОДУЛЬНАЯ АРХИТЕКТУРА НС. Каждая входная переменная связана только с одним из входов модулей. Выходы всех входных модулей соединены с модулем решения.
Транксрипт:

Проблемы построения систем защиты от спама в Интернете Карбачинский И.О.

Виды спама - Почтовые рассылки - SMS спам - Спам в мессенджерах - Выдача поисковой системы

Антиспам система бинарный классификатор С = { 0 – не спам, 1 – спам }

Построение классификатора Шаг 1: Составляем размеченную выборку ClassUrl Spamhttp:// Spamhttp://bancdyx.narod.ru/znakomstva-transseksulka.html Not Spamhttp://dating-01.narod.ru/znakomstva-moskva-siando.html Spamhttp://defushka-vapen.narod.ru/prostitutki-g-vologda.html Not Spamhttp:// Spamhttp://

Построение классификатора Шаг 2: Обучающее и проверочное множества ClassUrl Spamhttp:// Spamhttp://bancdyx.narod.ru/znakomstva-transseksulka.html Not Spamhttp://dating-01.narod.ru/znakomstva-moskva-siando.html Spamhttp://defushka-vapen.narod.ru/prostitutki-g-vologda.html Not Spamhttp:// Spamhttp://

Построение классификатора Шаг 3: Выделяем признаки. Нормализация ClassFeature1Feature2...FeatureN Spam Spam Not Spam Spam Not Spam Spam F: (f1, …, fn) (0,1)

Построение классификатора Пусть X множество объектов Y множество классов {0,1} X* обучающая выборка из X. Также известно h*: X* Y Задача: Для, найти h: X Y.

Как найти h(x)?

Построение классификатора Шаг 4: Выбираем алгоритм обучения и строим модель KNN Байесовские методы Нейронные сети Деревья решений SVM...

Построение классификатора Шаг 4: Оценка качества

Классификатор спама Большое обучающее множество ( > страниц) Долго обучается ( > 10 часов ) Сотни признаков Обучить несколько моделей нельзя Необходимо постоянно пополнять обучающее множество и заново обучать классификатор Скорость / Надежность / 24x7

Плохое качество! Что делать? Плохое обучающее множество Плохой алгоритм обучения Плохо подобраны признаки

Feature Selection Много алгоритмов Большинство неприменимы к большим объемам данных Некоторые алгоритмы содержат в себе отбор признаков Большинство методов требует построения модели на каждой итерации Wrapper, Filter, Embeded методы

Minimum-redundancy-maximum-relevance (mRMR) X – множество признаков, С – класс. U – произвольное подмножество признаков из X - вектор значений k-ого признака из U - взаимная информация признаков Избыточность подмножества признаков: Релевантность подмножества признаков: Критерий MRMR:

Minimum-redundancy-maximum-relevance (mRMR) Не требует построения модели Быстрая скорость работы Упорядоченный рейтинг признаков Показывает избыточные признаки Прирост качества

Как еще уменьшить размерность простарнства признаков? Сжать без потери информации! 1. Principal component analysis 2. Random Projection

Principal component analysis X – множество признаков Представим X в виде произведения двух матриц T ( ) и P ( ), z < n. T – матрица счетов, P – матрица нагрузок. После разложения матрицы в композицию матриц T, P и E, вводятся новые, формальные переменные: - линейная комбинация исходных переменных.

Проблема переобучения Явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но достаточно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки). Способы борьбы: 1. Cross-validation 2. Регуляризация

Спасибо! Вопросы?