Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило. - презентация

Презентация на тему: " Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило." — Транскрипт:

1 Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило. Выход решающего правила. Примеры решающих правил: линейное правило, ближайший сосед. 4.Ошибка решающего правила. Веса ошибок. 5.Формальная постановка задачи распознавания. Распознаватель – это множество решающих правил + критерий ошибки. Обучение – выбор правила с наилучшим (на обучающем множестве) значением критерия.

2 I. Зачем нужно обучение? 1.Ошибка на обучающем множестве. Ошибка на тестовом множестве. 2.Цель распознавания – уменьшить ошибку на тестовом множестве. Обобщение. Вероятностные утверждения об ошибке. 3.Основная гипотеза индуктивного обучения: если сложность множества решающих правил не велика, то с высокой вероятностью ошибка на обучающем множестве будет мало отличаться от ошибки на тестовом множестве. 4.Оказывается, что можно определять меры сложности C множества решающих правил так, чтобы доказывать неравенства типа P(| Err test -Err train | > d) < f(C,n,d), где f0 при n, стремящемся к бесконечности.

3 II. Зачем нужно обучение? ` 1.С заданной вероятностью можно написать, что Err test < Err train + f(C, n). К сожалению, уменьшив Err train с помощью построения более сложных правил, мы увеличиваем С и f(C, n). 2. Чем больше мы знаем об истинном правиле, тем более простое множество правил, обеспечивающее малую ошибку, можно построить.

4 Распознаватель «Кора». 1.Пространство признаков – логические утверждения. Симптомы. 3 значения синдрома. 2.Множество решающих правил – конъюнкции – синдромы. 3.Отбор синдромов по частотам. Экзамен – голосование. Возможное усложнение – веса. 4.Естественная мера сложности – количество оцениваемых синдромов + количество отобранных синдромов.

5 I. Что можно надежно утверждать об экспрессии генов? 1.Резко выраженная дифференциальная экспрессия. Мы видели, что после нормализации и сложной обработки можно достаточно надежно заметить, что экспрессия изменилась в 2 и более раза. Это значит, что можно строить синдромы типа: 1, если E g >a, 0, если E g 2b. 2. Утверждения об экспрессии, не требующие нормализации. Монотонно возрастающие функции. A) Модель, не учитывающая неспецифической гибридизации Интенсивность j-ого зонда гена g на k-том чипе I(g, j, k) = С k ( f(j)E(g) ), где С k () – монотонное нелинейное влияние k-ого чипа, f(j) – эффективность j-ого зонда, E(g) – экспрессия гена g. Из монотонности следует, что I(g 1, j 1, k) > I(g 2, j 2,k) E(g 1 )/E(g 2 ) > f(j 2 )/f(j 1 ) Важно, что f(j 2 ) и f(j 1 ) не меняются от чипа к чипу. Поэтому, если I(g 1, j 1, k) >I(g 2, j 2,k) выполняется часто на одном классе и редко на другом, то это хороший симптом.

6 II. Что можно надежно утверждать об экспрессии генов? Б) Модель, учитывающая неспецифическую гибридизацию. I(G, j, k) = C k ( g f(j,g)E(g)), Здесь I(G, j, k) – интенсивность для зонда j гена G, а f(j, g) – эффективность этого зонда для гена g. Аналогично предыдущему I(g 1, j 1, k) >I(g 2, j 2,k) g f(j 1,g)E(g) > g f(j 2,g)E(g) Последнее неравенство формально зависит от экспрессий всех генов и поэтому может быть очень неустойчивым. Однако, поскольку все f по прежнему не зависят от чипа, если оно выполняется достаточно часто на одном классе и достаточно редко на другом, это хороший симптом. Поскольку Affymetrix специально выбирал олигонуклеотиды так, чтобы снизить влияние неспецифической гибридизации, то есть надежда, что в достаточно большой части случаев f таковы, что эта модель сводится к предыдущей, и, значит выполняется достаточно часто.

7 III. Что можно надежно утверждать об экспрессии генов? В) Как выразить утверждение высокая экспрессия гена ? Мы поняли, что утверждения о соотношений экспрессий двух генов могут быть выражены способом, не требующим нормализации. Но естественно предполагать, что не менее, а может и более важными являются утверждения об экспрессии конкретного гена типа при раке данный ген сильно экспрессирован. Прямое сравнение экспрессии с порогом невозможно без нормализации. Однако мы можем заменить сравнение с порогом на сравнение с квантилем. То есть вместо утверждения данный ген сильно экспрессирован можно использовать утверждение типаданный ген больше ¾ генов на этом чипе.

8 Как измерять ошибку распознавания? 1.Ошибка на обучающем множестве всегда занижена. 2.Лучший способ – разбиение на обучающее и тестовое множество. Еще лучше – разбиение на обучающее, верификационное и тестовое множества. На верификационном подбирают параметры обучения, а само обучение проводят на обучающем. 3.Скользящее обучение (leave-one-out) 4.Уверенность (конфиденс) ответа. Реджектная кривая.

9 ROC curve FPR=1-specificity TPR = sensitivity

10 Медицина, основанная на симптомах и медицина, основанная на примерах 1.Мера похожести и метод ближайшего соседа. 2.Автоматический выбор типичных представителей. 3.SVM как обобщение метода ближайшего соседа.

Скачать бесплатно презентацию на тему "Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило." в формате .ppt (PowerPoint)

Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь