1 ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ А. Е. Лебедев, А. А.

Презентация:



Advertisements
Похожие презентации
МЕТОД ФОРМИРОВАНИЯ ВРЕМЕННЫХ ОБРАЗОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ Ю. А. Мазур, А. А. Жданов Институт точной механики и вычислительной.
Advertisements

1 Методология Автономного Адаптивного Управления бионический подход к построению нейроноподобных систем управления Институт системного программирования.
А.А. ЖДАНОВ, М.В. КАРАВАЕВ, А.Н. ЧЕРНОДУБ Программный инструмент 4GN для разработки интеллектуальных систем на основе бионического метода «Автономного.
1 Биологически инспирированное техническое зрение в системах автономного искусственного интеллекта А.А. ЖДАНОВ профессор, д.ф.-м.н. Институт точной механики.
ЛЕКЦИЯ 13. Курс: Проектирование систем: Структурный подход Каф. Коммуникационные и системы, Факультет радиотехники и кибернетики Московский физико-технический.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Отдел Управления динамическими системами. АНАЛИЗ ДИССИПАТИВНОСТИ И ШУМОСТАБИЛЬНОСТИ НЕЛИНЕЙНЫХ ДИСКРЕТНЫХ ДИНАМИЧЕСКИХ СИСТЕМ М.М.Лычак Институт космических.
Дипломная работа на тему:Нечеткие алгоритмы управления бесколлекторным двигателем постоянного тока Работу выполнил: Короткий Е.В. Научный руководитель:
Моделирование и формализация Окружающий мир как иерархическая система Работу выполнили 9б: Кулагина Дарья Гармашова Кристина Работу выполнили 9б: Кулагина.
Цифровая адаптивная линеаризация датчиков технологических процессов Гудкова Наталья Васильевна к.т.н., доцент каф. САУ Технологический институт Южного.
Параллельные алгоритмы для симплициального подразделения области с итерационным измельчением вблизи границы Кафедра параллельных алгоритмов Математико-Механический.
Что такое граф? Составные элементы графа? Граф, который имеет направленные линии?
Применение генетического программирования для реализации систем со сложным поведением Санкт-Петербургский Государственный Университет Информационных Технологий,
Алгоритм приближённого joinа на потоках данных Выполнил : Юра Землянский, 445 группа Научный руководитель : Б.А. Новиков СПб, 2011 Санкт-Петербургский.
Сравнение и подгонка поверхностей при решении прикладных задач анализа 3d портретов человеческих лиц Дышкант Наталья Федоровна
Декомпозиция сложных дискретных систем, формализованных в виде вероятностных МП-автоматов. квалификационная работа Выполнил: Шляпенко Д.А., гр. ИУ7-83.
Динамическая модель накопителя тепловой энергии РОССИЙСКАЯ АКАДЕМИЯ НАУК Объединенный институт высоких температур РАН Иванин О.А. Научный руководитель.
Тема урока: Презентацию подготовила преподаватель информатики и ИКТ ОГБОУ НПО ПЛ 3 г. Иваново Меркулова Татьяна Дмитриевна Prezentacii.com.
«Современные техника и технологии 2004» Многоагентный нейроэволюционный подход к адаптивному управлению МНОГОАГЕНТНЫЙ НЕЙРОЭВОЛЮЦИОННЫЙ ПОДХОД К АДАПТИВНОМУ.
ПОСТРОЕНИЕ МОДЕЛИ СУТОЧНОГО ТРАФИКА С УЧЕТОМ ЕГО НЕСТАЦИОНАРНОСТИ Репин Д.С., зам. зав. отделом ГНУ ГНИИ ИТТ «Информика» Филаретов Г.Ф., научный руководитель.
Транксрипт:

1 ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ А. Е. Лебедев, А. А. Жданов Институт точной механики и вычислительной техники имени С.А. Лебедева, Москва Autonomous Adaptive Control Lab (AAC Lab)

2 Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ) Формирование и распознавание образов Датчики Исполнители Принятие решений База знаний Аппарат эмоций Вывод новых знаний «Нервная система» С р е д а «Тело» объекта управления (показаны только основные связи)

3 Соотношение методов ААУ и обучения с подкреплением Образы - условия Эмоциональная оценка результата действия ААУ Reinforcement Learning Состояния Подкрепление (вознаграждение)

4 Аппроксимация vs. Дискретизация Набор входных параметров: p 1 … p n Множество состояний {s i } Набор доступных действий a 1 …. a k Оценка ожидаемого подкрепления Q(s i, a i ) Аппроксимация Est(p 1 … p n, a i ):{(p 1 … p n )} x a i R Дискретизация {(p1 … pn)} -> {s i }, Est(s,a): {si} x {ai} R

5 Проблема дискретизации пространства признаков - При малом числе состояний низкая точность, при большом – долгое обучение. - Кроме того, при любом фиксированном числе градаций для каждого из параметров число состояний растет экспоненциально при линейном росте числа параметров. («комбинаторный взрыв») параметр2 параметр1 ? Мало состояний Много состояний параметр N

6 Предлагаемое решение последовательная сегментация пространства признаков в процессе обучения систем В результате образуется дерево вложенных состояний обучение

7 Основные подзадачи Производить ли разделение очередного состояния на более мелкие и когда? Dev(Est(s old, a b0 ) >= min( Dev( Est(s new1, a b1 ), Dev( Est(s new2, a b2 ) ) S old – исходное состояние, s new1, s new2 – дочерние состояния ab0, ab1, ab2 – лучшие действия для соответсвующих состояний Если да, то какой вариант разбиения выбрать? (как определить направление и пропорции?) max( Est(s new1, a b1 ), Est(s new2, a b2 ) ) max ?

8 Свойства разработанного метода Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике конкретной задачи. Определенное улучшение качества работы возможно в самом начале обучения без накопления большой статистики Накопление статистики для различных состояний происходит независимо (отсутствует «катастрофическое забывание») Получившийся в результате обучения закон управления может быть представлен в виде дерева решений и проанализирован человеком

9 Экспериментальное исследование Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели наноспутника с адаптивной системой управления

10 Результаты экспериментального исследования Пример графика изменения качества управления при обучении с фиксированным набором состояний… И с использованием алгоритма динамической сегментации состояний

11 Спасибо за внимание! А. Е. Лебедев, А. А. Жданов ИТМиВТ им. С.А. Лебедева, Москва AAC Lab