1 ДИНАМИЧЕСКАЯ СЕГМЕНТАЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ И СИСТЕМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ А. Е. Лебедев, А. А. Жданов Институт точной механики и вычислительной техники имени С.А. Лебедева, Москва Autonomous Adaptive Control Lab (AAC Lab)
2 Структура и функции «нервной системы» Автономного Адаптивного управления (ААУ) Формирование и распознавание образов Датчики Исполнители Принятие решений База знаний Аппарат эмоций Вывод новых знаний «Нервная система» С р е д а «Тело» объекта управления (показаны только основные связи)
3 Соотношение методов ААУ и обучения с подкреплением Образы - условия Эмоциональная оценка результата действия ААУ Reinforcement Learning Состояния Подкрепление (вознаграждение)
4 Аппроксимация vs. Дискретизация Набор входных параметров: p 1 … p n Множество состояний {s i } Набор доступных действий a 1 …. a k Оценка ожидаемого подкрепления Q(s i, a i ) Аппроксимация Est(p 1 … p n, a i ):{(p 1 … p n )} x a i R Дискретизация {(p1 … pn)} -> {s i }, Est(s,a): {si} x {ai} R
5 Проблема дискретизации пространства признаков - При малом числе состояний низкая точность, при большом – долгое обучение. - Кроме того, при любом фиксированном числе градаций для каждого из параметров число состояний растет экспоненциально при линейном росте числа параметров. («комбинаторный взрыв») параметр2 параметр1 ? Мало состояний Много состояний параметр N
6 Предлагаемое решение последовательная сегментация пространства признаков в процессе обучения систем В результате образуется дерево вложенных состояний обучение
7 Основные подзадачи Производить ли разделение очередного состояния на более мелкие и когда? Dev(Est(s old, a b0 ) >= min( Dev( Est(s new1, a b1 ), Dev( Est(s new2, a b2 ) ) S old – исходное состояние, s new1, s new2 – дочерние состояния ab0, ab1, ab2 – лучшие действия для соответсвующих состояний Если да, то какой вариант разбиения выбрать? (как определить направление и пропорции?) max( Est(s new1, a b1 ), Est(s new2, a b2 ) ) max ?
8 Свойства разработанного метода Итоговое разбиение пространства признаков на состояния неравномерно и отвечает специфике конкретной задачи. Определенное улучшение качества работы возможно в самом начале обучения без накопления большой статистики Накопление статистики для различных состояний происходит независимо (отсутствует «катастрофическое забывание») Получившийся в результате обучения закон управления может быть представлен в виде дерева решений и проанализирован человеком
9 Экспериментальное исследование Экспериментальное исследование разработанного метода проводилось на компьютерной и на физической модели наноспутника с адаптивной системой управления
10 Результаты экспериментального исследования Пример графика изменения качества управления при обучении с фиксированным набором состояний… И с использованием алгоритма динамической сегментации состояний
11 Спасибо за внимание! А. Е. Лебедев, А. А. Жданов ИТМиВТ им. С.А. Лебедева, Москва AAC Lab