Информационная система оптимальной визуализации табличных знаний
Ссылка на источник Экспоненциальный характер роста объема создаваемых знаний «Значение и место кодификации знаний в развитии экономики, основанной на знаниях» Наука и высокие технологии, г. В мире каждые 7 месяцев происходит удвоение объема знаний, при этом только в Интернет ежедневно добавляется более 5 млн. веб-страниц Значительная доля новых знаний – результаты научно-технической деятельности. Знания создаются, но используются неэффективно Важность информационного поиска во всемирной Базе Знаний
Пример поискового запроса на современном поисковом сервере
Один из результатов поиска
Пример поискового запроса в визуальной форме («Визуальный словарик»)
Пример поискового запроса в визуальной форме (Проект Quintura)
Цель работы – разработка и экспериментальное исследование эффективных средств визуального поиска информации в системе Всемирного Знания на примере табличных знаний, т.е. знаний представленных в форме таблиц
Структура таблицы Индекс готовности России к информационному обществу Пиявский С. А.Готовность Параметр Степень готовности (баллы по оценке на 2002 г.) Индекс готовности к сетевому обществу (место из 75 стран) Информационно-коммуникационная структура 366 Программно-аппаратное обеспечение 462 Человеческий капитал (уровень образования населения, специалисты в области ИКТ, навыки и опыт использования ИКТ, информированность и мотивация) … ИКТ в образовании (доступ учебных заведений к ИКТ, использование ИКТ в учебном процессе) Электронный бизнес (электронная коммерция В2С и В2В) 357 Электронное правительство 360 ИКТ в культуре (доступ учреждений культуры к ИКТ, информационные ресурсы по культуре) 2-3Не оценены Заголовок таблицы Заголовок столбцов Понятие уровня столбца Источник Заголовок строк Понятие уровня строки Ячейка
Иерархия понятий Заголовок таблицы Заголовок строк Заголовок столбцов Название строки Название столбца Понятие Термин Понятия Название строки Название столбца
Близость понятий Связи между терминами А и В по подчиненности Понятие А a 1 a2 a3 ………………a k Понятие В b1 b2 b3 ………………b n Человек(А) Студент(B) Студент(А) Человек(С) А B С Преподаватель(B)
Близость понятий Понятие А a 1 a2 a3 a4 a5 a6 a7 a 8 Понятие В b1 a2 b3 a5 b4 a8 b6 b 7 Связи между терминами А и В по совместному вхождению в общие таблицы A-Среднее количество компьютеров в вузах России на 1 студента B-Затраты на приобретение компьютеров у учебных заведениях России в общие понятия Заголовок таблицы Автор Заголовок столбцов АBCD E дан F
Автоматизированная система формирования Базы Знаний позволяет вводить и хранить: Термины, синонимию терминов, иерархию терминов, расстояние между терминами; Понятия, синонимию понятий, иерархию понятий, расстояние между понятиями Расстояние на основе совпадения терминов, Ассоциативное расстояние Размерности Ячейки Таблицы
Схема функционирования Базы Знаний Знания Система ввода База Знаний E=mc 2 Расчет близости Визуализация Пользователь Интересы пользователя Сборка таблиц Выборка по запросу
Разрабатываемые схемы визуального представления информации Схема сети Схема кластеров
Постановка задачи визуализации множества объектов Имеется множество объектов, причем известна матрица «расстояний» между ними. Требуется разместить их на плоскости так, чтобы геометрическая близость между ними в наибольшей степени соответствовала матрице «расстояний» Москва Москва Самара Самара Владив Владив Екатер Екатер Тамбов Тамбов Иркутс Иркутс Якутск Якутск П1П2П3П4 П5П5П6П7 МоскваП СамараП ВладивП ЕкатерП ТамбовП ИркутскП ЯкутскП
Схема сети – иерархическая модель целочисленного линейного программирования & нелинейной оптимизации функции многих переменных
Схема работы градиентного метода Двигаться к минимуму в направлении наиболее быстрого убывания функции, которое определяется антиградиентом. Вычисление значения функции Вычисление матрицы градиентов по х Пересчет значений х и у Вычисление матрицы градиентов по у
Матрица «расстояний» между объектами (по данным поискового сервера Яндекс на )
Оптимальная визуализация объектов по схеме сети
Начальное состояние объектов Информация Текст Заданы начальные приближения для объектов Критерии остановки: Макс. итераций Dl_grad<0,01 F= Dl_grad=1
Количество итераций равно 500 F= Dl_grad=0,77
Количество итераций равно 1000 F= Dl_grad=0,54
Количество итераций равно 2000 F= Dl_grad=0,16
Количество итераций равно 3000 F= Dl_grad=0,07
Количество итераций равно 4500 F= Dl_grad=0,04
Количество итераций равно 6097 F= Dl_grad=0,009
F= Dl_grad=0,009 Количество итераций равно 6097 Информация Текст Вуз Студент Глупость Ерунда Корова Машина Седло Дисплей Книга Компьютер
Пример оптимальной визуализации по схеме сети
Москва Самара Владивосток Екатеринбург Тамбов Иркутск Якутск
«Схема кластеров» - модель целочисленной линейной оптимизации m - число кластеров - признак включения i-го объекта за k-м объектом в некотором кластере L – максимально допустимое расстояние между соседними объектами в кластерах L->max или
, - вспомогательные булевы переменные Запрещается кольцо из 2-х объектов; в кластере должно не менее 2-х объектов; в кластере не может быть нескольких первых объектов; за каждым объектом может следовать лишь 1 объект
Реализация по схеме кластеров
Результаты кластерной визуализации Тамбов Москва Самара Екатер. Иркутск Якутск Владив. Тамбов Москва Самара Екатер. Иркутск Якутск Владив. m=2 m=3 m=1 Тамбов Москва Самара Екатер. Иркутск Якутск Владив.
Спасибо за внимание.