Информационная система выделения кластеров знаний (ОБЪЕКТЫ-ХАРАКТЕРИСТИКИ) на основе эвристических методов Выполнил студент СГАСУ Группы Гип -107 Перваков А.В.
Кратко о проблеме Любая область знания определяется набором ключевых слов. Нас интересует структура человеческих знаний отраженная в Интернет. Она страшно быстро меняется, поэтому традиционная система структуризации, например УДК, уже не отражает этот процесс. Поэтому стоит задача выделять сгустки ключевых терминов, наиболее часто встречающихся вместе.
Решение проблемы Один из возможных путей решения данной проблемы это кластеризация словаря лексем по степени ассоциативной близости, что должно дать набор ключевых слов характерных для той или иной области.
Программа Мной создана программа кластеризации лексем по графово- эвристическому методу – алгоритм выделения связанных компонент. Программа может быть в дальнейшем усовершенствована для работы с более большим объемом знаний, а также может быть заменен метод кластеризации более совершенным.
Скриншоты Далее приведены скриншоты графа полученного путем кластеризации набора из 10 лексем встречающихся в области ИСТ. Список лексем: Компьютер,ЭВМ, Информация, Сеть, Интернет, Программирование, Алгоритм, Вычисления, Интеллект, Знания.
Наиболее характерные для ИСТ лексемы. Компьютер, Интернет, Сеть, Программирование, Информация.
Спасибо за внимание.