Интеллектуальные информационные системы Лекция 3.

Презентация:



Advertisements
Похожие презентации
Базы данных Access Вводная лекция. Определение базы данных Базы данных - это совокупность тем или иным способом структурированных данных и комплекса аппаратно-программных.
Advertisements

База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
База данных – это: а) специальным образом организованная и хранящаяся на внешнем носителе совокупность взаимосвязанных данных о некоторых объектах; б)
Базы данных Хранение, поиск и сортировка информации.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Выполнил: Приходько Александр. База данных – это информационная модель, позволяющая в упорядоченном виде хранить данные о группе объектов, обладающих.
Разработка пользовательских интерфейсов Выполнил: Бредихин Юрий Вячеславович студент 3 курса, 31-И группы Старый Оскол, 2015.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
Теория экономических информационных систем Семантические модели данных.
БАЗЫ ДАННЫХ (БД) 9 класс КОНСПЕКТ §10,11. Основное определение. Классификация БД. БД – совокупность хранящихся взаимосвязанных данных, организованных.
Выполнила студентка группы ТУ-501 Полозова Юлия..
Система программ «1 С: ПРЕДПРИЯТИЕ» Структура Элементы Средства.
Базы данных Учитель информатики МАОУ "СОШ 55" г. Пермь Бадьина Лариса Ивановна.
Технология хранения, поиска и сортировки информации в базах данных
М.И. Скорик Презентация на тему: «Виды документальных информационных систем»
База данных – информационная модель, позволяющая упорядоченно хранить данные о группе объектов, обладающих одинаковым наборов свойств Базы данных Фактографические.
Технология хранения, поиска и сортировки информации. Работу выполнили ученики 11 класса: Черных Елена и Навезнев Алексей.
БАЗЫ ДАННЫХ. Системы управления базами данных.. Понятие о БД Данные – это любая информация, которую необходимо сохранить в компьютере и к которой регулярно.
Базы данных. Системы управления базами данных (СУБД)
БАЗА ДАННЫХ – ОСНОВА ИНФОРМАЦИОННОЙ СИСТЕМЫ ТЕХНОЛОГИЯ ИСПЛЬЗОВАНИЯ И РАЗРАБОТКА ИНФОРМАЦИОННЫХ СИСТЕМ.
Транксрипт:

Интеллектуальные информационные системы Лекция 3

Инструментальные средства создания гипертекстовых систем Благодаря широкому использованию ГТ в ИС практически любой инструментарий разработки ИС включает функции для построения ГТ. В частности, данные функции реализуются в средствах разработки электронной документации (например, Adobe Acrobat), авторских системах, редакторах презентаций, издательских системах, редакторах web-страниц и др. Существует также специализированный инструментарий:

Microsoft Windows Help (WinHelp) и HTML Help - стандартные технологии построения и работы с гипертекстовыми справочниками для платформы Windows. Они позволяют формировать самые разнообразные ГТ: электронные руководства, электронные руководства,справочники,энциклопедии, пособия и др. Однако главное назначение данных технологий реализация контекстно-зависимых гипертекстовых справочников по программным продуктам. Такие справочники являются неотъемлемым компонентом прикладных программных систем. По умолчанию они вызываются клавишей F1 или через меню «Справка». Информация, отображаемая в окне справочника после его вызова, зависит от текущего режима работы приложения, с которым он связан. Поэтому подобные справочники называются контекстно-зависимыми

Создание гипертекстового справочника по программному продукту состоит из шести основных этапов. 1. Определение структуры справочника и его разделов. Этот этап является наиболее сложным и трудно формализуемым. В рамках него специфицируются: –назначение продукта, для которого создается справочник; –категории пользователей продукта; –рыночный сектор, на который ориентирован продукт; –функции и характеристики продукта, представляемые в справочнике; –основные разделы справочника и их примерное содержание; –соглашения, фиксирующие стиль, дизайн и оформление справочника.

2. Подготовка текста и графических иллюстраций справочника. Определение гипертекстовых ссылок. Формирование файлов тем (ИСС) и графических файлов, включая задание контактных областей для гиперграфики. 3. Создание файла проекта справочника.

4. Компиляция исходных файлов тем, графических файлов и файла проекта с формированием файла справочника. 5. Программная реализация модуля приложения, обеспечивающего доступ к справочнику. 6. Тестирование и отладка справочника.

Гипертекст в формате WinHelp реализуется в виде файла с расширением HLP (help- файла). Представление и взаимодействие со справочником обеспечивает программа WINHELP.EXE, входящая в состав Windows. HLP-файл формируется на основе файлов с текстом в формате RTF с помощью специального компилятора. Для вызова справочника из приложения служит функция Windows API WinHelp().

Гипертекст в формате HTML Help реализуется в виде файла с расширением СНМ. Представление и взаимодействие со справочником обеспечивают программные компоненты браузера Internet Explorer (начиная с версии 4.0). Для вызова справочника из приложения служит функция HTML Help API HtmlHelp().

К достоинствам HTML Help относятся: мощные средства языка HTML, включая каскадные таблицы стилей; возможности использования компонентов ActiveX и скриптов; тесная интеграция с технологиями Internet; возможность создания составных гипертекстовых справочников, объединяемых во время выполнения. Информация в СНМ-файле хранится в сжатом виде. Степень компрессии составляет примерно 8:1.

Гипертекст в формате HTML Help может быть разработан с помощью различных инструментальных средств. Наиболее популярными из них являются HTML Help Workshop фирмы Microsoft и KeyTools фирмы KeyWorks Software. Система Anet Help Tool российской фирмы Anet Soft позволяет создавать ГТ в формате как HTML Help, так и WinHelp.

Инструментальная среда HyperRef Инструментальная среда HyperRef Предназначена для построения электронных гипертекстовых изданий большого объема. Разработана в МЭИ (ТУ). HyperRef поддерживает следующие типы информационных объектов: текстовые экранные страницы, графические изображения, исполняемые модули.

Инструментальная среда HyperRef Объекты объединяются как в линейные последовательности, метафорой которых является глава или раздел книги, так и в гипертекстовую сеть. В визуальных объектах могут быть определены интерактивные элементы, используемые для организации гиперссылок. HyperRef поддерживает типизацию гиперссылок и содержит средства навигации по ГТ с учетом ограничений, обусловленных типами ссылок.

В состав HyperRef входят: диалоговый инструментарий автора (конструктор); пользовательская программа для работы с ГТ (исполнитель); набор утилит, позволяющих осуществлять поточный ввод информации, контролировать и восстанавливать целостность электронных гипертекстовых документов и т. д. В HyperRef предусмотрены средства, присущие фактографическим и полнотекстовым БД: словари ключевых слов, оглавления, средства выполнения сложных запросов и автоматической индексации текстов.

Автоматизированная система формирования и обработки гипертекстов (АСФОГ) создана в МЭСИ, предназначена для моделирования экономических объектов и процессов на основе представления информационного фонда ПрО в виде ГТ. АСФОГ целесообразно использовать для моделирования слабоструктурированных ПрО, когда поиск текстовой информации в традиционных линейных и иерархических структурах неэффективен из-за их неадекватности реальной сетевой структуре информационных объектов, представляющих эти ПрО.

Программное обеспечение АСФОГ реализовано в трех подсистемах

Подсистема работы с тезаурусом выполняет следующие функции: поиск в тезаурусе (поиск по связям с учетом их типов, контекстный поиск по связям); поддержка ускоренного просмотра; формирование отчетов; поддержка формирования и корректировки тезауруса.

Подсистема работы с информационными статьями создание ИСС с помощью текстового редактора типа Word; коррекция ИСС; доступ к ИСС; формирование и печать отчетов по ИСС; импорт и экспорт файлов, содержащих ИСС.

Подсистема работы с алфавитным словарем решает следующие задачи: алфавитная сортировка (лексикографическое упорядочение) заголовков ИСС; контекстный поиск ИСС по заголовку; поддержка ускоренного просмотра словаря; печать информации из словаря.

Гипертекстовые информационно- поисковые системы Гипертекстовая информационная технология используется при организации больших массивов текстовых документов и реализации методов поиска информации в них. Информационный поиск совокупность операций, методов и процедур, направленных на отбор данных, хранящихся в ИС и соответствующих заданным условиям.

Информационно-поисковые системы (ИПС) подразделяются на три класса: документальные;фактографические; гипертекстовые (ГИПС).

Документальные ИПС Документальные ИПС хранят и выдают сведения о документах, основное содержимое которых представлено в виде связанного текста на естественном языке (ЕЯ). Признаки документа, отражающие его содержание в ИПС, называют поисковым образом, а признаки запроса к ИПС поисковым предписанием.

Процедура перевода документа и запроса в форму представления, принятую в ИПС, называется индексированием. При сопоставлении поискового образа и поискового предписания используется тот или иной критерий смыслового соответствия (релевантности).

Первые ИПС были предназначены для поиска книг в библиотеках и получили название библиографических. Позже их стали применять и для поиска документов в больших хранилищах и стали называть документальными

Основным объектом информационного фонда документальной ИПС является аннотация (реферат) и библиографическое описание документа (книги, события, предмета). Реферат (аннотация) выражается на ЕЯ и отражает основные характеристики документа, представляющие интерес для пользователей. Предполагается, что в подобном описании можно выделить ряд слов и словосочетаний, число которых значительно меньше общего числа слов в описании. В то же время выделенная информация достаточно точно характеризует описание. Такие слова и словосочетания называются ключевыми словами или дескрипторами.

Запрос к документальной ИПС формулируется в виде перечня дескрипторов, которые по мнению пользователя характеризуют искомый документ. При вводе в ИПС нового объекта (реферата) его дескрипторы автоматически включаются в словарь дескрипторов. Каждому дескриптору присваивается номер, называемый индексом дескриптора. Совокупность индексов, соответствующих полному набору дескрипторов реферата, составляет его поисковый образ. Новый поисковый образ снабжается уникальным идентификатором (регистрируется) и включается в массив поисковых образов. Тем же идентификатором помечается новый реферат, заносимый в массив рефератов.

Организация поиска в дескрипторной ИПС Запрос, сформулированный на ЕЯ, подвергается анализу, в рамках которого в нем выделяются дескрипторы, входящие в словарь дескрипторов. Их совокупность образует поисковое предписание, соответствующее запросу. Оно сопоставляется с поисковыми образами, в результате чего определяется их релевантность. Если поисковый образ и предписание релевантный, то из поискового образа извлекается идентификатор реферата, выдаваемого пользователю. Ответом на запрос является множество рефератов, соответствующих отобранным в процессе поиска идентификаторам.

В целях ускорения поиска для каждого дескриптора в словаре дескрипторов указывается список идентификаторов рефератов, в которых он встречается. Такая информационная структура ИПС называется индексом.

С помощью дескрипторов можно лишь приблизительно отразить смысл документов. Это же относится к переводу запросов в поисковые предписания. Документальная ИПС может выдать рефераты, не относящиеся к поисковому запросу, или не найти рефераты, которые соответствуют ему.

Документальный поиск относится к числу сложных информационных процессов, поскольку он связан с проблемой оценивания смыслового соответствия документа и запроса. Из-за субъективности и неоднозначности подобного оценивания этот вид поиска в принципе не может быть исчерпывающе точным и полным, в нем всегда будет присутствовать элемент нечеткости.

Развитием поиска по дескрипторам является полнотекстовый поиск, реализуемый, например, в поисковых машинах Internet. В системах, использующих данный вид поиска, индекс формируется на основе всех слов и словосочетаний, содержащихся в документах, за исключением служебных неинформативных слов (союзов, предлогов, местоимений и т. п.). При индексировании с помощью словарей и средств морфологического анализа слова приводятся к базовой грамматической форме (именительный падеж, единственное число и т. д.).

Фактографические ИПС В фактографических ИПС хранятся не документы, а собственно сведения (факты) об объектах ПрО. Подобные ИПС реализуются, в частности, на основе реляционных БД. С точки зрения обеспечения релевантности результатов поиска (выборки данных) запросу фактографический поиск в отличие от документального является точным и полным.

Гипертекстовые ИПС В гипертекстовых ИПС кроме содержимого документов отражается их семантическая структура. Поэтому по глубине формализации ГИПС занимают промежуточное положение между документальными и фактографическими ИПС.

Поиск по метаданным Одно из направлений развития технологии документальных ИПС связано со структуризацией и унификацией сведений о документах. Такие сведения по отношению к исходным документам играют роль метаданных. Примером метаданных служит библиографическое описание, содержащее информацию об авторах документа, дате его создания, объеме, форме представления и т. д. Ключевые слова также относят к метаданным.

Поиск по метаданным сближает технологии документальных и фактографических ИПС. С одной стороны, метаданные представляют документы. С другой стороны, некоторые элементы метаданных допускают четкое определение релевантности запроса и записи в БД (экземпляра метаданных, ассоциируемых с конкретным документом), что характерно для фактографических ИПС. В настоящее время хранилища метаданных обычно реализуются на основе реляционных и XML- ориентированных БД и используют механизмы поиска, воплощаемые в соответствующих СУБД.

Классификация и характеристики методов информационного поиска

Введем следующие обозначения: В данном контексте под документом будем понимать как собственно текстовый или гипертекстовый документ, так и отдельную запись в БД.

Зададим на D оценку смысловой близости пары документов r(d i,d j ) 0. При r=0 документы d i и d j эквивалентны по смыслу. Для семантически несопоставимых документов не r определена. Введем оценки ряда важных свойств документов: S=(S 1,S 2,…,S k ), k>0. Пусть оценка каждого свойства S j выражается действительным числом, принадлежащим некоторому интервалу. Для определенности примем, что чем больше значение S, тем важнее для пользователя документ.

Поисковый запрос может рассматриваться как виртуальный документ z. В идеальном случае (r(z,d j )=0) ему точно соответствует документ d j.

Используя введенные обозначения, определим следующие виды поиска: 1. Найти Если, то в D нет докуметов, релевантныйх запросу. При |D j |=1 есть единственный подходящий документ. Если |D j |>1, то таких документов несколько 2. Найти, где Δ - оценка наибольшего допустимого расхождения смыслов запроса и искомых документов.

3. Найти. Результатом поиска служит подмножество документов, которым приписана наибольшая оценка важности j-го свойства. Обобщением этого варианта является векторный поиск, учитывающий оценки нескольких свойств. 4. Комбинированный поиск: найти Интеллектуальные возможности ИПС в части функций информационного поиска обусловлены способами задания и вычисления r и S.

Эффективность информационного поиска документов, обеспечиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются коэффициентами полноты и шума соответственно. Коэффициенты и принимают значения в интервале от 0 до 1. В некоторых источниках эти коэффициенты выражают в процентах. Пусть ИПС предъявлен i-й запрос. Информационно- поисковая система содержит множество документов D i релевантныйх этому запросу. В результате поиска получено множество D I 0, Возможны следующие варианты:

Определим коэффициенты полноты и шума:

Смысл коэффициентов полноты и шума Успешность поиска формально определяется степенью совпадения множеств D i и D i 0.

Сравнение документальных, фактографических и гипертекстовых ИПС по ряду показателей

Системы контекстной помощи Системы контекстной помощи можно рассматривать как частный случай интеллектуальных гипертекстовых и естественно-языковых систем. В отличие от обычных систем помощи, навязывающих пользователю схему поиска требуемой информации, в системах контекстной помощи пользователь описывает проблему (ситуацию), а система с помощью дополнительного диалога ее конкретизирует и сама выполняет поиск относящихся к ситуации рекомендаций. Такие системы относятся к классу систем распространения знаний (Knowledge Publishing) и создаются как приложение к системам документации (например, технической документации по эксплуатации товаров).