Документальная ИС - единое хранилище документов с инструментарием поиска и отбора необходимых документов. Отсюда еще одно их название - ИПС. В зависимости.

Презентация:



Advertisements
Похожие презентации
М.И. Скорик Презентация на тему: «Виды документальных информационных систем»
Advertisements

Информационные системы Тема 6: «Документальные информационные системы» Колмыкова Оксана Владимировна ВГУЭС, г.Владивосток, ул.Гоголя 41 каф. ИИКГ, ауд.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Организация данных в виде отдельных файлов Файл с данными по договорам договора Дата Организация Директор Адрес Телефон Файл с данными по письмам исх/вх.
3.1. Назначение онтологий. Информационный поиск..
Лекция 6 Грамматическое значение и способы его выражения.
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
ЛЕКЦИЯ 11. ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ ИС. 1.Внемашинное информационное обеспечение. Основные понятия классификации информации. 2.Понятия и основные требования.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
ГОСТЕХКОМИССИЯ РОССИИ РУКОВОДЯЩИЙ ДОКУМЕНТ Защита от несанкционированного доступа к информации.
Теория экономических информационных систем Семантические модели данных.
Тема Структура представления информации в мировых информационных сетях.
Пирумова Лидия Николаевна Зам. директора ЦНСХБ, канд.пед.наук Индексирование документов для Сводного каталога НИУ АПК Индексирование документов для Сводного.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
Автоматизация деятельности архивной отрасли Система «АРХИВНЫЙ ФОНД» (версия 4.1) Управление государственной архивной службы Новосибирской области 2010.
Информационно-поисковая система. Классификация информационно- поисковых систем.
От сложного – к простому. От непонятного – к понятному.
База данных – это: а) специальным образом организованная и хранящаяся на внешнем носителе совокупность взаимосвязанных данных о некоторых объектах; б)
Транксрипт:

Документальная ИС - единое хранилище документов с инструментарием поиска и отбора необходимых документов. Отсюда еще одно их название - ИПС. В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы: - системы на основе индексирования; - семантически-навигационные системы.

В семантических навигационных системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям между различными документами. Такие конструкции реализуют некоторую семантическую сеть в базе документов.

Способ и механизм выражения информационных потребностей в таких системах заключается в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

В системах на основе индексирования исходные документы помещаются в базу без дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Этот процесс называется индексированием и заключается в присвоении документу индекса-координаты в поисковом пространстве.

Формализованное представление индекса документа называется поисковым образом документа (ПОД). Когда пользователь обращается к такой системе, она на основе определенных критериев ищет документы, поисковые образы которых соответствуют или близки поисковым запросам пользователя. Соответствие найденных документов запросу пользователя называется релевантностью.

Особенностью документальных ИПС является также то, что в их функции включаются задачи информационного оповещения пользователей по всем новым поступающим в систему документам, соответствующим информационным потребностям пользователя. Задачи информационного оповещения решаются на основе отображения в поисковое пространство информационных потребностей пользователя в виде так называемых поисковых профилей пользователя (ППП). ИС по мере поступления новых документов сравнивает их образцы с ППП пользователей и принимает решение об оповещении.

Поисковое пространство, отображающее поисковые образы документов и реализующее информационный поиск документов строятся на основе языков документальных баз данных, которые называются информационно- поисковыми языками (ИПЯ). Информационно- поисковый язык представляет собой формализованную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску документов. По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие.

Структурная составляющая ИПЯ документальных ИПС на основе индексирования реализуется индексными указателями в форме информационно- поисковых каталогов, тезаурусов и генеральных указателей.

Информационно-поисковые каталоги являются традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляет собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа отображается классом каталога, а индексирование заключается в присвоении каждому документу специального кода (индекса) внутри класса и создание специального индексного указателя.

Тезаурус представляет собой специальным образом организованную совокупность основных лексических единиц предметной области (словарь терминов) и описание парадигматических отношений между ними. Парадигматические отношения выражаются семантическими отношениями между элементами словаря, не зависящими от контекста. Независимость от контекста означает абстрагированность смысловых отношений, например, род-вид, предмет- целое, субъект-объект-средство-место- время действия. Так же как и в информационно-поисковых каталогах, в системах не основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а лишь смысловое содержание документа.

Генеральный указатель (глобальный словарь-индекс) представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием местонахождения каждого слова (N документа–N абзаца–N предложения – Nслова). Индексирование нового документа в таких системах через дополнение координатных отсылок тех словоформ генерального указателя, которые присутствуют в новом документе. Так как поисковое пространство в таких системах отражает полностью весь текст документа, то такие системы получили название полнотекстовых ИПС.

Структурная составляющая ИПЯ семантически-навигационных систем реализуется в виде техники смысловых отсылок в тестах документов и специальном навигационном интерфейсе по ним и в настоящее время представлена гипертекстовыми технологиями.

Поисковая (манипуляционная) составляющая ИПЯ реализуется дескрипторными и семантическими языками запросов.

В дескрипторных языках документы и запросы представляются наборами некоторых лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей, или как говорят, не имеющих грамматики. Таким образом, каждый документ представлен некоторым набором дескрипторов. Поиск осуществляется через поиск документов с подходящим набором дескрипторов. Такие языки применяются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семантические конструкции для описания смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на две группы: - предикатные языки; - реляционные языки.

В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, который представляет собой многоместное отношение некоторой совокупности грамматических элементов. Многоместность отношения означает, что каждый элемент предиката играет определенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналог в естественном языке – предложение, описывающее определенный факт или событие.

В реляционных языках лексические единицы высказываний могут вступать только в бинарные, но не в много местные отношения. В качестве лексических единиц выступают функциональные классы естественного языка: - понятия-классы - понятия-действия - понятия-состояния - имена - отношения - квантификаторы.

Семантические языки составляют языково- манипуляционную основу информационно- поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых) ИПС, описывая своими средствами сами каталоги, тезаурусы, семантические сети и выражая смысловое содержание документа.

Полнота информационного поиска R = A/C, где A – число найденных пертинентных документов; C – общее число пертинентных документов; Пертинентность – соответствие найденных документов информационным потребностям пользователя.

Точность информационного поиска P = A/L, где A – число найденных пертинентных документов; L – общее число документов; Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы.

Коэффициент информационного шума K= (L-A)/L, где L-A – число нерелевантных документов; L – общее число документов; В идеале полнота и точность информационного поиска приближаются к единице, однако на практике их значения составляют 60-90%.

Тезаурус Thesaurus От греч.Thesauros - запас, сокровище Информационно-поисковый тезаурус - словарь дескрипторного информационно- поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц.

Тезаурус содержит список ключевых слов, которыми может быть охарактеризовано содержание документов, с выделением слов, рекомендованных для индексирования (дескрипторов). Парадигматические отношения указывают общность или противопоставление значений и использования лексических единиц.

Обычно информационно-поисковые тезаурусы оформляются в виде книг. В соответствии с тематическим профилем различают многоотраслевые, отраслевые и узко-тематические тезаурусы.

Вспомогательный дескриптор Квалификатор Auxiliary descriptor Вспомогательный дескриптор - дескриптор, который используют только совместно с другими дескрипторами. Графический указатель информационно-поискового тезауруса Graphic display of a thesaurus Графический указатель информационно-поискового тезауруса - совокупность семантических схем, в графической форме представляющих парадигматические отношения между дескрипторами с помощью диаграмм, стрелок и т.п.

Дескриптор Descriptor Дескриптор - лексическая единица: - выраженная информативным словом (вербально) или кодом; и - являющаяся именем класса синонимичных или близких по смыслу ключевых слов. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - один дескриптор. Дескрипторы используются для координатного индексирования документов и информационных запросов с целью последующего поиска.

Дескрипторный информационно-поисковыйт язык; Информационно-поисковый язык дескрипторного типа; Дескрипторный язык Descriptor language Дескрипторный информационно-поисковый язык - информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов.

Дескрипторный словарь Дескрипторный словарь - словарь дескрипторного информационно-поискового языка, в котором приведены в общем алфавитном ряду дескрипторы и их синонимы без указания других отношений лексических единиц. Дескрипторный словарь является упрощенным вариантом информационно-поискового тезауруса, в котором зафиксированы (преимущественно) синонимические связи.

Идентификатор Identifier Идентификатор - в ИПС - имя собственное, используемое как дескриптор. Иерархический указатель информационно поискового тезауруса Hierarchical display of a thesaurus Иерархический указатель информационно- поискового тезауруса - список дескрипторов высшего уровня иерархии, в котором для каждого из дескрипторов приводятся подчиненные нижестоящие дескрипторы, расположенные в порядке убывания общности.

Ключевое слово Ключевая фраза Key-word; Key phrase Ключевое слово - информативное слово, приведенное к стандартной лексикографической форме и используемое для координатного индексирования. Ключевые слова в контексте Keyword-in-context Ключевые слова в контексте - методология автоматизированного поиска, используемая для создания указателей текстов или списка заголовков документов, при которой каждое ключевое слово хранится вместе с окружающим его текстом.

Код дескриптора Concept symbol Код дескриптора - код, используемый в информационно-поисковом тезаурусе для представления эквивалентных дескрипторов и их синонимов. Лексико-семантический указатель Лексико-семантический указатель - основная часть информационно-поискового тезауруса, в которой в едином алфавитном порядке перечислены все дескрипторы и нондескрипторы с указанием их парадигматических отношений.

Макротезаурус Macrothesaurus Макротезаурус - информационно-поисковый тезаурус, включающий лексические единицы высокой общности и покрывающий широкую область знания. Макротезаурус используется для организации взаимодействия различных информационных систем.

Микротезаурус Microthesaurus Микротезаурус - специализированный информационно-поисковый тезаурус небольшого объема: - составленный на основе развития выборки из более полного информационно-поискового тезауруса; и дополнительно включающий конкретные узкие понятия определенной тематики.

Многоязычный информационно-поисковый тезаурус Multilingual thesaurus Многоязычный информационно-поисковый тезаурус - информационно-поисковый тезаурус: - содержащий лексические единицы, взятые из нескольких естественных языков; - представляющий эквивалентные по смыслу понятия на каждом из этих языков; - предназначенный для обработки документов и информационного поиска с целью обмена информацией на различных естественных языках.

Нондескриптор Недескриптор; Аскриптор Non-descriptor Нондескриптор - лексическая единица в информационно-поисковом тезаурусе, которая не может быть использована для координатного индексирования и подлежит замене одним или несколькими заменяющими ее дескрипторами.

Одноязычный информационно-поисковый тезаурус Monolingual thesaurus Одноязычный информационно-поисковый тезаурус - информационно-поисковый тезаурус, содержащий лексические единицы, взятые из одного естественного языка.

Пермутационный указатель информационно- поискового тезауруса Permuted index of thesaurus entries Пермутационный указатель информационно- поискового тезауруса - указатель, в котором: - в алфавитном порядке перечислены все отдельные слова, входящие в компоненты словосочетаний, обозначающих дескрипторы; и - для каждого из них указаны все дескрипторы, в состав которых входят эти слова. Пермутационный указатель обеспечивает поиск дескрипторов-словосочетаний по любому слову, входящему в их состав.

Поиск по ключевым словам Keyword search Поиск по ключевым словам - поиск документов, которые содержат указанные пользователем ключевые слова. Политематический информационно- поисковый тезаурус Descriptor vocabulary Политематический информационно-поисковый тезаурус - информационно-поисковый тезаурус, построенный для широкой совокупности областей знания.

Систематический указатель информационно- поискового тезауруса Systematic display of a thesaurus Систематический указатель информационно- поискового тезауруса - вспомогательная часть информационно-поискового тезауруса, в которой перечень лексических единиц построен согласно с принятой классификацией понятий соответствующей отрасли знания.

Специализированный информационно- поисковый тезаурус Монотематический информационно- поисковый тезаурус Specialized thesaurus Специализированный информационно- поисковый тезаурус - информационно- поисковый тезаурус, построенный для отражения ограниченной области знания или практической деятельности.

Хеширование Hashing От англ.Hash - перемешивание Хеширование - метод преобразовании ключа записи в абсолютный или относительный адрес расположения записи в памяти. При хешировании используется функция преобразования ключа (функция хеширования).

Язык ключевых слов Key-word language Язык ключевых слов - информационно- поисковый язык, предназначенный для индексирования документов и информационных запросов посредством ключевых слов.

включает 7 подвидов, в т.ч. 7 собственных оперирует 16 терминами, в т.ч. 12 собственными задействована в 2 понятиях пересекается с 3 понятиями

Основные направления развития систем классификационного индексирования документов можно проиллюстрировать схемой, приведенной на Рисунок 1.

Рисунок 1. Системы классификационного индексирования документов

Первоначальные подходы к классификации тематики (предмета) документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (предметы) документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством предметов (рубрик), отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересующих абонента предметов (рубрик) и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Для удобства поиска и отбора по каждому документу формируется специальная карточка, на которую наносится информация о кодах предметных рубрик документа, а также об авторе, названии и др. библиографических данных документа, его физическом местонахождении, и реферат, который уже на естественном языке в сжатом виде, отражает содержание документа. Поиск и отбор документов непосредственно осуществляется по отбору карточек с необходимыми индексными кодами для последующего извлечения из хранилища собственно самих документов.

Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.

При систематизированной классификации список предметных рубрик строится, как иерархическая структура, в виде перевернутого дерева. Вся предметная область ИПС разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик по принципу «Род-Вид».

Таким образом, при систематизированной классификации используются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношениях основных категорий, понятий и классов. Представление иерархической классификации производится либо в виде древовидного графа (Рисунок 2), либо в табличном виде.

Рисунок 2. Древовидная форма представления иерархической классификации

Так же, как и при перечислительной классификации, содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся отмеченные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК).

Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы, по которым существуют или могут существовать документы.

Принцип организации классификационного индексирования документов, преодолевающего в определенной степени такие ограничения перечислительной и иерархической классификации, был предложен в 30-х годах выдающимся индийским библиотековедом и математиком Ш. Р. Ранганатаном. Впоследствии развит в работах английской группы по исследованию классификаций (Classification Research Group) и получил название аналитико-синтетической или иначе фасетной классификации. Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается на ряд исходных групп рубрик (фасет) по организационно-технологическому или семантическому принципу, отражающему специфику предметной области.

Фасеты выступают в роли «кирпичиков», из которых можно сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно- иерархическому принципу.

Основное достоинство фасетной классификации заключается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количество узких специализированных рубрик и, тем самым, наиболее точно и полно проиндексировать содержание документов.

Специфической проблемой фасетной классификации является влияние на эффективность поиска документов порядка следования обозначений рубрик фасет. Психологические особенности поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, которые стоят первыми в цепном списке сконструированной формулы, и если интересующие его в первую очередь сведения отражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого недостатка используется так называемая пермутация, при которой для документа приводится список всех возможных вариантов написания сконструированной фасетной формулы на основе циклической перестановки.

Сильной стороной фасетной классификации является более глубокое, чем при иерархической классификации, использование семантики. Фасеты, как уже отмечалось, отражают определенные семантические основы предметной области ИПС, содержащие помимо родо-видовых и некоторые прочие семантические, в частности ролевые, отношения.

В основе построения дескрипторных ИПЯ (ДИПЯ) лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т. е. списком наиболее существенных для понимания текста назывных полнозначных слов. Полнозначные слова - существительные, прилагательные, глаголы, наречия, числительные, местоимения. Неполнозначные слова - предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются: Словарь лексических единиц, обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и словосочетаний - морфология; фраз, текстов в целом - синтаксис) с естественного языка на ИПЯ. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т. е. его словаря и правил применения.

Словари лексических единиц делятся на две группы: основные лексические словари, составляющие лексику ИПЯ, и морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Соответствующие им словари носят названия: "Словарь ключевых слов", "Словарь словосочетаний" и "Словарь дескрипторов". Дескриптор - понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т. е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно- поискового тезауруса (ИПТ). Наиболее важными парадигматическими отношениями ИПТ являются: соподчинение; вид-род (род-вид); часть-целое (целое-часть); причина-следствие (следствие-причина); функциональное сходство.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию. Словарная часть - алфавитный список дескрипторов с их словарными статьями и ключевых слов. Семантическая карта - система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Тезаурус (от греч. «хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь- справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.

В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов - ключевых слов. Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из «родо-видовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.

Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терминов, им соответствующих.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поисковых тезаурусов ПОД представлен набором дескрипторов (ключевых терминов). Однако в процессе индексирования документов учитываются семантические (родо-видовые, ролевые, синонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эффективность поиска документов (по точности, полноте и шуму).

На основе практики разработки и использования информационно- поисковых тезаурусов были также разработаны специальные представления тезаурусов, закрепленные в нашей стране в соответствующих ГОСТах. Согласно ГОСТ «Тезаурус информационно-поисковый. Общие положения. Форма представления» форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:

РЕФЕРАТ с - резюме в - СВЕРТЫВАНИЕ ИНФОРМАЦИИ н - РЕФЕРАТ АВТОРСКИЙ РЕФЕРАТ ГРАФИЧЕСКИЙ РЕФЕРАТ ИНФОРМАТИВНЫЙ РЕФЕРАТ «ТЕЛЕГРАФНОГО СТИЛЯ» РЕФЕРАТ УКАЗАТЕЛЬНЫЙ РЕФЕРИРОВАНИЕ а - АННОТАЦИЯ где в качестве буквенных обозначений выступают следующие: с термины-синонимы; втермины, подчиняющие заглавный термин, т. е. выше по иерархии; нтермины, подчиненные заглавному, т. е. ниже по иерархии; атермины, ассоциированные с заглавным термином.

Еще одной особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане различают базовые и рабочие тезаурусы. Базовые тезаурусы выступают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезаурусы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появления в документах новых или специфичных терминов (так называемые профессионализмы, иногда жаргонные термины и т. д.).

Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ.

Система индексирования (СИ) - совокупность методов и средств перевода текстов с ЕЯ на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим технологию систем индексирования по пяти наиболее важным основаниям. 1. По степени автоматизации процесса индексирования можно различать системы: а) ручного индексирования; б) автоматического индексирования; в) автоматизированного индексирования. Наиболее широко распространены автоматизированные СИ.

2. По степени контролируемости различают СИ: а) без словаря (может быть факультативное использование словарей); б) с жестким словарем; в) со свободным словарем.

3. По характеру алгоритма отбора слов текста могут быть СИ: а) с последовательным просмотром текста; б) с эвристическими процедурами выбора слов текста; в) со статистическими процедурами выбора слов. В случае (а) отбираются все полнозначные слова, в случае (в) только информативные слова в соответствии с распределением частот их употребления, в случае (б) слова отбираются интуитивно или по заданной процедуре.

4. По характеру лексикографического контроля существуют системы: а) без лексикографического контроля; б) с полным контролем; в) с промежуточным контролем. Лексикографический контроль предусматривает: устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; приведение всех слов к нормальному виду на основе морфологических нормативных словарей.

5. По характеру морфологического анализа слов различают СИ с морфологическим анализом с использованием: а) морфологических словарей; б) основных лексических словарей; в) морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа. Системы свободного индексирования. Процесс индексирования состоит в следующем.

Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Такие слова он может брать из своей памяти, любых словарей, энциклопедий, вообще любых текстов. Отобранный список слов является поисковым образом текста. Это СИ с ручным индексированием.

Системы полусвободного индексирования. В данном случае процесс индексирования аналогичен вышеописанному, но слова сформированного списка сравниваются со словарем, несовпадающие слова отбрасываются и в ПОД не включаются.

Системы жесткого индексирования. При этом слова выписываются только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь проводится его морфологическая нормализация на основе основных лексических словарей.

Системы статистического автокодирования. Слова выбираются из текста по заданным статистическим процедурам, после чего проводится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики.

Сформировалось два различных по содержанию подхода к автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (терминов) и применяется в системах на основе информационно-поисковых тезаурусов. ( Второй подход применяется в полнотекстовых системах.)

Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов. Применяется два типа образования индекса прямой и инвертированный (см. Рисунок 3).

Рисунок 3. Прямой и инвертированный типы организации индекса

Прямой тип индекса строится по схеме «Документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме - «Термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

На рынке программных продуктов в конце 80-х годов появились полнотекстовые ИПС и программные средства их создания, называемые иногда полнотекстовыми СУБД. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»). Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно- технологическая структура включает следующие элементы:

хранилище (базу) документов; глобальный словарь системы; индекс документов инвертированного типа; интерфейс ввода (постановки на учет) документов в систему; механизм (машину) индексирования; интерфейс запросов пользователя; механизм поиска документов (поисковую машину); механизм извлечения (доставки) найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов. Для компактного хранения документов они могут быть сжаты архиваторами.

Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими.

Статические словари не зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого и т. д.).

Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах.

Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие через интерфейс ввода/вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря.

Важной особенностью, оказывающей существенное влияние на эффективность полнотекстовых ИПС, является наличие либо отсутствие морфологического разбора при индексировании документов и запросов.

Морфологический разбор позволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т.е. одни и те же слова, отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т.п.).

Такой процесс основывается на нормализации глобального словаря системы, объединяющей в одну словоформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова (стоп-слова) предлоги, союзы, восклицания, междометия и некоторые другие грамматические категории. В большинстве случаев морфологический разбор осуществляется в системах со статическим глобальным словарем.

В результате индексирования ПОД каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов. При удалении документа из системы соответственно удаляется и поисковый образ документа, т.е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯ полнотекстовой ИПС через соответствующий интерфейс запросов выражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступают на поисковую машину.

Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют или близки поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище документов указательных конструкций извлекает и доставляет соответствующие документы пользователю.