Полнотекстовый поиск в электронной библиотеке с большим количеством многоязычных ресурсов С.Х.Ляпин, А.В.Куковякин ООО «Константа» (Россия) Архангельский.

Презентация:



Advertisements
Похожие презентации
Информационная система T-Libra (v.6.х) для создания многофункциональных электронных библиотек С.Х.Ляпин, А.В.Куковякин ООО «Константа» (Архангельск, Россия)
Advertisements

Электронная музейная библиотека нового поколения в интегрированной информационной среде областного краеведческого музея С.Х.Ляпин Архангельский областной.
Электронная библиотека и электронная коллекция в составе интегрированной информационной среды (проекты АОЦПК и АОКМ) С.Х.Ляпин, А.В.Куковякин ООО «Константа»
Электронная библиотека с распределенным полнотекстовым поиском: на пути к функциональной интеграции ресурсов и сервисов С.Х.Ляпин ген. директор ООО «Константа»,
Многоязычный поиск в многофункциональной электронной библиотеке: общие подходы и их реализация в ИС T-Libra 6.x Многоязычный поиск в многофункциональной.
Технологическое обеспечение процесса создания полнотекстовых ресурсов для электронной библиотеки на базе информационной системы T-Libra Вадим Олейник,
Реализация концепции построения и формирования отраслевой системы государственного учета, регистрации и мониторинга (ОСГУРМ) информационных ресурсов сферы.
Система управления электронной библиотекой LibMeta Каленкова Анна ВЦ РАН.
Программная система «Портал научной группы» (разработано в рамках ПНР-5) 24 марта 2011 г. Челябинск Южно-Уральский государственный университет 1.
Инструментальная система разработки распределенных приложений «SiTex»
ТЕХНОЛОГИИ И СЕРВИСЫ ЦИФРОВЫХ КОЛЛЕКЦИЙ В ЭЛЕКТРОННОЙ БИБЛИОТЕЧНОЙ СИСТЕМЕ Ольга Баркова ООО "Специализированный центр "БАЛІ" (Киев, Украина) (Киев, Украина)
Автоматизация деятельности архивной отрасли Система «АРХИВНЫЙ ФОНД» (версия 4.1) Управление государственной архивной службы Новосибирской области 2010.
Организация хранилища единой коллекции цифровых образовательных ресурсов с использованием технологии «ЭЛАД» В.Ю. Лукин.
Методы реализации интерфейсов обеспечения библиотечных сервисов Никандрова Екатерина Владимировна Группа 5305.
ИРБИС 128: опыт внедрения, преимущества и новые решения для библиотек Сергиенко Татьяна Васильевна, вед. специалист Ресурсного центра БИК СФУ.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
1. Краткая характеристика MS Access1. Краткая характеристика MS Access 2. Достоинства и недостатки 3. Типы БД 4. Базы данных и системы управления базами.
ФОРС-Центр Разработки Подсистема «Право». Подсистема «Право» предназначена для создания и ведения ведомственной базы данных электронных документов нормативно-правовой.
Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
«Либэр. Электронная библиотека» - новый этап в автоматизации Программное решение для создания электронной библиотеки Сорокин И.В., менеджер проекта, ЗАО.
Транксрипт:

Полнотекстовый поиск в электронной библиотеке с большим количеством многоязычных ресурсов С.Х.Ляпин, А.В.Куковякин ООО «Константа» (Россия) Архангельский областной центр повышения квалификации специалистов культуры (АОЦПК) Международная научная конференция Iнтранет/Екстранет-ресурси в наукових бiблiотеках (Киев, НБУВ, 9-10 октября 2007 года)

Содержание Информационная система T-Libra 6.x ® : статус и назначение Интернет / Интранет архитектура Базовая функциональность ИС T-Libra: административный и пользовательский разделы Основные направления развития ИС T-Libra Организация программной среды для работы с большими объемами многоязычной информации –Концептуальная модель и программная организация многоязычного электронного словаря словоформ. –Новое в формировании «корзины ресурсов» для организации эффективного полнотекстового поиска

Информационная система T-Libra 6.x ®

Назначение ИС T-Libra 6.x ® (1) Создание многофункциональных многоязычных многоплатформенных электронных библиотек в Интернет/Интранет-архитектуре с возможностями: –автоматизированной подготовки, импорта и индексации электронных полнотекстовых ресурсов различного вида и формата; –импорта библиографической информации в формате ISO 2709 из существующих MARC-ориентированных АБИС; –автоматизированного пополнения и «ручного» редактирования многоязычного электронного словаря словоформ; –поиска по интегрированному каталогу со встроенным настраиваемым предметным мультирубрикатором (УДК, ББК, ВАК, ГРНТИ и т.д.)

Назначение ИС T-Libra 6.x ® (2) Создание многофункциональных многоязычных многоплатформенных электронных библиотек в Интернет/Интранет-архитектуре с возможностями: –использования пополняемого файлового хранилища (Депозитария) с файлами произвольного вида и формата и собственным настраиваемым рубрикатором ресурсов –гибкого тематизируемого многоязычного полнотекстового поиска различного типа и вида с сортировкой и группировкой его результатов –мультимодального расширения (графика, аудио, видео), в том числе для взаимодействия и интеграции с другими информационными системами, модулями и оболочками (электронными коллекциями, электронными экспозициями, мультимедиа-энциклопедиями и т.д.)

ИС T-Libra 6.x: архитектура (блок-схема) Браузер (MS IE 6 и выше) Веб-сервер (Apache) CGI-приложение Сервер приложения (объектная среда, бизнес-логика) РСУБД (MySQL) HTTP CGI named pipe ODBC КлиентСервер

ИС T-Libra 6.x: Основные характеристики Трехзвенная клиент-серверная Интернет/Интранет архитектура с «внешней логикой», встроенной в объектно-ориентированный сервер приложения: Web-browser / Web-server + Application Server / Relational DBMS, с протоколами HTTP, CGI, PIPE API, ODBC. Многоплатформенность как в плане независимости от конкретной СУБД, так и от конкретной операционной системы (возможна работа под управлением Windows и Linux). –Примечание: работа в среде Linux планируется начиная с версии 7.x Предметно-ориентированные объекты приложения (сервер приложений) разработаны на объектно-ориентированном языке C++. Для полнотекстового поиска применяется новые структуры прямого и инвертированного индекса, хранящегося в файлах, и более эффективные алгоритмы работы с ним (по сравнению с чистой SQL-версией). В результате существенно повышена скорость поиска (на два порядка).

ИС T-Libra 6.x: функциональная структура Информационная система T-Libra Пользовательский раздел Административный раздел Каталог Депозитарий Полнотекстовый поиск Оператор ресурсов Оператор словаря Администратор поиск ресурсов по каталогу со встроенным мультирубрикатором поиск и извлечение файловых ресурсов по специализированному настраиваемому рубрикатору гибкий параметризируемый поиск по полнотекстовым ресурсам пополнение ИС ресурсами различного типа пополнение и редактирование многоязычного словаря словоформ управление пользователями, назначение прав доступа к ресурсам ИС, настройки ИС

Пользовательский раздел Форма запроса по каталогу

Пользовательский раздел Каталог Поиск по библиографической информации осуществляется с учетом лексико-грамматической парадигматики естественного языка по 8-ми полям: Автор, Заглавие, Ключевые слова, Аннотация, Год издания, Предметная область, Библиотечные фонды, Носитель информации. Пополняется с помощью программ импорта из любых электронных каталогов, поддерживающих стандарты семейства MARC, или из библиографических файлов-описаний, создаваемых пользователем. Имеется полная и краткая форма поиска (в последней поля Заглавие, Ключевые слова, Аннотация объединены логическим сложением). Булева алгебра (операции логического сложения, умножения, отрицания) включена в функционал соответствующих полей и структуру формы поиска. Поле Предметная область представляет собой настраиваемый мультирубрикатор, включающий набор стандартных классификаторов (УДК, ББК, ВАК, ГРНТИ), а также рубрикатор Депозитарий, создаваемый с учетом интересов конкретного корпоративного пользователя.

Пользовательский раздел Депозитарий Подсистема представляет собой универсальное файловое хранилище информации ИС T-Libra, и содержит файловые ресурсы любого вида и формата. Имеет собственный настраиваемый рубрикатор ресурсов и позволяет получить сначала описания ресурсов (метаданные), а затем и сами электронные ресурсы: полные тексты произведений (статей, сборников статей, учебников, справочников, монографий и т.п.), архивные документы в текстовом и/или графическом формате, аудио, видео и т.д. Подсистема связана в обе стороны с другими подсистемами пользовательского раздела T-Libra («Каталог» и «Полнотекстовый поиск»), а также с мультимодальными расширениями ИС T-Libra (электронными коллекциями и т.п.).

Пользовательский раздел Полнотекстовый поиск Типы запросов –Абзацно-ориентированный: в произведениях, включенных пользователем в поисковую область («корзина ресурсов»), находит множество абзацев, удовлетворяющих условиям запроса. –Частотно-ориентированный: создает частотно- ранжированный список терминов (имен существительных) из произведения / произведений на заданную пользователем глубину ранжирования с указанием абсолютной и относительной частоты встречаемости термина.

Пользовательский раздел Полнотекстовый поиск Виды абзацно-ориентированных запросов (запросы 1 и 2 ведутся с учетом лексико-грамматической парадигмы слова и булевой алгебры, встроенной в поля формы запроса). 1. Простой («однослойный») терминологический. Производится по одному или нескольким терминам. Результат: совокупность релевантных абзацев (включая абзацы сносок и примечаний) из выбранной пользователем «корзины ресурсов». 2. Многослойный терминологический. Производится по нескольким терминам, которые одновременно: – а) принадлежат разным тематическим «слоям» терминов, определяемых пользователем, при этом количество слоев варьируется, – б) находятся на определенном «расстоянии» между собой в пределах авторского абзаца. Результатом запроса является совокупность релевантных абзацев из выбранного произведения, содержащих указанную многослойную терминологическую структуру. 3. Конкорданс (поиск по словосочетанию) Производится по синтагматической структуре (произвольному словосочетанию). Результатом запроса являются авторские абзацы, содержащие именно это словосочетание (выделенное красным цветом в составе предложения, которое в целом выделено синим цветом в составе абзаца).

Форма запроса («корзина ресурсов», параметры) Пользовательский раздел, подсистема «Полнотекстовый поиск», запрос «Многослойный терминологический»

Описание предыдущего слайда: Сформирована «корзина ресурсов» для последующего поиска по ней. В поисковой области содержится 132 произведения; есть возможность их добавить/удалить; развернуть или свернуть окно, в котором видна лишь часть актуализированных ресурсов. Определены 2 тематических «слоя» пользовательского запроса (из возможных 7, поле «Добавить слой»), в каждом слое введены соответствующие термины («лікування» и «шизофренія»). Определены дополнительные условия запроса –минимально необходимое количество слоев, учитываемых при поиске = 2; –расстояние между терминами, принадлежащими к разным слоям, не более 10 «слов» (к которым относятся и знаки препинания). Форма запроса («корзина ресурсов», параметры) Пользовательский раздел, подсистема «Полнотекстовый поиск», запрос «Многослойный терминологический»

Запрос «Многослойный терминологический» Результат запроса (презентация одного из абзацев)

Пользовательский раздел, подсистема «Полнотекстовый поиск», запрос «Многослойный терминологический» Описание предыдущего слайда: Найден удовлетворяющий условиям запроса абзац из произведения Кутько І.І., Фролова В.М., Рачкаускаса Г.С.. Вверху слайда указано это произведение, имеется возможность его репрезентации в виде файла (из Депозитария). Поля «Оценка абзаца» и «Комментарий» заполняются пользователем для последующей генерации итогового суммарного файла с выбранными абзацами. Возможен выбор выделения терминов либо только цветом шрифта (синим – всех тех, которые были введены пользователем в форму запроса, красным – тех, которые удовлетворяют дополнительным условиям поиска), либо дополнительно еще и цветом фона. Результат запроса (презентация одного из абзацев)

Результат запроса (словосочетание «ценность личности») Пользовательский раздел, подсистема «Полнотекстовый поиск», запрос «Конкорданс»

Пользовательский раздел, подсистема «Полнотекстовый поиск», запрос «Абсолютный частотный» Форма и результат запроса по «корзине» ресурсов

Пользовательский раздел, подсистема «Полнотекстовый поиск», запрос «Относительный частотный» Форма и результат запроса по «корзине» ресурсов (относительно термина «терапия»)

Административный раздел, подсистема «Оператор ресурсов» Меню подсистемы

Каталог Депозитарий Полнотекстовый поиск Папки с файлами Подготовка ресурсов Импорт ресурсов Автоматизированная или ручная подготовка ресурсов Автоматический импорт в подсистемы T-Libra Административный раздел, подсистема «Оператор ресурсов» Схема импорта ресурсов Словарь

Административный раздел, подсистема «Оператор словаря» Форма генерирования/редактирования парадигмы

Административный раздел, подсистема «Администратор» Назначение прав доступа пользователей к ресурсам

Функциональное расширение ИС T-Libra (семейство информационных систем T-System) ИС T-Libra – общая функциональная и технологическая основа семейства интегрированных информационных систем T-System. Использование архитектуры и функционала T-Libra: –основных модулей административного раздела; –поиска по интегрированному многофункциональному Каталогу; –ресурсов и рубрикатора Депозитария; –результатов Полнотекстового поиска в других специализированных модулях и программных оболочках семейства T-System: –учетно-фондовой системе (библиотечной, музейной, …); –электронном архиве; –электронной тематической коллекции; –электронной интерактивной экспозиции; –виртуальном музее; –мультимедийной энциклопедии; –исследовательской лаборатории; –образовательной информационной среде.

Организация программной среды ИС T-Libra (словарь словоформ) Концептуальная модель Многоязычность: ориентация на использование электронных словарей основных европейских языков Многоплановое использование одного и того же словаря: –для обычного библиотечного поиска, –для лингвистических и текстологических исследований, –и т.д. Генерация словоизменительной парадигмы, управляемая правилами грамматики (с возможностью изменения этих правил пользователем); Автоматическое пополнение словаря (при импорте текстов) + «ручное» редактирование с рабочего места Оператора словаря Unicode: –поддержка Unicode при импорте текстов (при создании словаря словоформ); –использование Unicode при экспорте текстов (отображении в окне браузере);

Организация словаря Блок-схема организации словаря «Слова» Словоформы Словарь русского языка Словарь украинского языка Словарь немецкого языка Словарь ………… языка Правила

Схема пополнения словаря Правила Парадигма Генерация парадигм, выбор лучшей Корректировка парадигмы «Слова» и словоформы Новые словоформы Оператор

Организация программной среды («корзина ресурсов») Требования к формированию «корзины ресурсов» для организации полнотекстового поиска Возможность выбора ресурсов для полнотекстового поиска по каталогу Сохранение критериев выбора для повторного использования Возможность просмотра списка выбранных ресурсов с различными группировками и сортировками Возможность поиска по всем ресурсам

Организация программной среды («корзина ресурсов») Выбор ресурсов для поиска: шаг 1

Выбор ресурсов для поиска: шаг 2 Организация программной среды («корзина ресурсов»)

Выбор ресурсов для поиска: шаг 3

Публикации С.Х.Ляпин, А.В.Куковякин. Концепт-ориентированный поиск в электронной полнотекстовой библиотеке с мультимодальным расширением // Труды 6-й Всеросс. науч. конф. RCDL2004, Пущино, 29 сент. - 1 окт г. - С , Ляпин С.Х., Куковякин А.В. Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском // Труды Седьмой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL'2005, Ярославль, 4-6 окт г. – Ярославль: Изд-во ЯрГУ, 2005, см. также в: С.Х.Ляпин. Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании), Ляпин С.Х., Куковякин А.В. Гибкий поиск и его модификации в многофункциональной информационной среде T-System // Материалы международной конференции «EVA-2005, Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино, Поисковая система Yandex по запросу «T-Libra» выдает (на октябрь 2007 года) около 20 релевантных ссылок

Контакты ООО «Константа»: Россия, , г. Архангельск, а/я Представитель на Украине: ООО «Специализированный центр БАЛИ», Украина, 03150, г. Киев, ул. Боженко, д 83