Создание базы данных терминологических словарей Якшин М. М. БЕН РАН.

Презентация:



Advertisements
Похожие презентации
Развитие платформы SciRus Якшин М. М. БЕН РАН. Исторический экскурс: платформа SciRus Разрабатывается с 2004 г. Инструмент для создания настраиваемых.
Advertisements

Автоматизированная информационная система консолидированной отчетности с использованием интернет-технологий «CORONA»
Организация корпоративной библиотечной системы филиалов БЕН на основе ЕНИП РАН Якшин М.М. (Библиотека по естественным наукам РАН)
«Либэр. Электронная библиотека» - новый этап в автоматизации Программное решение для создания электронной библиотеки Сорокин И.В., менеджер проекта, ЗАО.
Публикация и использование открытых государственных данных ИНСТРУМЕНТ ПУБЛИКАЦИИ ОТКРЫТЫХ ДАННЫХ.
Быстрая разработка кадастровых приложений муниципального уровня с использованием системы «ИнМета» Вячеслав Томилин ООО НВЦ «Интеграционные технологии»
Система управления электронными библиотеками. Состояние Ограниченная доступность электронных представлений в центральных ЭБ Медленная оцифровка изданий.
Учебно-методический комплект; Методические рекомендации (пособие); Электронное пособие; Проект.
Интернет-каталог журналов ЦБС БЕН РАН: новые возможности Каллистратова О.Д., Соловьева Т.Н. (Библиотека по естественным наукам РАН)
Информационно- поисковая система «Архив документов»
Основные понятия. Авторитетная запись - содержит заголовок, который специально установлен и признан нормативными для электронного каталога. Авторитетный.
«Информационное обеспечение науки: Новые технологии» Новые возможности программного комплекса «SciRus» Михаил Якшин, БЕН РАН 2013.
Навигационная Система По Информационным Ресурсам Государственной Системы Научно – Технической Информации Технологические аспекты
БД (администрирование) 1 Базы данных (администрирование) Аблов Игорь Васильевич Кафедра информационных технологий.
Автоматизация деятельности архивной отрасли Система «АРХИВНЫЙ ФОНД» (версия 4.1) Управление государственной архивной службы Новосибирской области 2010.
РЕЗУЛЬТАТЫ РАБОТЫ ПОДСИСТЕМЫ «ВЕДЕНИЯ». В процессе работы с подсистемой «Ведения», а также при ее завершении имеются достаточно широкие возможности по.
Рекомендации по созданию, наполнению и сопровождению сайтов учреждений образования.
1 ТЕМА 5. Стадии проектирования и реализации ИС. Лекция 18. Разработка форм первичных и результатных документов.
Тематический раздел «Технологическая поддержка» содержит всю необходимую информацию для проведения регламентных работ по обновлению и настройке программ.
Четыре шага создания запроса; Четыре шага создания запроса Пять шагов настройки работы с запросами. Пять шагов настройки работы с запросами Четыре шага.
Транксрипт:

Создание базы данных терминологических словарей Якшин М. М. БЕН РАН

База данных терминов Основная сущность термин. Для каждого термина: определяется его связь со сферой знаний в соответствии с верхней рубрикой классификатора ГРНТИ, дается одно или несколько описаний из признанных источников (опубликованные словари, энциклопедии и др.) даются ссылки на цитируемые источники Результат работы: печатная версия электронная версия

Площадка для апробации новой версии SciRus Для реализации не требовались сложные функции (на момент реализации еще не портированные на новую версию): сложные поисковые запросы вывод по шаблонам механизмы экспорта Для работы достаточно форм «быстрого» поиска с фильтрацией только по текущей сущности и идентификаторам в связях Встроенные механизмы пейджинации и функции «быстрого поиска» => повышение комфорта пользователя при работе с системой. Сжатые сроки разработки => требуется готовый встраиваемый инструментарий, работающий на уровне выше, чем SQL.

Схема основных таблиц БД Таблица "source" - источник Поле "name" - заглавие, текст, обязательное, индексируемое Поле "notes" - дополнительная информация, длинный текст, необязательное Таблица "dict_entry" - словарная статья Поле "name" - заглавие статьи, текст, обязательное, индексируемое Поле "body" - содержимое статьи, длинный текст, обязательное Связь "term", обязательная, целевая таблица - term Связь "source", необязательная, целевая таблица - source Таблица "term" - термин Поле "name" - название термина, текст, обязательное, индексируемое Связь "c1", обязательная, целевая таблица - c1 Таблица "c1" - верхний уровень ГРНТИ Поле "name" - название термина, текст, обязательное, индексируемое Поле "code" - код, текст, обязательное, индексируемое

Общие разделы ГРНТИ Терминология составлялась только для частных разделов, игнорируя общие: Код ГРНТИ Название рубрики Терминологию каких рубрик включает 00Общественные науки в целом 02 – 21 23Комплексное изучение отдельных стран и регионов 00 – 99 26Комплексные проблемы общественных наук 02 – 21 43Общие и комплексные проблемы естественных и точных наук 27 – 41 80Прочие отрасли экономики 44 – 78, 82 – 90 81Общие и комплексные проблемы технических и прикладных наук и отраслей народного хозяйства 44 – 78, 82 – 90

Место SciRus в технологическом процессе Разделы распределяются по экспертам Эксперты подготавливают файл в заданном формате Файлы импортируются в БД специальный конвертер Выверка, перекрестные проверки, слияние и разделение схожих терминов веб- интерфейс SciRus

Формат входного файла Печатная версия = входной файл для импорта. Формат печатной версии MS Word. Специальные метки: Заголовок «Определения основных терминов» начало обрабатываемого поля текста. Заголовок «Дополнительные ключевые слова» конец обрабатываемого поля текста. Спецсимвол «*» окончание описания термина Спецсимвол окончание определения термина Спецсимвол «\» окончание описания источника

Пример входного файла термин 1 * определение источник 1.1 \ определение источник 1.2 \ … термин 2 * определение источник 2.1 \ определение источник 2.2 \ …

Результаты 19 рубрик 2.5 мегабайт исходных текстов абзац 1034 термина 1369 словарных статей 1381 ссылок на источники