Создание базы данных терминологических словарей Якшин М. М. БЕН РАН
База данных терминов Основная сущность термин. Для каждого термина: определяется его связь со сферой знаний в соответствии с верхней рубрикой классификатора ГРНТИ, дается одно или несколько описаний из признанных источников (опубликованные словари, энциклопедии и др.) даются ссылки на цитируемые источники Результат работы: печатная версия электронная версия
Площадка для апробации новой версии SciRus Для реализации не требовались сложные функции (на момент реализации еще не портированные на новую версию): сложные поисковые запросы вывод по шаблонам механизмы экспорта Для работы достаточно форм «быстрого» поиска с фильтрацией только по текущей сущности и идентификаторам в связях Встроенные механизмы пейджинации и функции «быстрого поиска» => повышение комфорта пользователя при работе с системой. Сжатые сроки разработки => требуется готовый встраиваемый инструментарий, работающий на уровне выше, чем SQL.
Схема основных таблиц БД Таблица "source" - источник Поле "name" - заглавие, текст, обязательное, индексируемое Поле "notes" - дополнительная информация, длинный текст, необязательное Таблица "dict_entry" - словарная статья Поле "name" - заглавие статьи, текст, обязательное, индексируемое Поле "body" - содержимое статьи, длинный текст, обязательное Связь "term", обязательная, целевая таблица - term Связь "source", необязательная, целевая таблица - source Таблица "term" - термин Поле "name" - название термина, текст, обязательное, индексируемое Связь "c1", обязательная, целевая таблица - c1 Таблица "c1" - верхний уровень ГРНТИ Поле "name" - название термина, текст, обязательное, индексируемое Поле "code" - код, текст, обязательное, индексируемое
Общие разделы ГРНТИ Терминология составлялась только для частных разделов, игнорируя общие: Код ГРНТИ Название рубрики Терминологию каких рубрик включает 00Общественные науки в целом 02 – 21 23Комплексное изучение отдельных стран и регионов 00 – 99 26Комплексные проблемы общественных наук 02 – 21 43Общие и комплексные проблемы естественных и точных наук 27 – 41 80Прочие отрасли экономики 44 – 78, 82 – 90 81Общие и комплексные проблемы технических и прикладных наук и отраслей народного хозяйства 44 – 78, 82 – 90
Место SciRus в технологическом процессе Разделы распределяются по экспертам Эксперты подготавливают файл в заданном формате Файлы импортируются в БД специальный конвертер Выверка, перекрестные проверки, слияние и разделение схожих терминов веб- интерфейс SciRus
Формат входного файла Печатная версия = входной файл для импорта. Формат печатной версии MS Word. Специальные метки: Заголовок «Определения основных терминов» начало обрабатываемого поля текста. Заголовок «Дополнительные ключевые слова» конец обрабатываемого поля текста. Спецсимвол «*» окончание описания термина Спецсимвол окончание определения термина Спецсимвол «\» окончание описания источника
Пример входного файла термин 1 * определение источник 1.1 \ определение источник 1.2 \ … термин 2 * определение источник 2.1 \ определение источник 2.2 \ …
Результаты 19 рубрик 2.5 мегабайт исходных текстов абзац 1034 термина 1369 словарных статей 1381 ссылок на источники