Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемwww.dialog-21.ru
1 О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва Москва
2 Цели разработки Русско-английский тезаурус по компьютерной лингвистике (КЛ) разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН, ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ (проект в). Главная цель разработки Построить тезаурус по КЛ двойного назначения, т.е. тезаурус, ориентированный на (1) непосредственное использование людьми, желающими обратиться к системе понятий из области КЛ, так и (2) решение задач индексирования и информационного поиска.
3 Цели разработки Обеспечение возможности структурировать и накапливать информацию о терминологии КЛ, Приведение терминологии КЛ в единую систему, создание представительного компактного собрания терминов современной КЛ и их толкований. Поддержка решения задач индексирования и информационного поиска. Повышение уровня профессиональной подготовки будущих специалистов в сфере КЛ и информационных технологий Двуязычность тезауруса должна помочь отечественным ученым и специалистам (1) быстрее и эффективнее ориентироваться в мировой ситуации в области КЛ, (2) выявлять различия и сходства между понятиями, используемыми в отечественной и зарубежной науке, (3) создавать новые понятия и лингвистические термины, отсутствующие в русском языке и др.
4 Структура тезауруса Тезаурус включает два типа терминов: дескрипторы (предпочтительные термины) и аскрипторы (остальные термины или текстовые входы). Дескрипторы могут использоваться при индексировании документов и в поисковых запросах, а аскрипторы при выполнении этих задач подлежат замене одним или несколькими дескрипторами. Все дескрипторы снабжены определениями. Термины, связаны между собой лексико-семантическими отношениями. Тезаурус включает одновременно две версии – русскоязычную и англоязычную. Для связи английской версии с русской служит отношение «Эквивалент на другом языке», которым связываются соответствующие дескрипторы из разных версий. Для каждого термина задаются его связи с источниками, т.е. текстовыми документами или коллекциями текстовых документов, в которых данный термин встречается или определяется.
5 Тезаурусная статья (дескриптор) Название термина Релятор Язык термина Определения термина Признак корневого термина (Top Term). Комментарий Автор статьи Источники термина [частота] Источники определения термина Выше / Ниже Выше_Род / Ниже_Вид[аспект деления иерархии] Выше_Целое / Ниже_Часть Выше_Класс_Экземпляра / Ниже_Экземпляр Ассоциируется с Синонимы Эквивалент на другом языке
6 Тезаурусная статья (аскриптор) Название термина Язык термина Комментарий Автор статьи Источники термина Дескрипторы-«хозяева»
7 Описание источника терминов Название источника Тип источника Язык источника Описание Библиографическая ссылка URL Количество словоупотреблений Количество документов Комментарий
8 Пример описания дескриптора Название термина акцент Релятор просодия Язык термина русский Определение термина 1 Смысловое подчеркивание звуковыми средствами какого либо слога или слова во фразе. Комментарий Многие авторы проводят довольно тонкое разграничение между акцентом (смысловым подчеркиванием или выделением, ср. термин Акцентное выделение) и ударением. Автор статьи Кривнова О.Ф. Источники термина Книга Трахтерова А.Л. Источники определения термина Книга Трахтерова А.Л. Ниже громкостной акцент, долготный акцент, тональный акцент Ассоциируется с ударение Синонимы АВ, акцентное выделение, логическое ударение, эмфатическое ударение Эквивалент на другом языке accent(prosody)
9 Пример описания аскриптора Название термина логическое ударение Язык термина русский Автор статьи Кривнова О.Ф. Источники термина Энциклопедия РЯ Смотри акцент(просодия)
10 Пример описания документа Название источника Книга Трахтерова А.Л. Тип источника книга Язык источника русский Описание Пособие направлено на повышение научного уровня преподавания общей фонетики и фонетики английского языка, координации русских и английских фонетических терминов, а также терминов из смежных дисциплин и областей науки, тесно связанных с фонетикой. Библиографическая ссылка Трахтеров А.Л. Английская фонетическая терминология. М., Изд-во литературы на иностранных языках, 1962
11 Общий пример Аскриптор ЧМП язык русский автор словарной статьи Кононенко И.С. Встречается аскриптор в Источник Учебник Баранова А.Н. Смотри Дескриптор Человеко-машинный перевод Дескриптор человеко-машинный перевод язык русский определение1 Системы человеко-машинного перевода выполняют перевод в интерактивном режиме. определение2 Все методы и системы, автоматизирующие процесс перевода, независимо от того, выполняет основную часть работы человек или компьютер. (перевод) автор словарной статьи Кононенко И.С. Встречается дескриптор в Источник Учебник Баранова А.Н. Дается определение в Источник определение 1 Справочник по искусственному интеллекту Источник определение 2 Статья Boitet Выше род Дескриптор машинный перевод Ниже вид Дескриптор автоматизированный перевод Дескриптор машинный перевод с участием человека Синоним Аскриптор человекомашинный перевод Аскриптор ЧМП Эквивалент на другом языке Дескриптор machine aided translation Дескрипторавтоматизированный перевод язык русский определение1 Перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством. автор словарной статьи Кононенко И.С. Встречается дескриптор в Источник Коллекция текстов Диалог частота 8 Дается определение в Источник определение 1 Интернет энциклопедия «Википедия» Выше род Дескриптор человеко-машинный перевод Синоним Аскриптор человеческий перевод с участием машины Эквивалент на другом языке Дескриптор machine-aided human translation
12 Реализация прототипа электронного тезауруса Для разработки тезауруса по КЛ был использована методология и программные компоненты технологии построения порталов научных знаний, которая была ранее применена для создания порталов знаний по археологии и компьютерной лингвистике. Данная технология базируется на онтологии и предоставляет средства настройки на предметную область, средства создания и редактирования контента информационной системы, а также средства навигации и поиска. Средства настройки на предметную область достаточно хорошо подходят для разработки концептуальной схемы данных тезауруса, а остальные из перечисленных средств могут выполнять роль его основных программных компонентов. Эта технология удобна для моделирования тезауруса, когда его структура и состав словарных статей еще окончательно не определены, могут меняться в процессе разработки.
14 Пример описания дескриптора Пример описания дескриптора
15 Текущее состояние Тезаурус включает термины из пяти основных терминологических областей: 1. Направления КЛ. Включает термины, обозначающие отдельные направления компьютерной лингвистики. 2. Речевые технологии. 3. Корпусная лингвистика. 4. Информационный поиск. 5. Машинный перевод. 6. Группа терминов «метаязык». Включает термины фонетического, морфологического, лексического, синтаксического и семантического уровней языка и представлений этих уровней.
16 Текущее состояние Сейчас в тезаурусе Терминов около 1100, из них Дескрипторов – около 700 Аскрипторов – около 400 Видов связей между терминами – около 20 Связей между терминами – около 3500 Источников терминов и их определений – 126
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.