Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемrcdl.ru
1 Информационные модели и технологии в организации работы научного сообщества по публикации и анализу коллекций исторических документов Кравцов Игнат Вадимович Петрозаводский государственный университет Научный руководитель: кандидат физико-математических наук, доцент А. Г. Варфоломеев Информационные системы и процессы, правовые аспекты информатики
2 Цели работы Разработать модель организации многомерного пространства данных и знаний, необходимого для создания современной, аналитической и динамической сетевой публикации; Предложить архитектуру информационной системы (класса систем) с использованием этой модели.
3 Задачи работы Разработка абстрактной модели описания структуры и семантики источников, а также окружающего их информационного поля; Описание методов и технологий формализации и анализа текстов и коллекций исторических документов, отражение требований этих методов в модели системы; Выработка концепции современной сетевой публикации коллекции исторических источников с учетом возможностей универсальной модели организации данных; Разработка методологии и инструментария взаимодействия в сетевом сообществе; Включение информационного поля сообщества в семантический веб, обеспечение связности с другими системами сети; Проектирование открытой архитектуры информационной системы сообщества, состоящей из набора сервисов и информационных библиотек; Проектирование хранилища данных для консолидации извлеченных из текстов знаний сообщества.
4 Предметная область Коллекции текстов в корпусной лингвистике, изображения и тексты печатных источников или рукописей в истории и источниковедении, рисунки и фотографии предметов, привязанные к планам раскопок в археологии Коллекции, представленные в Интернете, составляют основу для формирования сетевых сообществ исследователей Использование Grid-технологии и методологии e- Science в гуманитарных науках. Не использование объединенных вычислительных мощностей, а территориальное распределение сбора и хранения самих данных, разработка стандартов для свободного обмена данными, а также сервисов, позволяющих с ними работать
5 Проекты сетевых публикаций Базы данных сканированных изображений с метаинформацией об источнике (CEEC, CESG) Электронные тексты источников в виде полнотекстовых реляционных баз данных или XML- документов (Манускрипт, MEP) Инициативы сетевых публикаций в виде консорциумов (TEI) Cреды для совместной работы с текстами (TextGrid) Открытые публикации научных трудов (Соционет) Фактографические системы (электронный архив документов А.П. Ершова)
6 Аналитическая публикация Традиционные публикации –Изображения –Транскрипции Аналитические публикации –Несколько форматов источников –Инструменты исследования –Методики исследования –Совместная работа –Междисциплинарность
7 Вопросы публикации
8 Формализация текстов Основой практически любого метода исследования текста является некоторая его формализация, то есть замена текста обобщенными количественными показателями, качественными категориями, либо специальными моделями(графы, деревья), отражающими структуру и тематику текста Вектора частот контент-анализа Графовые (сетевые) модели текстов
9 Модель структурно-семантического пространства Абстрактная модель описания структуры и семантики текстов. Требования: –выделять произвольные единицы текста как обособленные объекты; –формировать связь произвольного числа объектов; –позволять строить произвольные иерархии объектов и связей; –соотносить как объекты, так и связи с произвольными смысловыми категориями; –привязывать к объектам и связям различные показатели (числовые, номинальные, вероятностные и пр.); –позволять переходить от моделей текстов к моделям более высокого уровня (например, модель коллекций текстов)
10 Точки в «пространстве»
11 Множественная разметка текстов Разметка считается множественной, так как наносится в несколько этапов Общая разметка состоит из совокупности одноуровневых разметок, которые могут частично пересекаться между собой Возможность работы группы пользователей над одним историческим документом, в любых интересующих пользователей дисциплинах
12 Многомерный анализ Модель структурно-семантического пространства можно представить в виде многомерной базы данных (применение технологии Data warehouse) Измерения структурно-семантического пространства определяют размерность гиперкуба, а точки представляют ячейки гиперкуба Схемы разметки будут представлены «таблицами измерений», а сама примененная разметка – «таблицами фактов» Построение хранилища данных позволит в перспективе применить к нему средства многомерного и интеллектуального анализа данных
13 Текст-ориентированная разработка Подход к разработке в рамках парадигмы Model- driving engineering Процесс разработки опирается на моделирование структуры и семантики текстов и взаимосвязей текстов и прочих элементов или объектов системы Моделью считается любая формализация текстов и информации сокрытой в текстах, которую мы называем знаниями Подход «текст-ориентированной» разработки (text- driven): модули и сервисы системы проектируются так, чтобы передавать друг другу информацию в виде универсальных текстовых документов, файлов в XML-формате
14 Открытая система Принцип отчуждаемости текстов –Возможность извлечения текста из системы –Возможность обмена между системами Принцип открытости систем –Свободный доступ –Обмен информацией –Обмен сервисами –Машиночитаемые описания
15 Сетевое сообщество Единое информационное пространство –Межличностное взаимодействие –Разделение ресурсов и инструментов –Связывание информации –Обмен явными и неявными знаниями
16 Metaweb
17 Апробация RCDL ( ), Современные информационные технологии и письменное наследие (2006, 2008), Конференции Ассоциации «История и Компьютер» (2006, 2008), Интернет и современное общество (2006, 2007), Научный сервис в сети Интернет (2007), Научные чтения Даугавпилского университета (2008, 2009) Проект «Источник» Сообщество «Письменное наследие»
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.