Архив российских научных онлайновых журналов (Работа проведена при поддержке РФФИ, грант в) Шварцман М. Е. Российская государственная библиотека Ярославль 2005
-периодические издания вообще и журналы в частности содержат наиболее актуальную информацию…… -новый вид журналов – онлайновые журналы…….. -эти журналы являются пластом российской культуры
За рубежом существуют или каталоги журналов Directory of Open Access Journals или архивы Интернет национальные или международные.
В России
Что считать журналом: - ресурс имеет определенную тематическую направленность; - материалы объединяются в номера (выпуски); - выпуски могут выходить нерегулярно, однако не реже раза в год; - если ресурс имеет фиксированную периодичность, она должна составлять не менее недели, причем каждый выпуск должен содержать материалы, значительные по объему и содержанию,
Что считать наукой Если по этой теме можно в России защитить диссертацию – значит это наука. В.Г. Веселаго
В результате у нас получилась общедоступная база данных структурированных описаний в стандарте Dublin Core Metadata Element Set (DC MES) российских научных журналов, доступных через Интернет. В нашей базе постоянно находится около 750 описаний.
Чем скачивать Готовое ПО Свое ПО Доработка исходных кодов
Готовое ПО Загрузчики сайтов Архиваторы Интернет Загрузчики новостей
Загрузчики сайтов + экономия труда програмистов - невозможность влиять на процесс закачки - скачивание сайтов целиком - отказы на ошибках HTML
Архиваторы Интернет Combaine (университет в Лунде Швеция) ПО Международного консорциума по сохранности Интернет ресурсов (International Internet Preservation Consortium) ПО Королевской библиотеки Нидерландов
Загрузчик новостей Get URL + заявлена хорошая функциональность - не работает на большинстве сайтов
Доработка WGET или разработка своего ПО
Скачивать только изменения Что считать изменением Как определить изменение Дата файла Размер файла Etag
Как часто скачивать 1 раз в месяц все журналы только изменения Все, но с периодичностью, определенной для каждого журнала и постоянно коректирующейся
Цена вопроса Общий объем 725 журналов – 30 гигабайт 20 журнал имеет размер более 1 гб
Только измененные файлы Для каждого файла обращаться к архиву и проверять необходимость скачивания Для многих сайтов – этот механизм работает только для картинок.
Проблемы Неправильный HTML Большое количество мусора Внешние ссылки Решение – доработка WGET
Как сохранить Greenstone СУБД Файловая система
Greenstone + DC, METS, OAI MH + Полнотекстовый поиск + Закачка HTML + Открытый код + Многоязычный интерфейс + Знакомство с разработчиками - большинство функций нам не нужно
Анализ скачанного Выделение элементов БО из скачанных статей Создание шаблонов для каждого сайта Возрастающее количество статей в формате PDF
Юридические проблемы выполнение всех требований законодательства по авторскому праву – сложная задача. правовая неграмотности большинства российских авторов и издателей нежелание что то менять в сложившейся ситуации.
типовой договор на разрешение скачивания журнала и размещение его в открытом доступе в архиве в Российской государственной библиотек послан в 100 журналов. 80% ответивших искренне недоумевало, зачем нужен договор, если их журнал, находящийся в открытом доступе, можно скачать и так.
1 договор 99% выразившие же согласие не имели права этого делать, поскольку ни в одном из журналов не заключалось авторских договоров. Многие журналы, не имеют юридического лица
CREATIVE COMMONS (часть прав защищена) Определен перечень прав, которые могут быть переданы автором. Разработан текст лицензии для каждого возможного набора прав Автор сам определяет набор прав, которые он передает при публикации На публикации размещается условное обозначение этого набора прав.
Планы Анализ текста –Шаблон для каждого сайта –Автоматическое определение автора Коробочный вариант ПО Юридические вопросы