Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН
Принципы контентной фильтрации 1. Эффективная контентная фильтрация обеспечивается глубоким анализом текстового содержимого Интернет-ресурсов 2. Релевантный поиск и проблемный анализ содержимого Интернет-ресурсов должен выполняться специальным программно-аппаратным комплексом 3. Задача комплекса – формирование и «веерное» распространение базы данных запрещенных ресурсов для их последующего блокирования 4. Ресурсы, относящиеся к запрещенной тематике, должны быть классифицированы в соответствии с их информационной направленностью 5. Для каждой категории пользователи может задаваться свой перечень запрещенных классов ресурсов
Платформа – ИАС «АРИОН»
Ключевые технологии 1. Автономный поиск и автоматическая загрузка текстового содержания ресурсов Интернета 2. Фактографический разбор и тональный анализ текстов на естественном языке 3. Анализ и классификация ресурсов с использованием полнотекстового и фактографического режимов
Концептуальная схема
Аналитическая часть
Сбор информации - Краулер Назначение поиск в Интернете ресурсов по заданным критериям Основные возможности автономный переход по ссылкам использование поисковых машин извлечение текста из различных форматов: txt, html, rtf, doc, pdf первичный анализ текстового содержимого (с помощью фильтров)
Сбор информации Интернет - ресурсы
Сбор информации Менеджер загрузки Свойства задачи
Назначение анализ текстового содержания найденных ресурсов Основные возможности Полнотекстовый отбор мощный язык запросов учет морфологии поддержка синонимов и опечаток Фактографический анализ графематический анализ морфологический анализ синтаксический анализ логико-семантический анализ Тональный анализ Модуль индексирования
Индексирование Список источников, загруженных в систему
Индексирование Текст источника с выделенными объектами (желтый цвет) и тональными маркерами (серый цвет)
Индексирование Карточка объекта
Назначение автоматическое рубрицирование ресурсов на основании выполненного анализа Способы рубрицирования анализ характерных слов и выражений (полнотекстовый поиск). анализ описываемых ситуаций (фактографический поиск) анализ отношения автора текста к предмету (анализ тональности высказываний) Модуль рубрикации
Запросы рубрикации
Рубрикация на основе полнотекстового поиска Текст запроса рубрикации
Рубрикация на основе полнотекстового поиска Дерево рубрик Список источников рубрики «Сайты обществ и движений, выступающих за легализацию наркотиков»
Запросы рубрикации
Рубрикация на основе фактографического поиска Критерии отбора источников в рубрику «Акции против наркотиков» и текстовых документов в рубрику «Акции против наркотиков» (документы)
Рубрикация на основе фактографического поиска Результаты запроса - источники и текстовые документы
Рубрикация на основе фактографического поиска Список найденных документов
Рубрикация на основе фактографического поиска Список найденных источников
Рубрикация на основе фактографического поиска Список источников, добавленных в рубрику «Акции против наркотиков»
Запросы рубрикации
Рубрикация на основе тональности высказываний Выбор пакетов правил тональностей Режим редактирования запроса
Рубрикация на основе тональности высказываний Критерии запроса для отбора «Умеренно негативных источников» и «Крайне негативных источников»
Рубрикация на основе тональности высказываний Результаты запроса - негативные и крайне негативные источники
Рубрикация на основе тональности высказываний Список источников, добавленных в рубрику «Умеренно негативные источники»
Шаблон «Статистика мониторинга» Категории выборки Период выборки
Список запрещенных ресурсов Формирование и выгрузка списка запрещенных ресурсов
Формирование списка запрещенных ресурсов Критерии запроса для формирования списка запрещенных ресурсов
Формирование списка запрещенных ресурсов
Печатная версия списка запрещенных ресурсов
Заключение Технологии ИАС «АРИОН» в рамках системы контентной фильтрации Интернет-ресурсов обеспечили решение следующих задач: Сбор и загрузка текстового содержания искомых ресурсов Интернета Анализ и классификация ресурсов с использованием полнотекстового и фактографического режимов Тональный анализ текстов на естественном языке Формирование списка запрещенных ресурсов
Адрес: , Россия, Москва, Электролитный проезд, дом 5Б, строение 8 Телефон: +7 (495) Факс: +7 (499) Электронная почта: Web: Контактная информация