Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП) romip@yahoogroups.com.

Презентация:



Advertisements
Похожие презентации
РОМИП в 2004 году М.С. Агеев, НИВЦ МГУ Губин М.В., ИК «Кодекс» Добров Б.В., НИВЦ МГУ Кураленок И.Е., СПбГУ Некрестьянов И.С., СПбГУ Плешко В.В., Гарант-Парк-Интернет.
Advertisements

Нужны ли (и возможны ли) "честные" оценки лингвистических подходов и прикладных систем.
Информационно-поисковые системы. Сычев А.В г.1 Анализ задачи информационного поиска Воронежский государственный университет Факультет компьютерных.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Оценка качества в задаче агрегирования новостных сообщений Михаил Маслов Версия _01.
3.1. Назначение онтологий. Информационный поиск..
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Университет и сообщество: 3 этап методический семинар Москва марта 2012 г.
Информационно- поисковые машины и системы.. Поисковая машина комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой.
Наиболее релевантные ключевые словосочетания: «Арабские танцы» «Школа арабских танцев»
Российская ассоциация электронных библиотек: социально значимые проекты А.Б. Антопольский Российская ассоциация электронных библиотек - Некоммерческое.
Инструменты мониторинга социальных медиа Валерия Меркулова Генеральный менеджер ЗАО «Айкумен ИБС» 4-я международная конференция «PR в Интернете»
Тема: Классификация кабельных линий связи. Цель урока: Знать назначение и классификацию кабелей связи.
Национальные исследования качества образования в 2015 году Сергей Владимирович Станченко, к.ф.-м.н., руководитель проекта Национальные исследования качества.
1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко
©Академия последипломного образования, 2012 Поиск информации в Internet.
МЕЖДУНАРОДНАЯ АКАДЕМИЯ БИЗНЕСА И НОВЫХ ТЕХНОЛОГИЙ /МУБиНТ/ Базы знаний, как действенный инструмент повышения эффективности.
Информационные электронные ресурсы: стратегии поиска научной информации (Google Scholar, РИНЦ, Web of Science, Scopus) Управление научной политики МГИМО(У)
Поиск информации в Интернет. поисковые каталоги; поисковые каталоги; поисковые указатели. поисковые указатели. Две разновидности поисковых серверов:
Транксрипт:

Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Что такое РОМИП? РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР

Международные аналоги CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских языках NTCIR – японский семинар с интернациональными участниками по многоязычному поиску SUMMAC – конференция по оценке качества автоматического аннотирования MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования

Задачи РОМИП создание общедоступных корпусов (тексты + задания + оценки) с возможностью повторного использования; независимая оценка методов ИП; объединение профессионалов; формирование «правил игры».

Принципы семинара Равноправие систем Анонимность источника результата Использование апробированных подходов

Корпус narod_romip Источник – narod.ru Общий объем – 7 Гб + Документов – Число сайтов – Лицензия основана на пользовательском соглашении Яндекса

Задачи (tracks) Поиск по произвольному запросу (ad hoc) запросов из лога Яндекса Выдача – 100 документов Тематическая классификация Классификация документов по 70 категориям категориям второго уровня каталога narod.ru Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории

Оценка Метод «общего котла» (pooling) ~N T первых документов из выдачи Оценка общего числа документов для проверки ~ T 0.7 ·N T T – количество участников Полнота рассчитывается по числу релевантных документов в пуле

Объективность оценки ~50 неизвестных участникам запросов из неизвестных участникам категорий из 70 расширенное описание запроса составляется экспертом оценщик не знает «происхождение» и ранг документа в выдаче троекратная оценка каждого документа

Участники 2003 года Russian Context Алхимик Кодекс Золушка Ключи к Тексту Галактика-Zoom Яндекс.Software 3.0