Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемromip.ru
1 Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)
2 Что такое РОМИП? РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР
3 Международные аналоги CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских языках NTCIR – японский семинар с интернациональными участниками по многоязычному поиску SUMMAC – конференция по оценке качества автоматического аннотирования MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования
4 Задачи РОМИП создание общедоступных корпусов (тексты + задания + оценки) с возможностью повторного использования; независимая оценка методов ИП; объединение профессионалов; формирование «правил игры».
5 Принципы семинара Равноправие систем Анонимность источника результата Использование апробированных подходов
6 Корпус narod_romip Источник – narod.ru Общий объем – 7 Гб + Документов – Число сайтов – Лицензия основана на пользовательском соглашении Яндекса
7 Задачи (tracks) Поиск по произвольному запросу (ad hoc) запросов из лога Яндекса Выдача – 100 документов Тематическая классификация Классификация документов по 70 категориям категориям второго уровня каталога narod.ru Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории
8 Оценка Метод «общего котла» (pooling) ~N T первых документов из выдачи Оценка общего числа документов для проверки ~ T 0.7 ·N T T – количество участников Полнота рассчитывается по числу релевантных документов в пуле
9 Объективность оценки ~50 неизвестных участникам запросов из неизвестных участникам категорий из 70 расширенное описание запроса составляется экспертом оценщик не знает «происхождение» и ранг документа в выдаче троекратная оценка каждого документа
10 Участники 2003 года Russian Context Алхимик Кодекс Золушка Ключи к Тексту Галактика-Zoom Яндекс.Software 3.0
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.