РОМИП в 2004 году М.С. Агеев, НИВЦ МГУ Губин М.В., ИК «Кодекс» Добров Б.В., НИВЦ МГУ Кураленок И.Е., СПбГУ Некрестьянов И.С., СПбГУ Плешко В.В., Гарант-Парк-Интернет Сегалович И.В., Яндекс Шабанов В.И., Рамблер Интернет Холдинг
Что такое РОМИП? Российский семинар по оценке методов информационного поиска Российский семинар по оценке методов информационного поиска Русскоязычные задания Русскоязычные задания Крупные коллекции Крупные коллекции Использование апробированных подходов Использование апробированных подходов Равноправие и анонимность участников Равноправие и анонимность участников Использование независимых экспертов для оценки результатов поиска Использование независимых экспертов для оценки результатов поиска Возможность повторного использования Возможность повторного использования
Зачем это надо? создание публично доступных русскоязычных тестовых коллекций создание публично доступных русскоязычных тестовых коллекций проведение независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией проведение независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией формирование среды для исследования проблем поиска: формирование среды для исследования проблем поиска: «правил игры» - этических норм представления и использования результатов «правил игры» - этических норм представления и использования результатов требований к оформлению текстовых коллекций для тестирования требований к оформлению текстовых коллекций для тестирования
Обобщенная процедура оценки Участники выполняют задания и сдают результаты в оргкомитет Участники выполняют задания и сдают результаты в оргкомитет Для каждого задания, строятся «котлы» из ответов всех систем Для каждого задания, строятся «котлы» из ответов всех систем Ответы из «котла» оцениваются асессорами Ответы из «котла» оцениваются асессорами Один асессор оценивает все ответы из «котла» Один асессор оценивает все ответы из «котла» Асессор НЕ знает чей это ответ Асессор НЕ знает чей это ответ Асессор НЕ знает на какой позиции был этот ответ Асессор НЕ знает на какой позиции был этот ответ Порядок выдачи документов случаен Порядок выдачи документов случаен Вычисляются итоговые оценки Вычисляются итоговые оценки
Эволюция коллекция (Веб) 1 коллекция (Веб) 2 дорожки 2 дорожки Поиск Поиск Классификация Классификация Участники Участники 9 заявок 9 заявок 7 дошло до финиша 7 дошло до финиша 14 прогонов 14 прогонов 550 часов оценки 550 часов оценки коллекции 3 коллекции 5 дорожек 5 дорожек 3 новых 3 новых Участники Участники 11 заявок 11 заявок 9 дошло до финиша 9 дошло до финиша 34 прогона 34 прогона 1300 часов оценки 1300 часов оценки
Коллекции страниц, сайтов Предоставлена «Яндекс» Коллекция Narod.Ru HTML страниц, 1.6 Гб Предоставлена «Кодекс» Коллекция Legal Коллекция DMOZ страниц (не более 500 страниц с одного сайта) Область применения: обучающее множество
Задачи: поиск Задание: Для каждого запроса вернуть упорядоченный список (до 100) документов В «котлах» учитывались 50 первых ответов. Narod.ru запросов из журналов Яндекс и Рамблер. Оценка: повторно. Альтернативная оценка с и без учета расширенных описаний. Legal запросов из журналов Кодекс и Парк.Ру. Классы запросов: 50 понятия + 41 документы
Задачи: классификация Задание: Задан список категорий и обучающая выборка. Для каждого сайта/документа вернуть список до 5 категорий к которым он относится. Задание: Задан список категорий и обучающая выборка. Для каждого сайта/документа вернуть список до 5 категорий к которым он относится. DMOZ/Narod.ru Классификация Веб-сайтов 247 категорий из каталога DMOZ Оценка: 38 категорий Legal 163 категории обучающих примера Оценка: 12 вручную, 40 «сравнение с эталоном»
Задачи: поиск фактов Задание: найти все события связанные с персоной. Ответ - фрагмент текста до 300 символов, описывающий это событие (текст + ссылка на его положение) Источник: «Кроссворд-кафе» Источник: «Кроссворд-кафе» 5052 задания 5052 задания Оценивалось: 109 Оценивалось: 109 Попытка проверки границ выделения Попытка проверки границ выделения Владимир Ильич Ленин Владимир Ильич Ульянов вождь мирового пролетариата
Оценка: детали Многозначная шкала: Многозначная шкала: Соответствующий (релевантный/витальный) Соответствующий (релевантный/витальный) Скорее соответствующий (релевантный+) Скорее соответствующий (релевантный+) Возможно соответствующий (релевантный-) Возможно соответствующий (релевантный-) Не соответствующий (нерелевантный) Не соответствующий (нерелевантный) Документ не может быть оценен Документ не может быть оценен Все оценки дублировались Все оценки дублировались Использование расширенных описаний Использование расширенных описаний (Цель – упразднить неоднозначность трактовки) Несколько альтернативных способов слияния несовпадающих оценок асессоров Несколько альтернативных способов слияния несовпадающих оценок асессоров
Достижения РОМИП2004 Расширение количества участников Расширение количества участников Новые коллекции, а также наборы заданий и таблицы релевантности (доступны не только участникам РОМИП) Новые коллекции, а также наборы заданий и таблицы релевантности (доступны не только участникам РОМИП) Увеличение объема выполненных исследований повышение уровня результатов Увеличение объема выполненных исследований повышение уровня результатов Отчеты участников по результатам выполненных исследований (доступны на romip.narod.ru) Отчеты участников по результатам выполненных исследований (доступны на romip.narod.ru) Соглашение об использовании коллекций Соглашение об использовании коллекций Поддержка РФФИ Поддержка РФФИ
РОМИП2005 Новая коллекция: новостная (предоставлена Яндекс) (24000 сообщений от 16 агентств за 3 периода) Новая коллекция: новостная (предоставлена Яндекс) (24000 сообщений от 16 агентств за 3 периода) 6 новых дорожек 6 новых дорожек Контекстно-зависимое аннотирование Контекстно-зависимое аннотирование Фактографический поиск Фактографический поиск Структурирование новостного потока Структурирование новостного потока Классификация Веб-страниц Классификация Веб-страниц 45+ заявок от 15 участников 45+ заявок от 15 участников Статус: Статус: сбор результатов от участников сбор результатов от участников очная часть: ~ 1 октября очная часть: ~ 1 октября