Нужны ли (и возможны ли) "честные" оценки лингвистических подходов и прикладных систем
модели, подходы, словари базовые алгоритмы прикладные системы задачи данные
Нужна ли оценка ? фейс-контроль хорошие люди хорошие результаты НО: хорошие = знакомые И хорошо относящиеся проблемы для новых проблемы «групповых войн» продажи / установки чем больше продано тем лучше НО: широко продается только малая часть обычно для устойчивого спроса соревновательные оценки на тестовых задачах возможно ли?
Проблемы отсутствия оценки «недоделанность» до конца любого исследования трудность самостоятельной оценки границ и перспектив проведенного исследования последующие (аспиранты) начинают ссылаться на «недоделанное» как на полученный факт на не до конца проверенных данных строятся новые выводы/теории (вот-вот получим…, сейчас, за поворотом… ) разочарование машинный перевод, синтаксический анализ семантический анализ, ИИ в целом
Проблемы организации оценки отличать исследования и бизнес адекватность оценки реальным задачам интерпретация результатов: исследовательская составляющая интерпретация результатов: бизнес- составляющая
Существующие методологии оценки TREC (Text Retrieval Conference) – задачи информационного поиска -- Методика «пула» результатов -- Обучение на части – результат на всей коллекции -- Анонимность при оценке -- Открытость Оценки на корпусах -- Классификация текстов (Reuters-21458) -- Синтаксический анализ (BNC)
Существующие методологии оценки - 2 CLEF (Cross-Language Evaluation Forum) -- многоязычный поиск iCLEF – поиск изображений TREC HARD (High Accuracy Retrieval from Documents) TREC QA (Question Answering) SUMMAC (SUMMArization Conference) DUC (Document Understanding Conference) MUC (Message Understanding Conference) TDT (Topic Detection and Tracking) SENSEVAL (word sense disambiguation) РОМИП (romip.narod.ru) Поиск по web-, legal- коллекциях Классификация по web-, legal- коллекциям …
Методологии оценки постоянно развиваются Оценки на корпусах -- Классификация текстов (Reuters-21458) -- Синтаксический анализ (BNC) Оценки на корпусах -- Классификация текстов для небольших классификаторов с большим количеством обучающих примеров (Reuters-21458) -- Синтаксический анализ для текстов, похожих на тексты из BNC (BNC) ВАЖНОСТЬ ПРАВИЛЬНОЙ ИНТЕРПРЕТАЦИИ Существующие методологии оценки - 3
Польза от оценки проверка систем в целом или отдельных компонент, отдельных моделей ознакомление с другими подходами участие коммерческих компаний стандартизация (зрелость отрасли) движение вперед (разработка новой функциональности) укрепление доверия
Предварительные ВЫВОДЫ доклады на конференциях, диссертационные работы обязательность обсуждения возможности оценки результатов; оценка результатов отдельное направление – обсуждение вопросов оценки оценка результатов: либо по сравнению с другими либо указать недостатки существующих оценок, предложить свою для исследуемой задачи