ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.

Презентация:



Advertisements
Похожие презентации
Центр проектирования экспертных систем «Психология» Московский городской психолого-педагогический университет.
Advertisements

3.1. Назначение онтологий. Информационный поиск..
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Информационный поиск в Интернете Павел Морозов
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Тема Структура представления информации в мировых информационных сетях.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
Доменная система имен. Всемирная паутина. Поисковые системы В этой лекции вы найдете ответы на следующие вопросы: Как построена и как работает система.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
© Московский центр Интернет-образования. Белкин П.Ю., Общие вопросы организации поиска информации в Internet.
ОЦЕНКА УРОВНЯ КАЧЕСТВА ПРОДУКЦИИ. Технический уровень качества – это оценка технического уровня, которая заключается в установлении соответствия продукции.
Транксрипт:

ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция Диалог-2008

Состояние дел в области поисковых алгоритмов Статистические алгоритмы поиска (с учетом морфологии). Лингвистические алгоритмы поиска (без учета статистики). Цель разработчиков Exactus: объединение статистических и лингвистических методов поиска.

Особенности алгоритма поиска Exactus (1) Учет статистических характеристик текста: TF*IDF веса термов (с некоторой модификацией). Значимость фрагментов текстов (заголовки, разметка, удаленность от начала документа и т.д.).

Особенности алгоритма поиска Exactus (2) Учет лингвистических характеристик текста: Значения синтаксем (Золотова Г.А.). Семантические связи (Осипов Г.С.).

Особенности алгоритма поиска Exactus (3)

Что у других?

Что у других? (2)

Как Exactus нашел ответ

Как Exactus нашел ответ(2) 1. На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF весов. 2. Производится синтаксический и семантический анализ текстов (выявление синтаксем и их значений). 3. Полученные в результате анализа данные укладываются в линейные упорядоченные списки вхождений слов в документы с весами и значениями 4. Поиск представляет собой слияние линейных упорядоченных списков.

Особенности архитектуры Exactus Модули расположены на узлах кластерной установки. Управление задачами осуществляется посредством PVM-машины (Parallel Virtual Machine). Модули разделены на два типа: основные (лингвистические процессоры, индексаторы и т.д.) и вспомогательные (агрегаторы, синхронизаторы и т.д.). Система является кросс-платформенной, код написан на С и C++. Экспериментальная установка состоит из 8-и узлов кластера пиковой производительностью 100 Gigaflops. В качестве вычислительных узлов используются обычные персональные компьютеры, объединенные в стойку. Для взаимодействия узлов используется Gigabit Ethernet.

Exactus – вид сбоку

Экспериментальная проверка алгоритма Exactus (1) Принципы оценки результатов поиска Эксперт оценивает соответствие документов исходному запросу на основе расширенного описания информационной потребности Используются следующие шкалы оценки релевантности: точно релевантно; возможно релевантно; вероятно релевантно; не релевантно; невозможно оценить. Результат считается релевантным, если он получил оценку по одному из первых двух пунктов шкалы

Экспериментальная проверка алгоритма Exactus (2) Для выставления оценки результата используются два способа: Строгая оценка AND – документ получает оценку релевантен или нерелевантен, если все оценщики выставили соответствующую оценку. Нестрогая оценка OR - результат получает оценку релевантен, если хотя бы один оценщик выставил соответствующую оценку.

График TREC

Краткий анализ результатов участия в РОМИП-2007 (1) Exactus принимал участие в поиске по коллекции белорусского Интернета. Наилучшие результаты достигнуты системой в AND-оценке по точности. Хорошие оценки достигнуты по другим показателям. Отсутствие Page Rank в алгоритме Exactus не привело к отставанию от других систем в точности и полноте поиска.

Краткий анализ результатов участия в РОМИП-2007 (2) Полученные на РОМИП результаты показывают перспективность симбиоза лингвистических и статистических алгоритмов поиска и возможность их применения в реальных условиях. Скорость поиска Exactus сравнима с современными поисковыми машинами на больших объемах данных (не более 2х секунд на любой запрос по коллекции РОМИП). Индексация и лингвистический анализ, по- прежнему, остаются узким местом Exactus. Единственный путь преодоления барьеров скорости анализа - использование современных вычислительных систем и параллельных вычислений.

СПАСИБО ЗА ВНИМАНИЕ! Вопросы и замечания принимаются.