ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА. Губин Максим Вадимович «Информационная.

Презентация:



Advertisements
Похожие презентации
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Advertisements

Страничные факторы ранжирования Михаил Костин, Mail.ru.
Сжатие двоичного кода. Для того чтобы сэкономить место на внешних носителях (винчестерах, флэш дисках) и ускорить передачу информации по компьютерным.
Архивация данных: основные алгоритмы архивации данных.
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
ИСТОЧНИК ИНФОРМАЦИИ ПРИЁМНИК ИНФОРМАЦИИ Кодирующее устройство Декодирующее устройство КАНАЛ СВЯЗИ ШУМ ЗАЩИТА ОТ ШУМА.
Приемы и методы работы со сжатыми данными Борисов В.А. КАСК – филиал ФГБОУ ВПО РАНХ и ГС Красноармейск 2011 г.
3.1. Назначение онтологий. Информационный поиск..
Архивация файлов Файлы и файловая система. Избыточность Редакторы, работающие с текстовой, графической, звуковой и другой информацией, кодируют ее наиболее.
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Архиватор программа, осуществляющая объединение нескольких файлов в один архив или серию архивов, для удобства переноса или хранения. Диск с архиватором.
Сжатие это кодирование с уменьшением объема данных и возможностью однозначного декодирования. Обратный процесс декодирование называется разжатие. Другие.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
ЕГЭ по информатике Консультация 1. Перечень учебников Быкадоров Ю.А. Информатика и ИКТ Гейн А.Г., Сенокосов А.И., Юнерман Н.А. Информатика и информационные.
Механизмы поиска в БД Структуры индексов. Основные виды индексов Простые индексы для упорядоченных файлов Вторичные индексы для неупорядоченных файлов.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Персональный компьютер как система. Одним из объектов, рассматриваемых на уроках информатики, является персональный компьютер. Его можно рассматривать.
Транксрипт:

ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА. Губин Максим Вадимович «Информационная компания «Кодекс»

Цель: Выбор алгоритма сжатия инвертированного файла реальной коллекции. План : Изучить статистику распределения данных в пост листах. Выбрать возможные алгоритмы сжатия. Проверить их работоспособность.

Индексирование по парам Улучшение точности поиска Увеличение скорости обработки запроса Дополнительный сервис – подсказки пользователю, расширение запроса и т.д.

Особенности коллекции Относительно большие документы (сред. размер документа тысячи слов) Большой разброс в размерах документов (10 – слов) Много словоформ (коэф. Хипса ~ 1)

Особенности статистики пар Количество растет линейно от N Чаще повторяются в документе, чем в коллекции. На порядок больше слов

Особенности пост листов Основной объем составляют короткие листы

Выбор алгоритма сжатия Классический подход - кодирование дельт не подходит (40-50%).

Предлагаемое решение Объединение пост листов. Заголовок Объединенный пост лист Сжатый дельта + байт код Номера слов, сжатые кодом Хаффмана Коэффициент сжатия – 20-25%

Выводы Реальная статистика значительно отличается от классической Выбор алгоритма сжатия позволяет улучшить сжатие в разы. Индекс по парам может быть сравним с координатным индексом.