ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА. Губин Максим Вадимович «Информационная.

Презентация:

Advertisements

Похожие презентации

Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.

Advertisements

Страничные факторы ранжирования Михаил Костин, Mail.ru.

Сжатие двоичного кода. Для того чтобы сэкономить место на внешних носителях (винчестерах, флэш дисках) и ускорить передачу информации по компьютерным.

Архивация данных: основные алгоритмы архивации данных.

Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.

ИСТОЧНИК ИНФОРМАЦИИ ПРИЁМНИК ИНФОРМАЦИИ Кодирующее устройство Декодирующее устройство КАНАЛ СВЯЗИ ШУМ ЗАЩИТА ОТ ШУМА.

Приемы и методы работы со сжатыми данными Борисов В.А. КАСК – филиал ФГБОУ ВПО РАНХ и ГС Красноармейск 2011 г.

3.1. Назначение онтологий. Информационный поиск..

Архивация файлов Файлы и файловая система. Избыточность Редакторы, работающие с текстовой, графической, звуковой и другой информацией, кодируют ее наиболее.

ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.

ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.

Архиватор программа, осуществляющая объединение нескольких файлов в один архив или серию архивов, для удобства переноса или хранения. Диск с архиватором.

Сжатие это кодирование с уменьшением объема данных и возможностью однозначного декодирования. Обратный процесс декодирование называется разжатие. Другие.

Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.

ЕГЭ по информатике Консультация 1. Перечень учебников Быкадоров Ю.А. Информатика и ИКТ Гейн А.Г., Сенокосов А.И., Юнерман Н.А. Информатика и информационные.

Механизмы поиска в БД Структуры индексов. Основные виды индексов Простые индексы для упорядоченных файлов Вторичные индексы для неупорядоченных файлов.

© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.

Персональный компьютер как система. Одним из объектов, рассматриваемых на уроках информатики, является персональный компьютер. Его можно рассматривать.

Транксрипт:

ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА. Губин Максим Вадимович «Информационная компания «Кодекс»

Цель: Выбор алгоритма сжатия инвертированного файла реальной коллекции. План : Изучить статистику распределения данных в пост листах. Выбрать возможные алгоритмы сжатия. Проверить их работоспособность.

Индексирование по парам Улучшение точности поиска Увеличение скорости обработки запроса Дополнительный сервис – подсказки пользователю, расширение запроса и т.д.

Особенности коллекции Относительно большие документы (сред. размер документа тысячи слов) Большой разброс в размерах документов (10 – слов) Много словоформ (коэф. Хипса ~ 1)

Особенности статистики пар Количество растет линейно от N Чаще повторяются в документе, чем в коллекции. На порядок больше слов

Особенности пост листов Основной объем составляют короткие листы

Выбор алгоритма сжатия Классический подход - кодирование дельт не подходит (40-50%).

Предлагаемое решение Объединение пост листов. Заголовок Объединенный пост лист Сжатый дельта + байт код Номера слов, сжатые кодом Хаффмана Коэффициент сжатия – 20-25%

Выводы Реальная статистика значительно отличается от классической Выбор алгоритма сжатия позволяет улучшить сжатие в разы. Индекс по парам может быть сравним с координатным индексом.