Алгоритмические основы разработки поисковой системы Трегубов А.А., Кононова Т.С. Таганрогский Государственный Радиотехнический университет Факультет информационной безопасности, кафедра БИТ Росия, г. Таганрог, ул. Чехова 2
Структура организации поисковой системы
Пример таблицы парадигм склонения русских существительных Код скл.Падеж им.род.дат.вин.твор.пред. единственное число 1ØØØØØØ 2какикекукойке 3Øауаоме 4ØауØ е 5Øауаеме 6ØауØ е 7-у ю у 10-у---у Всего для существительных: 36 флективных парадигм в единственном числе 46 флективных парадигм во множественном числе
Пример таблицы типов машинного склонения русских существительных. Коды склонений машинное склонениеЕд. ч.Мн. ч Общее количество типов машинного склонения для существительных - 97
Организация словарной статьи для слова: модель Машинная основа слова: модел В единственном числе данная основа имеет следующий набор флексий: ь-и-и-ь-ью-и Во множественном числе: и-ей-ям-и-ями-ях Из таблицы парадигм: в единственном числе код склонения - 17 во множественном числе код склонения - 57 Из таблицы типов машинного склонения: код машинного склонения Словарная статья в автоматическом словаре основ: модел 0018 ь
Статистический метод индексирования Относительная частота появления термина ti : где Nt – число встречаемости термина в документе, N – число всех терминов в документе. Инверсная частота появления термина: где dfi - количество документов в коллекции, содержащих термин ti, N – число всех терминов в документе. Комбинированный метод индексации:
Алгебраический метод определения релевантности Представление множества индексов документов коллекции набором векторов в векторном пространстве индексируемых терминов; Представление запроса вектором в векторном пространстве индексируемых терминов; Определение степени релевантности как меры расстояния между векторами индекса документа и запроса по формуле Хемминга: где x – вектор индекса документа, С – вектор запроса.