Система кластеризации мульти-язычных данных большого объема Студентка: Нишневич Анастасия, 545 гр. Научный руководитель: Изъюров А.Л. Рецензент: Шалымов Д.С.
Введение Квадратичная или более чем квадратичная сложность Необходимость заранее знать число кластеров Проблемы Кластеризация - это задача разбиения множества объектов на группы, называемые кластерами.
Задача Модификация существующей в «Яндекс»е системы кластеризации для легкого подключения разнообразных языков реализация в этой системе турецкого языка тестирование разработанных компонент
Cуществующая реализация Данные хранятся в бд Oracle Кластеризация разбита на две фазы Поиск кандидатов для сравнения(С помощью индекса) Попарное сравнение кандидатов Сохранение результатов в базу
Реализация. Реконструкция системы Отдельные префиксные хранилища для разных языков Отдельные индексы для разных языков Вынесение всей специфичной для языка функциональности
Реализация. Подключение турецкого языка Особенности турецкого адреса Особенности турецкого языка Определение спам-слов и слов с большим весом
Тестирование Оценка реализованных алгоритмов на тестовой выборке Покрытие кода Unit-тестами
Результаты Модифицирована существующая система кластеризации, таким образом, чтобы подключение новых языков стало удобным и простым Подключена кластеризация для турецкого языка Разработанная система является частью сервиса для обработки данных компании «Яндекс» Система работает более чем на 3 млн компаний