Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемГаля Явлашкина
1 Система кластеризации мульти-язычных данных большого объема Студентка: Нишневич Анастасия, 545 гр. Научный руководитель: Изъюров А.Л. Рецензент: Шалымов Д.С.
2 Введение Квадратичная или более чем квадратичная сложность Необходимость заранее знать число кластеров Проблемы Кластеризация - это задача разбиения множества объектов на группы, называемые кластерами.
3 Задача Модификация существующей в «Яндекс»е системы кластеризации для легкого подключения разнообразных языков реализация в этой системе турецкого языка тестирование разработанных компонент
4 Cуществующая реализация Данные хранятся в бд Oracle Кластеризация разбита на две фазы Поиск кандидатов для сравнения(С помощью индекса) Попарное сравнение кандидатов Сохранение результатов в базу
5 Реализация. Реконструкция системы Отдельные префиксные хранилища для разных языков Отдельные индексы для разных языков Вынесение всей специфичной для языка функциональности
6 Реализация. Подключение турецкого языка Особенности турецкого адреса Особенности турецкого языка Определение спам-слов и слов с большим весом
7 Тестирование Оценка реализованных алгоритмов на тестовой выборке Покрытие кода Unit-тестами
8 Результаты Модифицирована существующая система кластеризации, таким образом, чтобы подключение новых языков стало удобным и простым Подключена кластеризация для турецкого языка Разработанная система является частью сервиса для обработки данных компании «Яндекс» Система работает более чем на 3 млн компаний
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.