Система кластеризации мульти-язычных данных большого объема Студентка: Нишневич Анастасия, 545 гр. Научный руководитель: Изъюров А.Л. Рецензент: Шалымов.

Презентация:



Advertisements
Похожие презентации
Создание системы хранения и выдачи данных Константинов Александр Сергеевич Научный руководитель: ст.пр.А.С.Лопатин.
Advertisements

Разработка кроссплатформенного приложения для кластерного анализа данных на основе рандомизированных алгоритмов Дипломная работа студента 544 группы Морозкова.
Разработка системы развертывания веб- сервисов на базе Р2Р сети Дипломная работа Скворцова Н.С. Научный руководитель: Плискин М.М. Рецензент: Глиненко.
Изменение функциональности связей на диаграмме Автор: Никольский К. А., 245 гр. Научный руководитель: Литвинов Ю. В.
РАЗРАБОТКА И РЕАЛИЗАЦИЯ МОДУЛЯ ПРОГНОЗИРОВАНИЯ ВОЛАТИЛЬНОСТИ С ИСПОЛЬЗОВАНИЕМ РАНДОМИЗИРОВАННЫХ АЛГОРИТМОВ Федяшов Виктор Алексеевич,545 группа Научный.
Выполнил: ст-т гр. ПИ-071 Чапивский Олег Вячеславович НАУЧНЫЙ РУКОВОДИТЕЛЬ: СТАРШИЙ ПРЕПОДАВАТЕЛЬ ВЕРЕВКИН СЕРГЕЙ АНАТОЛЬЕВИЧ.
Доклад на тему: «Модификация алгоритма поиска пути Jump Point Search для робота Robotino» Выполнил: Курченков Н.И. Руководитель: Дацун Н.Н.
Санкт-Петербургский Государственный Университет Математико-механический факультет Кафедра системного программирования Научный руководитель: Я.А. Кириленко.
Алгоритм приближённого joinа на потоках данных Выполнил : Юра Землянский, 445 группа Научный руководитель : Б.А. Новиков СПб, 2011 Санкт-Петербургский.
Алгоритмы предоставления сервиса присутствия в сетях IMS Дипломная работа студентки 544 гр. Саперштейн О.А. Научный руководитель Дыдычкин Д.А. Рецензент,
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Исследование возможностей сервисной шины SonicMQ Дипломная работа студентки 545 группы Комольцевой Дарьи Владимировны Научный руководитель: Графеева Н.Г.
Разработка и реализация алгоритмов обработки изображений с анатомическими особенностями на основе HTML 5.0 Добролеж Анна Борисовна, 545 группа Научный.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
Сравнение подходов к индексированию XML документов c поддержкой некоторых операций модификации Выполнил: Василий Шикин, 545 группа Руководитель: Дмитрий.
Сравнение различных технологий создания и использования web-сервисов Дипломная работа студентки 544 группы Григорьевой Елены Научный руководитель: Графеева.
Алгоритм построения оценок весов интентов для многозначных запросов Артём Григорьев 445-ая группа Кафедра Системного программирования Математико-механический.
Сервис описания дискретных динамических систем на основе рекуррентных алгоритмов стохастической аппроксимации и подобных им Александр Вахитов научный руководитель.
Выпускная квалификационная работа студента 545 группы Алеева Алексея Валерьевича Научный руководитель: аспирант, Е. А. Елизаров Рецензент: ведущий инженер,
Реализация генератора отчетов для данных, представленных в форме временных рядов Выполнил: Гагарский А.К. Научный руководитель: к.ф.-м.н, доцент Графеева.
Транксрипт:

Система кластеризации мульти-язычных данных большого объема Студентка: Нишневич Анастасия, 545 гр. Научный руководитель: Изъюров А.Л. Рецензент: Шалымов Д.С.

Введение Квадратичная или более чем квадратичная сложность Необходимость заранее знать число кластеров Проблемы Кластеризация - это задача разбиения множества объектов на группы, называемые кластерами.

Задача Модификация существующей в «Яндекс»е системы кластеризации для легкого подключения разнообразных языков реализация в этой системе турецкого языка тестирование разработанных компонент

Cуществующая реализация Данные хранятся в бд Oracle Кластеризация разбита на две фазы Поиск кандидатов для сравнения(С помощью индекса) Попарное сравнение кандидатов Сохранение результатов в базу

Реализация. Реконструкция системы Отдельные префиксные хранилища для разных языков Отдельные индексы для разных языков Вынесение всей специфичной для языка функциональности

Реализация. Подключение турецкого языка Особенности турецкого адреса Особенности турецкого языка Определение спам-слов и слов с большим весом

Тестирование Оценка реализованных алгоритмов на тестовой выборке Покрытие кода Unit-тестами

Результаты Модифицирована существующая система кластеризации, таким образом, чтобы подключение новых языков стало удобным и простым Подключена кластеризация для турецкого языка Разработанная система является частью сервиса для обработки данных компании «Яндекс» Система работает более чем на 3 млн компаний