Resumagic: система автоматической обработки резюме Александр Сафронов
Работа кадрового агентства В больших агентствах значительная доля резюме поступает по электронной почте непосредственно от соискателей. С учетом спама это могут быть сотни и тысячи писем в день.
Этапы обработки писем 1.Просмотр письма, работа с вложенными файлами; 2.Принятие решения о том, содержит ли данное письмо в себе информацию о соискателе (резюме); 3.Преобразование резюме к формату, принятому в агентстве; 4.Выявление нечетких дубликатов резюме.
«Наивная» автоматизация 1.Требование отсутствия вложений; 2.Требования к теме письма; 3.Отказ от преобразования резюме в единый формат;. 4.Отказ от выявления дубликатов.
Основные возможности Resumagic Импорт резюме из внешних источников; Отделение резюме от прочих документов; Извлечение фактов из текста резюме; Классификация резюме; Нормализация основных полей; Выявление резюме, принадлежащих одному человеку.
Схема работы БД Файлы Резюме, хранящиеся на компьютере в виде файлов Письма Резюме, которые приходят по электронной почте
Распознаваемые поля Личная информация (ФИО, пол, дата рождения/возраст, семейное положение, гражданство); Контактная информация (телефоны, электронная почта, ICQ); Желаемая должность и пожелания по уровню дохода; Опыт работы (период работы, название компании, сфера деятельности компании, должность, отдел, обязанности, стаж); Образование (год выпуска, название учебного учреждения, факультет, кафедра, специальность, специализация, квалификация); Владение иностранными языками; Знание программного обеспечения и технологий; Личные качества, хобби; Рекомендации (ФИО, должность, название компании, контакты).
Извлечение фактов Графематический анализ. Морфологический анализ. Выделение лингвистических конструкций вокруг ключевых слов. Факт = контекст + словосочетание.
Классификация Нет общепринятых стандартов классификации резюме. В Resumagic используется классификатор hh.ru. Инженерный подход + PrTFIDF.
Классификация резюме: kNN
Классификация резюме: PrTFIDF
Классификация резюме: сравнение kNN и PrTFIDF
Классификация резюме: выбор термов
Классификация резюме: учет морфологии
Сортировка Распознанные Резюме, которые были распознаны автоматически Не резюме Объекты, не похожие на резюме (например, спам) Файлы Резюме, хранящиеся на компьютере в виде файлов Письма Резюме, которые приходят по электронной почте Нераспознанные Объекты, похожте на резюме, но которые не могут быть распознаны автоматически
Входящие письма Входящие письма: Резюме Спам Рабочая переписка Информационные рассылки с биографическими данными
ResumagicRank ResumagicRank - числовая характеристика, характеризующая степень похожести текста на резюме.
Защита от дублирования 1.Поиск полных совпадений с помощью хеш-сумм. 2.Поиск по совпадению ФИО, даты рождения или контактной информации. 3.Поиск по частичному совпадению ФИО, даты рождения или контактной информации.
(hh.ru) HeadHunter (hh.ru) – Online Hiring Services Спасибо за внимание!