Машинное обучение в HeadHunter: умный поиск соискателей и работодателей Александр Сидоров

Страница создана Таисия Королева

Разное

Русский

Лайк
Поделиться
Встроить
На весь экран
Слайды
Скачать HTML
Скачать PDF
Жалоба

←

ПРОДОЛЖИТЬ ЧТЕНИЕ

→

Транскрипция содержимого страницы

Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже

Машинное обучение в HeadHunter: умный поиск соискателей и работодателей Александр Сидоров

Машинное обучение в
  HeadHunter: умный поиск
соискателей и работодателей

    Александр Сидоров

Александр Сидоров

Руководитель
   анализа                        facebook.com
   данных
               al.sidorov@hh.ru
                                  /asidorov83
 HeadHunter

Кейс 1: Прескриннинг/модерация резюме

  Задача     • Проверять качество заполнения резюме на самом
               верху воронки подбора

 Проблема    • Значительная часть соискателей плохо и неполно
               заполняют резюме

             • Использовать исторические данные по
 Решение       модерации резюме, чтобы автоматически
               подтверждать самые качественно заполненные

Схема работы автомодерации
1.   Результаты ручной модерации - исторические данные
2.   Научили модель автомодерации
3.   Новые резюме проверяются автомодератором
4.   Качественные резюме автоматически подтверждаются
5.   Спорные случаи отправляются людям

>30k новых резюме в день, ↑, кол-во модераторов и
качество модерации const, auc_roc 0.94
200k резюме в обучающем множестве, 1k признаков

Градиентный бустинг c xgboost
• хорошо работает с разнородной информацией
• не очень чувствителен к шуму
• довольно чувствителен к переобучению
• многопоточный, хорошая параллельность
• и бинарная классификация, и регрессия
• подбираем eta, n_estimators, max_depth
• можно полуавтоматически, через hyperopt
• «when in doubt – use xgboost» Owen Zhang,
  Kaggle

Dataset
                                              Splitter
X_Valid                                       X_Train                                        Y_Train
                                                                                             Y_Valid
                                          Categorical
          Numerical Data                                                    Text Data          Task
                                             Data
                                                                                             Identifier
                                 Convert to                                   Text
                                                         Binarize
                                   Labels                                 Transformers

                                        Stacker

            Original       PCA    LDA                        QDA             SVD

                                        Feature Selector

                                        Hyperparameter Selector                          AutoML

                                         ML Model Selector

  Evaluator                                                         xgboost – один из вариантов здесь,
                                                                    нейросети «deep learning» - другой вариант
Output: Best Models with Optimized Hyperparameters
         http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

вся Kaggle-подобная работа здесь
               Выбор признаков и
               обучение моделей

                                     Автоматическое
                                     тестирование и
                                    синхронный выкат
               Расчёт байесовской                                     Регулярный
    Сбор           априорной                                           пересчёт       Мониторинг
                                                       Оптимизация
исторических      вероятности                                         признаков и      качества и
                                                         ресурсов
   данных                                                             переподбор    ресурсоёмкости
               Расчёт признаков и                                      моделей
                работа моделей в
                    runtime
                                        Работа с
                                    эксперименталь-
                                       ным кодом
               A/B-тесты, баланс
               «польза/ресурсы»

Кейс 2: Подбор вакансий по резюме

              • Подобрать по резюме вакансии, интересные
   Задача       соискателю

              • Фильтр по параметрам вакансии
  Решение     • Машинное обучение

              • Главная страница, рекомендуемые вакансии в
 Функционал     списке резюме, рассылки с подходящими
                вакансиями

М-a-а-ш-и-и-н-н-о-е
о-б-у-ч-е-е-н-и-и-е

    Ну, нафиг…        …буду экспертом
                      напишу формулу
                      вручную!

Схема работы рекомендательной системы
         350 000 вакансий
     Эвристический фильтр                  2 признака

    Фильтрующая модель 1
                                           4 признака
         Фильтрующая
           модель 2                        26 признаков

        Ранжирующая                        85 признаков
           модель

    500-44m пар в обучающих множествах, переподбор за ночь

id соискателя      API для работы с БД, Java           БД резюме и вакансий
                                                                                                                          PostgreSQL
                                                                   резюме

                               Интеграционный слой, Java, Python
                                                                         резюме       Сервис расчёта признаков,           ML pipeline, Python
                                                                                      Python                               Расчёт признаков
                                                                     признаки для
                                                                       резюме
                                                                                      Кеш признаков,        Индексатор,
                                                                                      Cassandra             Java
             Frontend, nginx

                                                                      признаки
соискатель
                                                                     для резюме,  Поиск, Java
                                                                   условия поиска
                                                                                   Индекс с признаками для
                                                                                                                           Подбор         Выгрузка
                                                                                   вакансий, Lucene
                                                                       список                                              моделей,       и чистка
                                                                   рекомендуемых Фильтрующие модели                        измерение      данных
                                                                      вакансий                                             offline-
                                                                                   Ранжирующая модель                      метрик

                                                                                                                          Хранилище логов
                                                                                                  A/B-тесты, Python       Hadoop
                                                                            Tableau               Расчёт online-метрик

Результаты в откликах по результатам
A/B-тестов
                          + x100 в сутки при
        + x1000 в сутки
                             улучшениях
       при внедрениях
                              моделей,
       там, где не было
                          факторов, таргетов

                 Иногда «просто»
                   уменьшаем
                 ресурсоёмкость

Кейс 3: Ранжирование откликов

              • На вакансию поступили отклики, необходимо
   Задача       понять кого приглашать на собеседование или
                телефонное интервью

              • HR-ры тратят значительное количество времени
  Проблема      на разбор резюме и определение списка для
                собеседования

              • Кнопка «Лучшие» на странице откликов на
 Функционал     вакансию

Человек: делает по инструкции, учится на небольшом опыте
          ошибается, субъективен, дорогое время
 Неформализованный список:             Дерево решений

 1. Опыт работы
 2. Образование                             ЗП > 100k

 3. Навыки                           Нет                Да

 4. Зарплатные ожидания
 5. …                            Опыт > 3              Опыт > 5

 6. …
 7. …
                               70k         60k   80k          90k

Машина: учится на большом опыте
      тоже ошибается, объективна, дешёвое время

1. Исторические данные: кого
   пригласили на собеседование
2. Учим модель
3. Применяем модель к кандидатам
4. Улучшаем модель

Результат:
• 3,5m откликов в обучающем множестве
• 500 признаков
• 800k пар в день, 95%: 600ms

Кейс 4: поиск по соцсетям

               • Найти соискателей, у которых нет резюме или
   Задача        у которых они закрыты

               • Собрать все профили людей, сопоставить их
  Решение        между собой, выделить полезное для работы

 Функционал    • Профили в поиске по резюме

Схема работы сопоставления профилей
365 млн. записей, 53.856 трлн. потенциальных пар
       Нормализация, векторизация

           Объединение в блоки                     15 признаков
                Попарное
                сравнение                          15 признаков

   14k пар в обучающем множестве
   точность: 99,9% - 150k пар, 80% - 4m
   пересчёт за месяц

Рост использования машинного
           обучения в рекрутинге

Модерация   Ранжирование   Рекомендательные   Умный поиск с
 резюме       откликов          системы           ML

Выводы и прогнозы
Использование машинного обучения дает хороший эффект в
рекрутинге: в среднем целевые метрики вырастают на десятки
процентов.

 В краткосрочной перспективе      В среднесрочной перспективе

• вырастет эффективность         • подбирать сотрудников и
  подбора за счет экономии         искать работу будут ансамбли
  времени рекрутеров               систем машинного обучения
• увеличится скорость поиска       с уменьшающимся участием
  работы для соискателей           человека

17 лет меняем мир рекрутинга и HR к
             лучшему!

Вы также можете почитать

РАБОТА В ХАРЬКОВЕ мобильное приложение для сайта по поиску работы и подбору персонала

КАК НАПИСАТЬ СВЕРХЭФФЕКТИВНОЕ РЕЗЮМЕ ДЛЯ САМОГО ТРЕБОВАТЕЛЬНОГО РАБОТОДАТЕЛЯ

РЕЗЮМЕ КАК ЖАНР ОФИЦИАЛЬНО-ДЕЛОВОГО ДИСКУРСА

Машинное обучение в MATLAB - Павел Рословец

ПОИСК ИНФОРМАТИВНЫХ ФРАГМЕНТОВ ОПИСАНИЙ ОБЪЕКТОВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ

HOG+HOF+CSS дескриптор в задаче распознавания пешеходов

ТЕПЛОВЫЕ ВАКАНСИИ В 1D ЦЕПОЧКАХ АДСОРБАТА КСЕНОНА В КАНАВКАХ СВЯЗОК НАНОТРУБОК

Сценарий оптимального поиска работы - Портал znanie.info

ОБНАРУЖЕНИЕ РУКИ В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ В ВИДЕОПОТОКЕ С ПОМОЩЬЮ ПРИЗНАКОВ ХААРА И ADABOOST-КЛАССИФИКАТОРА

Построение модели ИТ-специалиста на основе нечеткой кластеризации для системы поддержки принятия решений в сфере кадрового обеспечения - SCM'2020

Молодые специалисты в области ИТ/Телеком - в Москве Анализ рынка труда и обучения - Mos.ru

Технология производства азотной кислоты

ОЗНАКОМИТЕЛЬНАЯ ПРЕЗЕНТАЦИЯ SUBTITLE - ТОО НМСК КАЗМОРТРАНСФЛОТ ОЗНАКОМИТЕЛЬНАЯ ПРЕЗЕНТАЦИЯ - АО "НК ...

Быстродействующий алгоритм семантической классификации JPEG-изображений

РЕКОМЕНДАЦИИ ПО ФОРМИРОВАНИЮ ЭФФЕКТИВНОЙ СИСТЕМЫ СОДЕЙСТВИЯ ЗАНЯТОСТИ СТУДЕНТОВ И ТРУДОУСТРОЙСТВУ ВЫПУСКНИКОВ ОРЕНБУРГСКОЙ ОБЛАСТИ - ОГУ

Применение физических признаков видео к задаче классификации

Моделирование ВИЧ инфекции: идентификация моделей и исследование глобальной чувствительности - Математическая ...

Основные тенденции на международном и российском рынках - Исследование рынка массовых профессий

Проректор по стратегическому развитию С.В.Дубовицкий

Дискуссионные вопросы теории эволюции - Лекция 3 (Раздел 2) Кафедра Зоологии беспозвоночных / Главная

Система содействия трудоустройству инвалидов и лиц с ОВЗ МГТУ им Н.Э. Баумана - 31 октября - 1 ноября - РУМЦ МГТУ им. Н.Э. Баумана

Исследование физико-математической модели ускорения испытаний на сохраняемость электронной компонентной базы

Stereoscopic methods of forest inventory by compartments - ООО "Леспроект" - Seminar 2 (SE2) of the SURGE project Forest Management and GIS ...

РАЗРАБОТЧИК WEB И МУЛЬТИМЕДИЙНЫХ ПРИЛОЖЕНИЙ

КЛАССИФИКАЦИЯ ВОЗРАСТА В СУДЕБНОЙ МЕДИЦИНЕ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

ИЗМЕНЧИВОСТЬ МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ ЛИСТВЕННИЦЫ ДАУРСКОЙ В УСЛОВИЯХ ИНТРОДУКЦИИ В ЕВРОПЕЙСКУЮ ЧАСТЬ РОССИИ - Лесной вестник

Нейросетевые модели принятия решений быстрого реагирования для критических инфраструктур

Прогнозное управление качеством - переход к управлению производственными процессами на основе знания их влияния на качество. Михаил Аветисов ...

ЛОГОС-Аэрогидромеханика - Состояние и перспективы Москва ИПМ 2-3.12.2017 Дерюгин Ю.Н - CFD коды

Критерий качества кластеризации на основе отбора признаков размеченной выборки с приложением в области разработки интерфейсов мозг-компьютер

ВЫДЕЛЯТЬ ЛИ В КОМПАНИИ ОТДЕЛЬНЫЙ ПУЛ ТАЛАНТОВ (HIPO)? - СЕРГЕЙ ЮЛДАШЕВ, ГЕНЕРАЛЬНЫЙ ДИРЕКТОР TALENTCODE

Математическое моделирование и прогнозирование COVID-19 в Москве и Новосибирской области* - arXiv

ВЗАИМНОЕ ПРЕОБРАЗОВАНИЕ UFO И UML МОДЕЛЕЙ

Математические модели плоскопараллельного движения судна. Классификация и критический анализ

ПОИСК И ОЦЕНКА ЛИНЕЙНОГО ПЕРСОНАЛА - Светлана Иванова - Повышение эффективности и снижение затрат

Моделирование вызванных вихрями вибраций (VIV) твёрдых структур методом вейк-осциллятора - Тема НИОКР: Рациональное природопользование

ТЕХНИЧЕСКОЕ ЗАДАНИЕ на выполнение работы по составлению проектно-технологического документа: "Технологическая схема разработки ...

МОЕЧНЫЕ АППАРАТЫ ВЫСОКОГО ДАВЛЕНИЯ ПЫЛЕСОСЫ 05 / 2010

Настольный 3D-принтер SD 300 Pro - 2010 Copyright Solido Ltd.

От AI-хайпа к ML-технологиям - Воронцов Константин д.ф.-м.н., профессор РАН, зав. лаб. Машинного Интеллекта МФТИ - MachineLearning.ru

ВЫСОКОТОЧНОЕ МОДЕЛИРОВАНИЕ ТП НА РЕАЛЬНЫХ - Российская Технологическая Конференция Honeywell - ПРИМЕРАХ ТРЕНАЖЕРНЫХ ПРОЕКТОВ

МЕТОДЫ ЭЛЕКТРОЭНЦЕФАЛОГРАФИЧЕСКОЙ ДИАГНОСТИКИ ПАТОЛОГИЙ ГОЛОВНОГО МОЗГА С ПРИМЕНЕНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ - ЛЭТИ

Конспект урока Формы представления моделей. Формализация. Основные этапы разработки и исследования моделей на компьютере

Продукция 2019 Бороны Культиваторы Глубокорыхлители Плуги

Основные приоритеты государственной политики в подготовке педагогических кадров - Российская академия ...

ОСНОВНЫЕ ЭТАПЫ РЕАЛИЗАЦИИ ЦЕЛЕВОЙ МОДЕЛИ НАСТАВНИЧЕСТВА - Гиззатуллина Юлия Фанисовна, методист регионального методического центра ГБУДО ...

Агиенко Марина Ивановна - СТРУКТУРЫ КОНЦЕПТОВ ПРАВДА, ИСТИНА, TRUTH В СОПОСТАВИТЕЛЬНОМ АСПЕКТЕ

ФАКУЛЬТАТИВНЫЕ ПРИЗНАКИ СУБЪЕКТИВНОЙ СТОРОНЫ В СОСТАВАХ ПРЕСТУПЛЕНИЙ ПРОТИВ ЖИЗНИ И ЗДОРОВЬЯ: ТЕОРЕТИКО-ПРИКЛАДНОЕ ИССЛЕДОВАНИЕ

ТАРАШНИНА СВЕТЛАНА ИВАНОВНА - НАЧАЛЬНИК ОТДЕЛА МОДЕЛИРОВАНИЯ И ПРОГНОЗИРОВАНИЯ К.Ф.-М.Н., ДОЦЕНТ

КОНДИЦИОНЕР ОКОННОГО ТИПА РУКОВОДСТВО ПО ЭКСПЛУАТАЦИИ