Архив статей журнала
Построение модели бинарной классификации для прогнозирования типа объявление в облачных ATS (системы отслеживания кандидатов) о приеме на работу (законные или мошеннические), может быть решено, в том числе, и с использованием различных алгоритмов машинного обучения. Для данной работы были выбраны традиционные алгоритмы классификации, включают LSVC (Linear Support Vector Classifier), GBT (Gradient Boost Tree) и RF(Random Forest). Один из подходов к построению такой модели заключается в выявлении и сборе соответствующих атрибутов или особенностей, которые могут помочь отличить мошенническое объявление о приеме на работу от законного. Некоторые из функций, которые могут быть полезны при обнаружении мошеннических объявлений о вакансиях, включают местоположение работы, описание вакансии, требования к работе, должностные обязанности, информацию о компании и данные о рекрутере. После чего различные алгоритмы машинного обучения могут быть обучены на подготовленных наборах данных с использованием стандартных методов, таких как перекрестная проверка, для оценки их производительности. Производительность обученных моделей может быть оценена с использованием различных оценочных показателей, таких как точность, прецизионность и отзывчивость. Наконец, наиболее эффективная модель может быть выбрана на основе оценочных показателей, а затем внедрена в производственную среду, где ее можно использовать для классификации объявлений о вакансиях как мошеннических или нет. Важно отметить, что модель также должна постоянно оцениваться и обновляться с течением времени, чтобы обеспечить ее надежность и эффективность. Исходя из результатов метрик оценки, был сделан вывод, что классификатор GBT показывает более высокую производительность и точность по сравнению с классификаторами LinearSVC и RF на данном наборе. Однако стоит учитывать, что классификатор GBT требует больше времени на обучение и прогнозирование, у GBT время 208.738579 с, а у LSVC и RF (64.267132 и 71.024914, соответственно). Учитывая результаты оценок для рабочей части программы использовали модель GBT. Для реализации прогнозирования было проведено машинное обучение на GBT, RF и LSVC на пользовательском наборе данных Job_Fraud, созданный на базе общедоступной EMSCAD. Для решения сильного дисбаланса данных была использована реализация на библиотеке синтетической передискретизации меньшинства (SMOTE). Сначала была получена модель, которую обучили на данных с помощью классификатора, удаление через TFIDFVectorizer стоп-слов в векторном пространстве, затем уменьшая разрядность данных перезагрузили данные, повторно обучили модель и векторайзер перед использованием их для прогнозирования. Для графического интерфейса использовался модуль tkinter. Функция predict() использует обученную модель для предсказаний на основе вектора признаков.