Проект для «Викишоп» c BERT
Задача
Оператор связи «ТелеДом» хочет бороться с оттоком клиентов. Для этого его сотрудники начнут предлагать промокоды и специальные условия всем, кто планирует отказаться от услуг связи. Чтобы заранее находить таких пользователей, «ТелеДому» нужна модель, которая будет предсказывать, разорвёт ли абонент договор. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Задача — обучить на этих данных модель для прогноза оттока клиентов. В этот раз чётких требований к метрике нет. Модель нужно будет прогнать через ROC-AUC, Accuracy, Confusion Matrix и изучить важность признаков
Описание данных
Данные состоят из нескольких файлов, полученных из разных источников:
contract_new.csv — информация о договоре;
personal_new.csv — персональные данные клиента;
internet_new.csv — информация об интернет-услугах;
phone_new.csv — информация об услугах телефонии.
Файл contract_new.csv
customerID — идентификатор абонента;
BeginDate — дата начала действия договора;
EndDate — дата окончания действия договора;
Type — тип оплаты: раз в год-два или ежемесячно;
PaperlessBilling — электронный расчётный лист;
PaymentMethod — тип платежа;
MonthlyCharges — расходы за месяц;
TotalCharges — общие расходы абонента.
Файл personal_new.csv
customerID — идентификатор пользователя;
gender — пол;
SeniorCitizen — является ли абонент пенсионером;
Partner — есть ли у абонента супруг или супруга;
Dependents — есть ли у абонента дети.
Файл internet_new.csv
customerID — идентификатор пользователя;
InternetService — тип подключения;
OnlineSecurity — блокировка опасных сайтов;
OnlineBackup — облачное хранилище файлов для резервного копирования данных;
DeviceProtection — антивирус;
TechSupport — выделенная линия технической поддержки;
StreamingTV — стриминговое телевидение;
StreamingMovies — каталог фильмов.
Файл phone_new.csv
customerID — идентификатор пользователя;
MultipleLines — подключение телефона к нескольким линиям одновременно.
Во всех файлах столбец customerID содержит код клиента. Информация о договорах актуальна на 1 февраля 2020 года.
Достигнутый результат
- Метрика ROC-AUC на тестовой выборке: 0.9277
- Метрика Accuracy на тестовой выборке: 0.8825
Описание
Учебный выпускной проект по датасаенсу с бинарной классификацией. Очистка данных, их анализ, построение моделей и выбор лучшей с соответствующим анализом онной - всё тут