README.md

Проект для «Викишоп» c BERT

Задача

Оператор связи «ТелеДом» хочет бороться с оттоком клиентов. Для этого его сотрудники начнут предлагать промокоды и специальные условия всем, кто планирует отказаться от услуг связи. Чтобы заранее находить таких пользователей, «ТелеДому» нужна модель, которая будет предсказывать, разорвёт ли абонент договор. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Задача — обучить на этих данных модель для прогноза оттока клиентов. В этот раз чётких требований к метрике нет. Модель нужно будет прогнать через ROC-AUC, Accuracy, Confusion Matrix и изучить важность признаков

Описание данных

Данные состоят из нескольких файлов, полученных из разных источников:

contract_new.csv — информация о договоре;
personal_new.csv — персональные данные клиента;
internet_new.csv — информация об интернет-услугах;
phone_new.csv — информация об услугах телефонии.

Файл contract_new.csv

customerID — идентификатор абонента;
BeginDate — дата начала действия договора;
EndDate — дата окончания действия договора;
Type — тип оплаты: раз в год-два или ежемесячно;
PaperlessBilling — электронный расчётный лист;
PaymentMethod — тип платежа;
MonthlyCharges — расходы за месяц;
TotalCharges — общие расходы абонента.

Файл personal_new.csv

customerID — идентификатор пользователя;
gender — пол;
SeniorCitizen — является ли абонент пенсионером;
Partner — есть ли у абонента супруг или супруга;
Dependents — есть ли у абонента дети.

Файл internet_new.csv

customerID — идентификатор пользователя;
InternetService — тип подключения;
OnlineSecurity — блокировка опасных сайтов;
OnlineBackup — облачное хранилище файлов для резервного копирования данных;
DeviceProtection — антивирус;
TechSupport — выделенная линия технической поддержки;
StreamingTV — стриминговое телевидение;
StreamingMovies — каталог фильмов.

Файл phone_new.csv

customerID — идентификатор пользователя;
MultipleLines — подключение телефона к нескольким линиям одновременно.

Во всех файлах столбец customerID содержит код клиента. Информация о договорах актуальна на 1 февраля 2020 года.

Достигнутый результат

  • Метрика ROC-AUC на тестовой выборке: 0.9277
  • Метрика Accuracy на тестовой выборке: 0.8825
Описание
Учебный выпускной проект по датасаенсу с бинарной классификацией. Очистка данных, их анализ, построение моделей и выбор лучшей с соответствующим анализом онной - всё тут
Конвейеры
0 успешных
0 с ошибкой
Разработчики