README.md

    Проект для «Викишоп» c BERT

    Задача

    Оператор связи «ТелеДом» хочет бороться с оттоком клиентов. Для этого его сотрудники начнут предлагать промокоды и специальные условия всем, кто планирует отказаться от услуг связи. Чтобы заранее находить таких пользователей, «ТелеДому» нужна модель, которая будет предсказывать, разорвёт ли абонент договор. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Задача — обучить на этих данных модель для прогноза оттока клиентов. В этот раз чётких требований к метрике нет. Модель нужно будет прогнать через ROC-AUC, Accuracy, Confusion Matrix и изучить важность признаков

    Описание данных

    Данные состоят из нескольких файлов, полученных из разных источников:

    contract_new.csv — информация о договоре;
    personal_new.csv — персональные данные клиента;
    internet_new.csv — информация об интернет-услугах;
    phone_new.csv — информация об услугах телефонии.
    

    Файл contract_new.csv

    customerID — идентификатор абонента;
    BeginDate — дата начала действия договора;
    EndDate — дата окончания действия договора;
    Type — тип оплаты: раз в год-два или ежемесячно;
    PaperlessBilling — электронный расчётный лист;
    PaymentMethod — тип платежа;
    MonthlyCharges — расходы за месяц;
    TotalCharges — общие расходы абонента.
    

    Файл personal_new.csv

    customerID — идентификатор пользователя;
    gender — пол;
    SeniorCitizen — является ли абонент пенсионером;
    Partner — есть ли у абонента супруг или супруга;
    Dependents — есть ли у абонента дети.
    

    Файл internet_new.csv

    customerID — идентификатор пользователя;
    InternetService — тип подключения;
    OnlineSecurity — блокировка опасных сайтов;
    OnlineBackup — облачное хранилище файлов для резервного копирования данных;
    DeviceProtection — антивирус;
    TechSupport — выделенная линия технической поддержки;
    StreamingTV — стриминговое телевидение;
    StreamingMovies — каталог фильмов.
    

    Файл phone_new.csv

    customerID — идентификатор пользователя;
    MultipleLines — подключение телефона к нескольким линиям одновременно.
    

    Во всех файлах столбец customerID содержит код клиента. Информация о договорах актуальна на 1 февраля 2020 года.

    Достигнутый результат

    • Метрика ROC-AUC на тестовой выборке: 0.9277
    • Метрика Accuracy на тестовой выборке: 0.8825
    Описание

    Учебный выпускной проект по датасаенсу с бинарной классификацией. Очистка данных, их анализ, построение моделей и выбор лучшей с соответствующим анализом онной - всё тут

    Конвейеры
    0 успешных
    0 с ошибкой