README.md

    Проект для «Викишоп» c BERT

    Задача

    Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

    Необходимо обучить модель классифицировать комментарии на позитивные и негативные. В распоряжении набор данных с разметкой о токсичности правок.

    Нужно построить модель со значением метрики качества F1 не меньше 0.75

    Описание данных

    Данные находятся в файле toxic_comments.csv. Столбец text в нём содержит текст комментария, а toxic — целевой признак. Файл в комплект не входит - практикум просили не распорстранять их датасеты

    Достигнутый результат

    F1 метрика на валидационной выборке для модели (checkpoint-3500): 0.858

    Использованная модель

    В проекте была использована DeepPavlov/bert-base-cased-conversational (English, cased, 12‑layer, 768‑hidden, 12‑heads, 110M parameters) по желанию заказчика

    Версии библеотек

    Проект был успешно выполнен на следующих версиях библиотек:

    • torch: 2.5.1+cu124
    • transformers: 4.44.2
    • numpy: 2.1.3
    • pandas: 2.2.2
    • seaborn: 0.13.2
    • sklearn: 1.4.2
    Описание

    Учебный NLP проект по бинарной классификации комментариев

    Конвейеры
    0 успешных
    0 с ошибкой