Проект для «Викишоп» c BERT
Задача
Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
Необходимо обучить модель классифицировать комментарии на позитивные и негативные. В распоряжении набор данных с разметкой о токсичности правок.
Нужно построить модель со значением метрики качества F1 не меньше 0.75
Описание данных
Данные находятся в файле toxic_comments.csv
. Столбец text в нём содержит текст комментария, а toxic — целевой признак. Файл в комплект не входит - практикум просили не распорстранять их датасеты
Достигнутый результат
F1 метрика на валидационной выборке для модели (checkpoint-3500): 0.858
Использованная модель
В проекте была использована DeepPavlov/bert-base-cased-conversational (English, cased, 12‑layer, 768‑hidden, 12‑heads, 110M parameters) по желанию заказчика
Версии библеотек
Проект был успешно выполнен на следующих версиях библиотек:
- torch: 2.5.1+cu124
- transformers: 4.44.2
- numpy: 2.1.3
- pandas: 2.2.2
- seaborn: 0.13.2
- sklearn: 1.4.2
Описание
Учебный NLP проект по бинарной классификации комментариев