README.md

Проект для «Викишоп» c BERT

Задача

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Необходимо обучить модель классифицировать комментарии на позитивные и негативные. В распоряжении набор данных с разметкой о токсичности правок.

Нужно построить модель со значением метрики качества F1 не меньше 0.75

Описание данных

Данные находятся в файле toxic_comments.csv. Столбец text в нём содержит текст комментария, а toxic — целевой признак. Файл в комплект не входит - практикум просили не распорстранять их датасеты

Достигнутый результат

F1 метрика на валидационной выборке для модели (checkpoint-3500): 0.858

Использованная модель

В проекте была использована DeepPavlov/bert-base-cased-conversational (English, cased, 12‑layer, 768‑hidden, 12‑heads, 110M parameters) по желанию заказчика

Версии библеотек

Проект был успешно выполнен на следующих версиях библиотек:

  • torch: 2.5.1+cu124
  • transformers: 4.44.2
  • numpy: 2.1.3
  • pandas: 2.2.2
  • seaborn: 0.13.2
  • sklearn: 1.4.2
Описание

Учебный NLP проект по бинарной классификации комментариев

Конвейеры
0 успешных
0 с ошибкой