Итоговая работа
12448/1 ИНЖДАН МГТУ им. Н.Э. Баумана
Инженер данных (Data engineer)
Андреев Андрей Анатольевич
КЛАССИФИКАЦИЯ ГОСКОНТРАКТОВ ПО ОБЪЕКТАМ ЗАКУПКИ
Задача: необходимо на основе данных с ftp.zakupki.gov.ru научиться определять группу, к которой относится контракт с кодом ОКПД-2 41, 42, 43, 71.1.
Группы могут быть следующими:
- Строительно-монтажные работы (СМР)
- Проектно-изыскательские работы (ПИР)
- Строительный надзор
- Подключение коммуникаций
- Прочее.
По ОКПД-2 контракты в общем случае должны разделяться так:
- Строительно-монтажные работы (СМР) - 41, 42, 43(кроме нижеперечисленных)
- Проектно-изыскательские работы (ПИР) - 41.1, 71.1
- Подключение коммуникаций - 43.22
- Строительный надзор – четкой группы нет.
Проблема: Далеко не всегда контракты указываются с нужным кодом, поэтому есть проблема как такие контракты “отловить” и определить в нужную группу.
Поэтому задача предполагает классификацию контрактов на основе объекта закупки, который сформулирован естественным языком. Также предполагаем, что могут иметь значение цена контракта и его длительность. На основе этого на входе данные о контрактах. На выходе необходимо получить группу для каждого контракта.
Иногда контракт может относиться одновременно в несколько групп.
В приложении ниже пример нескольких контрактов, у которых неверно проставлен ОКПД-2.
Анализ датасета показал, что он не размечан, нет признаков явно указывающих, какой код и группа верные, а какой нет. Поэтому, можно провести разметку прибегнув к кластеризации.
Если предположить, что количество некорректных кодов ОКПД-2 большое, тогда выполним кластеризацию данных по столбцу с описанием контракта. На основе полученной кластеризации, получаем размеченные данные, с помощью которых, можно обучить модель классификации с учетом стоимости и количества дней исполнения контракта.
Описание
КЛАССИФИКАЦИЯ ГОСКОНТРАКТОВ ПО ОБЪЕКТАМ ЗАКУПКИ