readme.md

Итоговая работа

12448/1 ИНЖДАН МГТУ им. Н.Э. Баумана

Инженер данных (Data engineer)

Андреев Андрей Анатольевич

КЛАССИФИКАЦИЯ ГОСКОНТРАКТОВ ПО ОБЪЕКТАМ ЗАКУПКИ

Задача: необходимо на основе данных с ftp.zakupki.gov.ru научиться определять группу, к которой относится контракт с кодом ОКПД-2 41, 42, 43, 71.1.

Группы могут быть следующими:

  1. Строительно-монтажные работы (СМР)
  2. Проектно-изыскательские работы (ПИР)
  3. Строительный надзор
  4. Подключение коммуникаций
  5. Прочее.

По ОКПД-2 контракты в общем случае должны разделяться так:

  • Строительно-монтажные работы (СМР) - 41, 42, 43(кроме нижеперечисленных)
  • Проектно-изыскательские работы (ПИР) - 41.1, 71.1
  • Подключение коммуникаций - 43.22
  • Строительный надзор – четкой группы нет.

Проблема: Далеко не всегда контракты указываются с нужным кодом, поэтому есть проблема как такие контракты “отловить” и определить в нужную группу.

Поэтому задача предполагает классификацию контрактов на основе объекта закупки, который сформулирован естественным языком. Также предполагаем, что могут иметь значение цена контракта и его длительность. На основе этого на входе данные о контрактах. На выходе необходимо получить группу для каждого контракта.

Иногда контракт может относиться одновременно в несколько групп.

В приложении ниже пример нескольких контрактов, у которых неверно проставлен ОКПД-2.

Анализ датасета показал, что он не размечан, нет признаков явно указывающих, какой код и группа верные, а какой нет. Поэтому, можно провести разметку прибегнув к кластеризации.

Если предположить, что количество некорректных кодов ОКПД-2 большое, тогда выполним кластеризацию данных по столбцу с описанием контракта. На основе полученной кластеризации, получаем размеченные данные, с помощью которых, можно обучить модель классификации с учетом стоимости и количества дней исполнения контракта.

Описание

КЛАССИФИКАЦИЯ ГОСКОНТРАКТОВ ПО ОБЪЕКТАМ ЗАКУПКИ

Конвейеры
0 успешных
0 с ошибкой