README.md

Cross Correlation Counter

Скрипт предназначен для пакетного вычисления индекса взаимной сопряженности Пирсона.

Индекс Пирсона предназначен для оценки степени связи между двумя объектами, обладающими набором качественных характеристик.

Например, это может быть стиль музыки, который предпочитает человек и его возрастная группа.

Чтобы вычислить индекс Пирсона, нужно сначала построить таблицу частот какждого из признаков объекта. В нашем случае, это будет такая таблица:

Возрастная группа/Стиль Рок Рэп Кантри Классика Техно
10-15 42 40 0 0 50
15-25 50 20 10 10 13
25-40 43 42 20 46 21

Вычисление степени связи между парой характеристик объекта, не вызывает трудностей, однако, допустим, круг исследуемых характеристик объекта нужно расширить а еще нужно исследовать связь между комбинациями этих характеристик.

Например, изучить не только взаимосвязь между стилем музыки и возрастом, но учесть при этом еще и национальность человека, его уровень доходов и религиозные взгляды.

Очевидно, в этом случае нужно автоматизировать процесс вычисления. Как раз для этого то и нужен данный скрипт.

Входные данные

В качестве входных данных для скрипта служит таблица в формате csv, где в качестве разделител используется запятая.

Первые две строки таблицы – служебные. Первая строка содержит тип данных, находящихся в данной строке. Данные могут иметь следующий тип

  1. species – название вида объекта, чьи данные обрабатываются

  2. fiture – обозначает, что в данном столбце находятся варианты определенного признака

  3. factor – обозначает, что в данном столбце находятся варианты фактора, зависимость от которого нужно вычислить

  4. other – обозначает любую другую информацию, которая не будет обрабатываться

Во второй строке написанны названия факторов, варианты которох находятся в столбцах.

Пример таблицы с данными находится в архиве программы в директории /src_data/data.csv

Выходные данные

Для сохранения результатов своей работы скрипт создает папку под именем output_data. Внутри этой папки создаются вложенные папки. куда складываются файлы в формате csv. Это такие подпапки, как

  1. tables/fiture_factore_determination/ , куда сохраняются таблицы с вычисленными значениями степени связи между различными сочетаниями признаков изучаемого объекта и факториами, воздействие которых на объект изучается.

  2. tables/cross_fitures_determination содержит таблицу с показателями степени связи между отдельными признаками изучаемого объекта

  3. tables/cross_fitures_determination/cross_fitures_tables/содержит таблицы с частотами сочетаний различных признаков. Эти таблицы используются для вычисления показателя Пирсона и, при необходимости, сохраняются в отдельную папаку

Опции командной сроки

  • -i, --input_data_path Путь к файлу с входными данными

  • -o, --output_dir Путь к каталогу с результатами работы скрипта

  • -d, --dict_path Путь к каталогу с файлами словарей замен

  • -vl, --variants_number_limit Варианты, которые содержат меньше особей, чем указано в этой опции будут исключены из анализа

  • -fl, --factors_number_limit Таблицы, которые содержат меньше столбцов, чем указано в опции не будут сохранены
  • -tl, --table_rows_limit Таблицы, которые содержат меньше строк, чем указано в опции не будут сохранены
  • -wr, --write_remaned_tables Если опция указана, то после ошибки сохранения таблицы, оставшиеся в памяти таблицы будут сохранены
Конвейеры
0 успешных
0 с ошибкой