README.md

Упражнение 5: Анализ данных с pandas

В этом упражнении мы будем проводить анализ данных, используя pandas - the Python Data Analysis Library. До сих пор мы использовали только примеры данных, хранящиеся в переменных списка, и на этой неделе мы будем загружать файлы данных и взаимодействовать с реальными наборами данных.

В этом упражнении от вас требуется проанализировать данные о температуре воздуха из Kumpula, Хельсинки (в южной Финляндии) и Рованиими (город в северной Финляндии) и изучить, как их летние температуры различались в 2017 году.

Выполнение упражнение

  • Упражнение 5 должно быть сделано к началу следующего урока.
  • Не забудьте сохранить и совершать свои изменения локально, и публиковать свои изменения в Github/Gitflic после каждого крупного изменения!

Где найти помощь

Прежде чем начать

Клонируйте репозиторий упражнения 5

Прежде чем начать работать с задачами на этой неделе, вы должны запустить Jupyter Lab и клонировать свою версию упражнения 5.

Входные данные

Для этого упражнения мы будем использовать погодные данные NOAA. Данные были сохранены в файле CSV (текстовый файл с разделителем запятой), который хранится в этом месте: data/6153237444115dat.csv.

Вы можете прочитать полное описание данных и всех атрибутов из файла метаданных, который также доступны в этом репозитории: data/3505doc.txt.

Первые пять рядов данных выглядят так:

USAF,WBAN,YR--MODAHRMN,DIR,SPD,GUS,CLG,SKC,L,M,H,VSB,MW,MW,MW,MW,AW,AW,AW,AW,W,TEMP,DEWP,SLP,ALT,STP,MAX,MIN,PCP01,PCP06,PCP24,PCPXX,SD
028450,99999,201705010000,174,10,14,***,***,*,*,*,2.2,**,**,**,**,67,**,**,**,8,31,31,1009.2,*****,984.1,***,***,*****,*****,*****,*****,35
028450,99999,201705010020,180,10,***,4,***,*,*,*,2.9,**,**,**,**,10,**,**,**,*,30,30,******,29.74,******,***,***,*****,*****,*****,*****,**
028450,99999,201705010050,190,10,***,4,***,*,*,*,2.1,**,**,**,**,10,**,**,**,*,30,30,******,29.74,******,***,***,*****,*****,*****,*****,**
028450,99999,201705010100,188,12,16,***,***,*,*,*,3.2,**,**,**,**,77,**,**,**,*,31,30,1009.1,*****,984.0,***,***,*****,*****,*****,*****,35

NOTICE: Данные содержат символы * , которые представляют значения NoData.

Наиболее важными атрибутами для этого упражнения являются:

  • USAF = идентификационный номер станции
    • 028450 : Rovaniemi
    • 029980 : Helsinki Kumpula
  • YR–MODAHRMN = Год-час-минута по Гринвичу (GMT)
  • TEMP = Температура в Фаренгейтах
  • MAX = Максимальная температура в Фаренгейтах
  • MIN = Минимальная температура в Фаренгейтах

Начало работы

В упражнении на этой неделе есть три обязательные и одна дополнительная задача.

  1. Задача 1: Базовые статистики (2 points)
  2. Задача 2: Обработка и выборка данных (4 points)
  3. Задача 3: Анализ данных (4 points)
  4. Задача 4: Агрегация данных (необязательно, 0 points)
Конвейеры
0 успешных
0 с ошибкой