Упражнение 5: Анализ данных с pandas
В этом упражнении мы будем проводить анализ данных, используя pandas - the Python Data Analysis Library. До сих пор мы использовали только примеры данных, хранящиеся в переменных списка, и на этой неделе мы будем загружать файлы данных и взаимодействовать с реальными наборами данных.
В этом упражнении от вас требуется проанализировать данные о температуре воздуха из Kumpula, Хельсинки (в южной Финляндии) и Рованиими (город в северной Финляндии) и изучить, как их летние температуры различались в 2017 году.
Выполнение упражнение
- Упражнение 5 должно быть сделано к началу следующего урока.
- Не забудьте сохранить и совершать свои изменения локально, и публиковать свои изменения в Github/Gitflic после каждого крупного изменения!
Где найти помощь
- Просмотрите материалы урока 5
- Проверьте подсказки к упражнению if you’re having trouble.
Прежде чем начать
Клонируйте репозиторий упражнения 5
Прежде чем начать работать с задачами на этой неделе, вы должны запустить Jupyter Lab и клонировать свою версию упражнения 5.
Входные данные
Для этого упражнения мы будем использовать погодные данные NOAA. Данные были сохранены в файле CSV (текстовый файл с разделителем запятой), который хранится в этом месте: data/6153237444115dat.csv.
Вы можете прочитать полное описание данных и всех атрибутов из файла метаданных, который также доступны в этом репозитории: data/3505doc.txt.
Первые пять рядов данных выглядят так:
USAF,WBAN,YR--MODAHRMN,DIR,SPD,GUS,CLG,SKC,L,M,H,VSB,MW,MW,MW,MW,AW,AW,AW,AW,W,TEMP,DEWP,SLP,ALT,STP,MAX,MIN,PCP01,PCP06,PCP24,PCPXX,SD
028450,99999,201705010000,174,10,14,***,***,*,*,*,2.2,**,**,**,**,67,**,**,**,8,31,31,1009.2,*****,984.1,***,***,*****,*****,*****,*****,35
028450,99999,201705010020,180,10,***,4,***,*,*,*,2.9,**,**,**,**,10,**,**,**,*,30,30,******,29.74,******,***,***,*****,*****,*****,*****,**
028450,99999,201705010050,190,10,***,4,***,*,*,*,2.1,**,**,**,**,10,**,**,**,*,30,30,******,29.74,******,***,***,*****,*****,*****,*****,**
028450,99999,201705010100,188,12,16,***,***,*,*,*,3.2,**,**,**,**,77,**,**,**,*,31,30,1009.1,*****,984.0,***,***,*****,*****,*****,*****,35
NOTICE: Данные содержат символы * , которые представляют значения NoData.
Наиболее важными атрибутами для этого упражнения являются:
- USAF = идентификационный номер станции
- 028450 : Rovaniemi
- 029980 : Helsinki Kumpula
- YR–MODAHRMN = Год-час-минута по Гринвичу (GMT)
- TEMP = Температура в Фаренгейтах
- MAX = Максимальная температура в Фаренгейтах
- MIN = Минимальная температура в Фаренгейтах
Начало работы
В упражнении на этой неделе есть три обязательные и одна дополнительная задача.