README.md

    Упражнение 5: Анализ данных с pandas

    В этом упражнении мы будем проводить анализ данных, используя pandas - the Python Data Analysis Library. До сих пор мы использовали только примеры данных, хранящиеся в переменных списка, и на этой неделе мы будем загружать файлы данных и взаимодействовать с реальными наборами данных.

    В этом упражнении от вас требуется проанализировать данные о температуре воздуха из Kumpula, Хельсинки (в южной Финляндии) и Рованиими (город в северной Финляндии) и изучить, как их летние температуры различались в 2017 году.

    Выполнение упражнение

    • Упражнение 5 должно быть сделано к началу следующего урока.
    • Не забудьте сохранить и совершать свои изменения локально, и публиковать свои изменения в Github/Gitflic после каждого крупного изменения!

    Где найти помощь

    Прежде чем начать

    Клонируйте репозиторий упражнения 5

    Прежде чем начать работать с задачами на этой неделе, вы должны запустить Jupyter Lab и клонировать свою версию упражнения 5.

    Входные данные

    Для этого упражнения мы будем использовать погодные данные NOAA. Данные были сохранены в файле CSV (текстовый файл с разделителем запятой), который хранится в этом месте: data/6153237444115dat.csv.

    Вы можете прочитать полное описание данных и всех атрибутов из файла метаданных, который также доступны в этом репозитории: data/3505doc.txt.

    Первые пять рядов данных выглядят так:

    USAF,WBAN,YR--MODAHRMN,DIR,SPD,GUS,CLG,SKC,L,M,H,VSB,MW,MW,MW,MW,AW,AW,AW,AW,W,TEMP,DEWP,SLP,ALT,STP,MAX,MIN,PCP01,PCP06,PCP24,PCPXX,SD
    028450,99999,201705010000,174,10,14,***,***,*,*,*,2.2,**,**,**,**,67,**,**,**,8,31,31,1009.2,*****,984.1,***,***,*****,*****,*****,*****,35
    028450,99999,201705010020,180,10,***,4,***,*,*,*,2.9,**,**,**,**,10,**,**,**,*,30,30,******,29.74,******,***,***,*****,*****,*****,*****,**
    028450,99999,201705010050,190,10,***,4,***,*,*,*,2.1,**,**,**,**,10,**,**,**,*,30,30,******,29.74,******,***,***,*****,*****,*****,*****,**
    028450,99999,201705010100,188,12,16,***,***,*,*,*,3.2,**,**,**,**,77,**,**,**,*,31,30,1009.1,*****,984.0,***,***,*****,*****,*****,*****,35
    

    NOTICE: Данные содержат символы * , которые представляют значения NoData.

    Наиболее важными атрибутами для этого упражнения являются:

    • USAF = идентификационный номер станции
      • 028450 : Rovaniemi
      • 029980 : Helsinki Kumpula
    • YR–MODAHRMN = Год-час-минута по Гринвичу (GMT)
    • TEMP = Температура в Фаренгейтах
    • MAX = Максимальная температура в Фаренгейтах
    • MIN = Минимальная температура в Фаренгейтах

    Начало работы

    В упражнении на этой неделе есть три обязательные и одна дополнительная задача.

    1. Задача 1: Базовые статистики (2 points)
    2. Задача 2: Обработка и выборка данных (4 points)
    3. Задача 3: Анализ данных (4 points)
    4. Задача 4: Агрегация данных (необязательно, 0 points)
    Конвейеры
    0 успешных
    0 с ошибкой