HalltapeRoadmapDE
Roadmap для Data Engineer | Актуально на 2024-2025г.
Оглавление
- HalltapeRoadmapDE
- Каналы авторов Roadmap | Подпишись!
- 0. Деньги
- 1. Кто такой Дата Инженер?
- 2. Курсы
- 3. Github / Git
- 4. Linux / Terminal
- 4. Data Warehouse
- 5. Нормальные формы
- 6. Модели данных
- 7. Data Vault (Hub - Satellite - Link)
- 8. Docker
- 9. Hadoop
- 10. Airflow
- 11. Greenplum
- 12. ClickHouse
- 13. Spark
- 14. dbt (data build tool)
- 15. Apache Kafka
- 16. Pet Project
- 17. Теоретические вопросы c собеседований
- 18. Резюме и Работа
- 19. Рабочие кейсы
- 20. Полезные ссылки
- Каналы авторов Roadmap | Подпишись!
Каналы авторов Roadmap | Подпишись!
| Канал | Автор |
|---|---|
| Канал Я – Дата Инженер | t.me/halltape |
| Канал Инженерообязанный Из военки в IT | t.me/ShustDE |
| Канал rzv Data Engineering | t.me/razvodov_de_mentor |
Хочешь стать автором? Кликай сюда!
0. Деньги
Размер зарплаты зависит от успешности продажи себя на собесе. Если будешь бояться говорить большие суммы, эти суммы будет называть другой более наглый человек. При этом он будет знать меньше тебя, а зарабатывать больше. С этого момента забудь про справедливость. Её нет.
Зарплатные вилки собраны лично мной на собесах за 2024 год: | Уровень | Зарплата на руки | |————–|——————–| | Стажер | 70k - 90k | | Джун | 100k - 150k | | Джун+ | 160k - 190k | | Мидл | 200k - 250k | | Мидл+ | 260k - 380k | | Сеньор и выше | от 380k |
Учитывайте, что вилки в некоторых компаниях могут быть сильно ниже. Корреляция между размером зарплаты и знаниями не всегда 100%.
Важно! Нет смысла заниматься раз в неделю. Таким темпом вы никогда не дойдете до конца. Лучше тогда потратьте это время на отпуск, семью, друзей. Иначе вы просто спускаете свою жизнь в никуда.
1. Кто такой Дата Инженер?
Чтобы понять, кто такой дата инженер и как им стать, посмотри видео!

➜ Интервью с Senior/Team Lead DE
➜ Мок-собеседование на junior+ Data Engineer
2. Курсы
Дальше тебе нужно научиться писать базовые запросы на SQL и на Python. В тренажерах внизу проходи так, как там просят. Не спрашивай зачем, тебе понадобятся эти инструменты в будущем!
Пройди эти три курса SQL и Python
| Курс | Продолжительность |
|---|---|
| SQL с нуля до оконок | ≈ 1-2 месяца |
| Python с нуля до базы | ≈ 1-2 месяца |
| Продвинутый уровень Python (вложенность, словари, функции) | ≈ 1-2 месяца |
Если задача не получается и ты сидишь с ней уже больше часа, пропускай и переходи к следующей. Потом вернешься и дорешаешь, если будет желание. Не гонись за 100%. Это никто не оценит.
3. Github / Git

Регистрируешься на Github и подключаешь его к своему ПК
4. Linux / Terminal

Пробуешь привыкнуть и запомнить работу с этими командами в терминале
4. Data Warehouse

Нужно понимать, что такое хранилище данных, какие они бывают, чем отличаются и, как в целом можно грузить данные. Обязательно читай теорию!
5. Нормальные формы

Важная тема про нормализацию таблиц. Всегда спрашивают на собесах. За это надо шарить.
6. Модели данных

Для собесов и в будущем на работе вам надо шарить за модели данных. Читаем и обязательно изучаем SCD по ссылке ниже!
7. Data Vault (Hub - Satellite - Link)

Не факт, что на первой работе вы будете сразу строить Data Vault. Это вообще настолько не факт, что может остаться у вас в теории еще на год вперед. Но на собесах спросить могут. Более того, вам могут дать тестовое на то, чтобы построить простенькую модельку на базе Data Vault. Грубо говоря – это все про то, как связать таблицы между собой…
Видос про Data Vault ➜ YouTube
Читаем конспект ➜ Data Vault
8. Docker

9. Hadoop

На некоторых проектах в качестве хранилища будет HDFS (Hadoop). Инфы из видоса снизу будет достаточно, чтобы успешно ответить на вопросы на собеседовании.
Смотри видео здесь ➜ HDFS | Что это такое и как оно работает? [Hadoop HDFS]
Презентация из видео ➜ HDFS
10. Airflow

Изучать только после осовения Python, SQL, Docker, командной строки Linux. В целом оркестратор Airflow – частый инструмент среди компаний, поэтому он уже классика и шарить за него нужно.
11. Greenplum

Greenplum будет в 50% вакансиях на DE. Остальные будут сидеть на Hadoop + Spark. На первых порах рекомендую базово освоить все три, но окунуться поглубже лишь в один на выбор (Spark | Greenplum). Если хватит сил на освоение обоих, флаг вам в руки!
Презентация из видео ➜ Greenplum
12. ClickHouse

ClickHouse будет в 80% вакансиях для постоения витрин данных. В последнее время стала набирать популярность связка GreenPlum + ClickHouse. Не стоит в теорию погружаться с головой и читать всю документацию, а стоит прочитать только то, что описано в статье + ссылки на другие источники.
Обязательно данный инструмент добавляем в свой пет-проект.
➜ Видео о ClickHouse от разработчика
13. Spark

Spark изучайте только после того, как научились базово кодить на Python и SQL. Без них будет очень сложно и непонятно.
Смотри видео здесь ➜ Что такое Spark и как им пользоваться?
Разверни свой Spark кластер или запусти его локально тут ➜ Spark Cluster
14. dbt (data build tool)

Про dbt вы часто можете слышать у модных и продвинутых команд. К этому инструменту подходить уже после изучения Airflow.
15. Apache Kafka

Для джунов про Кафку можно знать только общие факты. В DE её используют для процессинга данных в реальном времени. На собесах вы можете лишь рассказать теорию из видоса ниже и в целои на этом все. Далеко не во всех компаниях и командах её используют, поэтому пока достаточно просто посмотреть видос.
16. Pet Project

Все пет проекты – это на самом деле маленькие копии реальных задач. Поэтому чем глубже вы разберетесь в инструментах, тем легче и свободнее вам будет на собесе и на работе. О пет проекте вы можете рассказывать, что он был развернут у вас на предыдущем месте работы. По факту, может вы этого и не делали, но крайне рекомендую именно адаптировать хотя бы часть каких-то задач. Вам точно должно повезти! Ниже ссылка на примеры проектов:
Будет круто, если ты напишешь свой собственный проект и запушишь его к себе на github. Это сильно поможет уложить в голове многие концепции при работы с данными
17. Теоретические вопросы c собеседований

➜ Типичные вопросы с собесов на все темы
➜ Telegram Bot для подготовки к собесам
18. Резюме и Работа

Все врут. Все приукрашивают. Это сделка двух сторон. Ваша задача продать себя подороже. Задача компании купить вас подешевле, да и выбрать по способнее. По ссылке ниже читаем ЧИТ КОДЫ по поиску работы, зарплатным ожиданиям и оформлению резюме.
19. Рабочие кейсы

Вот где там могут быть проблемы? Просто перекладываем таблички.. А нет. Проблем и ошибок на самом деле больше, чем вы думаете. И хорошо, если бы задачи решались оним универскальным скриптом, но так не происходит. Ниже примеры встречающихся кейсов на работе:
20. Полезные ссылки

Почитать про Data Engineer
- Канал Я – Дата Инженер
- Все, о чем не говорят вслух про Data Engineer
- Канал Инженерообязанный | Из военки в IT
- Канал rzv Data Engineering
Найти работу
- Сайт агрегатор для Data Engineer
- Найти работу для DE Канал 1
- Найти работу для DE Канал 2
- Найти работу для DE Канал 3
- Найти работу для DE Канал 4
- Найти работу для DE Канал 5
Посмотреть про Data Engineer