Практикум по Data Engineering: сквозной ETL на Spark + Postgres + Airflow + BI

От сырых файлов до витрин и BI. Стек: Postgres, Spark, Airflow, S3/MinIO, Jupyter.

• Старт: 23 июня 2026
• Стоимость 35 000 ₽.
• Мест ограничено (личная поддержка)

Оставить заявку

Делаю практику, которую решают

Автор курсов на Stepik: ★4.9/5 • 2300+ студентов
Номинант Stepik Awards 2025 «Лучшая система практических заданий»

Что у вас будет на выходе

Приватный Git-репозиторий со структурой слоёв RAW/STG/CORE/MARTS

Spark-джобы (spark-submit) с идемпотентностью и инкрементами

витрина + простой BI-дашборд + “история проекта” как рассказывать на интервью

Как выглядит практикум внутри

Код и структура лежат в приватном Git-репозитории
Стенд поднимается локально через Docker
Практика — в ноутбуках и шагах README

Стек как в проде, но на локалке

Поднимаем стенд одной командой и собираем пайплайн от S3-lake до BI.

Docker + docker compose

Стенд поднимается одной командой. Учимся читать логи и чинить “не стартует”.
Spark 3.5 (PySpark)

Пишем трансформации и понимаем, что происходит под капотом: explain, cache, shuffle.
PostgreSQL 15

Собираем DWH-слои: CORE/MARTS, факты/измерения, инкременты. Чтобы было что обсуждать на собесе.
Airflow

Оркестрация raw → stg → core → marts: зависимости, ретраи, расписание.
JupyterLab

Быстрые эксперименты и проверка гипотез. Потом переносим в нормальные джобы.
Git + приватный репозиторий

Работа как в команде: структура проекта, история изменений, понятные артефакты.
MinIO (S3)

Храним RAW/STG как data lake: бакеты, партиции, пути, версии загрузок.
Metabase

Дашборд по витрине. Показываете результат и умеете объяснить “почему так”.

Что вы сделаете и что положите в портфолио

Соберёте мини-кластер и DWH

Поднимете Docker-стенд: Spark Master + Workers, Postgres, MinIO (S3), Airflow, Jupyter
Научитесь проверять здоровье стенда и понимать “что сломалось” по логам
Артефакт: docker-compose + инструкции + скрины сервисов (Spark UI / Airflow UI / MinIO)

Построите сквозной ETL-поток

Разложите данные по датам загрузки и заведёте “контракт” слоёв
Настроите идемпотентные загрузки и инкременты
Будете хранить RAW/STG-артефакты в S3-лейке (MinIO), а модель и витрины — в DWH
Артефакт: структура слоёв + код трансформаций + проверки качества

Подключите оркестрацию в Airflow

Оформите пайплайн в DAG: зависимости, ретраи, расписание
Научитесь читать “почему упало” и чинить без магии
Артефакт: DAG-и + скрины графа/ранов + понятное описание пайплайна

Соберёте витрину и отчёт в BI

Сделаете витрину под типовые вопросы (продажи/заказы/доставка)
Подключите BI и соберёте простой, но честный дашборд
Артефакт: витрина + дашборд + “история проекта” для резюме/собеса

Программа потока

Только то, что пройдёте и доведёте до результата.

поднимаем стенд docker compose up и проверяем сервисы (Spark UI, Airflow, Postgres, MinIO)
учимся читать логи контейнеров и находить причину “не стартует”
базовая настройка .env и проверка доступа по портам
быстрый чек-лист “диагностика стенда” (типовые поломки)
Артефакт: рабочий docker-compose.yml + инструкции + скрины UI сервисов

Формат обучения

Без созвонов и видео-марафонов.
Вы спокойно проходите практикум в своём темпе, я помогаю в чате.

Пошаговые модули: читаешь - делаешь - фиксируешь артефакт

Каждый модуль — README + шаблоны SQL/скриптов + ноутбук. Не смотришь лекции, а собираешь проект.

Всё локально и приватно

Код и данные у вас на машине: Git-репо + Docker-стенд. Никакого шаринга с чужими студентами и “общих ноутбуков”.

Еженедельный план, без дедлайнов по урокам

Темп ваш, но есть маршрут: каждую неделю закрываете один блок пайплайна и двигаетесь к финалу.

Поддержка в чате

Логи контейнеров, ошибки Spark, конфиги S3A/JAR’ы, ревью ключевых решений (grain, контракт, инкремент).

В чате отвечаю в течение дня

Рекомендованный ритм: 6–8 часов в неделю. Сопровождение 8 недель, доступ к репо остаётся.

Для кого этот практикум

Практика для тех, кто хочет не только писать запросы, но и собирать полноценный ETL-поток.

Junior / Middle Data Engineer

SQL уже есть, но на собесе спрашивают: “а где пайплайны, оркестрация, слои, инкременты?”
Здесь вы соберёте проект, который закрывает этот разрыв.
Аналитик, который хочет в Data Engineering

Вы сильны в SQL, но хочется “инженерной части”: загрузки, слойность, качество, витрины, запуск по расписанию.
Пройдёте путь от файлов до витрин и поймёте, подходит ли вам роль DE.
Инженер, у которого «нехватает Spark»

Если Spark и оркестрация пока ощущаются как “тёмный лес” — здесь вы разберётесь на практическом проекте, без абстрактных лекций.

Кому НЕ подойдет практикум

Не подойдет, если

SQL пока “с нуля”

Если CTE, JOIN и GROUP BY пока даются с болью, практикум будет слишком быстрым. Тут SQL уже должен быть уверенной базой, иначе вы утонете в деталях.
Вы ищете формат “посмотреть видео”

Здесь упор на практику руками: окружение, запуск пайплайнов, разбор ошибок. Если вы хотите просто смотреть лекции без самостоятельных шагов, не зайдёт.
Нет времени на регулярную практику

Чтобы был результат, нужно стабильно выделять хотя бы 4–6 часов в неделю. Если сейчас нет такого слота, лучше отложить, чем бросить на середине.

Присоединиться к потоку

Старт потока - 23 июня 2026.
Стоимость - 35 000 ₽.

На Stepik: 40+ участников. (страница курса)
Мои курсы на Stepik: ★4.9/5 • 2300+ студентов
Stepik Awards 2025: номинация «Лучшая система практических заданий»

Оставляете заявку (2 минуты)
Я отвечаю в течение дня, сверяем уровень и окружение
Даю доступ к приватному репо + стартовый чек-лист, чтобы быстро стартовать

Оставить заявку

FAQ

Часто задаваемые вопросы

Не нашли ответ?
Напишите в Telegram — отвечаю в течение дня.

Написать в Telegram

Дмитрий Кузьмин | С любовью к данным

Наверх