Практикум по Data Engineering: сквозной ETL на Spark + Postgres + Airflow + BI

Соберёшь полноценный DE-пайплайн на своём ноутбуке:
S3-lake → Spark → DWH → Airflow → BI
Один проект, который можно показать на собеседовании.

Для тех, кто сильный в SQL, но на собесах упирается в “где пайплайны, инкременты, оркестрация и качество”.
Оставить заявку
Что у вас будет на выходе
Приватный Git-репозиторий со структурой слоёв RAW/STG/CORE/MARTS
Spark-джобы (spark-submit) с идемпотентностью и инкрементами
Airflow DAG raw→stg→core→marts (ретраи, зависимости, расписание)
витрина + простой BI-дашборд + “история проекта” как рассказывать на интервью
Как выглядит практикум внутри
  • Код и структура лежат в приватном Git-репозитории
  • Стенд поднимается локально через Docker
  • Практика — в ноутбуках и шагах README
Что вы сделаете и что положите в портфолио
Соберёте мини-кластер и DWH
  • Поднимете Docker-стенд: Spark Master + Workers, Postgres, MinIO (S3), Airflow, Jupyter
  • Научитесь проверять здоровье стенда и понимать “что сломалось” по логам
  • Артефакт: docker-compose + инструкции + скрины сервисов (Spark UI / Airflow UI / MinIO)
Построите сквозной ETL-поток
  • Разложите данные по датам загрузки и заведёте “контракт” слоёв
  • Настроите идемпотентные загрузки и инкременты
  • Будете хранить RAW/STG-артефакты в S3-лейке (MinIO), а модель и витрины — в DWH
  • Артефакт: структура слоёв + код трансформаций + проверки качества
Подключите оркестрацию в Airflow
  • Оформите пайплайн в DAG: зависимости, ретраи, расписание
  • Научитесь читать “почему упало” и чинить без магии
  • Артефакт: DAG-и + скрины графа/ранов + понятное описание пайплайна
Соберёте витрину и отчёт в BI
  • Сделаете витрину под типовые вопросы (продажи/заказы/доставка)
  • Подключите BI и соберёте простой, но честный дашборд
  • Артефакт: витрина + дашборд + “история проекта” для резюме/собеса
Стек как в проде, но на локалке
Поднимаем стенд одной командой и собираем пайплайн от S3-lake до витрины и BI.
  • Docker + docker compose
    Стенд поднимается одной командой. Учимся читать логи и чинить “не стартует”.
  • Spark 3.5 (PySpark)
    Пишем трансформации и понимаем, что происходит под капотом: explain, cache, shuffle.
  • PostgreSQL 15
    Собираем DWH-слои: CORE/MARTS, факты/измерения, инкременты. Чтобы было что обсуждать на собесе.
  • Airflow
    Оркестрация raw → stg → core → marts: зависимости, ретраи, расписание.
  • JupyterLab
    Быстрые эксперименты и проверка гипотез. Потом переносим в нормальные джобы.
  • BI
    Дашборд по витрине. Показываете результат и умеете объяснить “почему так”.
  • Git + приватный репозиторий
    Работа как в команде: структура проекта, история изменений, понятные артефакты.
  • MinIO (S3)
    Храним RAW/STG как data lake: бакеты, партиции, пути, версии загрузок.
Программа потока (8 недель)
Только то, что пройдёте и доведёте до результата.
Обновления и развитие практикума
Что будет добавляться, доступ остаётся
Модули 0 - 6 уже готовы
Модули 7 - 9 добавлю как обновления
Формат обучения
Без созвонов и видео-марафонов.
Вы спокойно проходите практикум в своём темпе, я помогаю в чате.
Пошаговые модули: читаешь - делаешь - фиксируешь артефакт
Каждый модуль — README + шаблоны SQL/скриптов + ноутбук. Не смотришь лекции, а собираешь проект.
Всё локально и приватно
Код и данные у вас на машине: Git-репо + Docker-стенд. Никакого шаринга с чужими студентами и “общих ноутбуков”.
Еженедельный план, без дедлайнов по урокам
Темп ваш, но есть маршрут: каждую неделю закрываете один блок пайплайна и двигаетесь к финалу.
Поддержка в чате
Логи контейнеров, ошибки Spark, конфиги S3A/JAR’ы, ревью ключевых решений (grain, контракт, инкремент).
В чате отвечаю в течение дня
Рекомендованный ритм: 6–8 часов в неделю. Сопровождение 8 недель, доступ к репо остаётся.
Для кого этот практикум
Практика для тех, кто хочет не только писать запросы, но и собирать полноценный ETL-поток.
  • Junior / Middle Data Engineer
    SQL уже есть, но на собесе спрашивают: “а где пайплайны, оркестрация, слои, инкременты?”
    Здесь вы соберёте проект, который закрывает этот разрыв.
  • Аналитик, который хочет в Data Engineering
    Вы сильны в SQL, но хочется “инженерной части”: загрузки, слойность, качество, витрины, запуск по расписанию.
    Пройдёте путь от файлов до витрин и поймёте, подходит ли вам роль DE.
  • Инженер, у которого «нехватает Spark»
    Если Spark и оркестрация пока ощущаются как “тёмный лес” — здесь вы разберётесь на практическом проекте, без абстрактных лекций.
Кому НЕ подойдет практикум
Не подойдет, если
  • вы вообще не знаете SQL (CTE/joins/group by ещё боль)
    .
  • вы ждёте видео и не хотите практику руками
  • вы не готовы выделять хотя бы 4–6 часов в неделю
Присоединиться к потоку
Стоимость: 30 000 ₽
Количество мест ограничено, потому что поддержку я даю лично.

После заявки я напишу вам, уточню уровень и подскажу,
с чего лучше стартовать, чтобы вы дошли до результата.
Оставить заявку
FAQ
Часто задаваемые вопросы