Обратная связь
- Умение доказать необходимость внедрения ХД.
- Умение выбрать между подходами к построению ХД по Кимбаллу и Инмону.
- Знание основных подходов к проектированию БД (OLAP, Data Vault, Anchor modeling) и умение сделать обоснованный выбор между ними.
- Умение проектировать потоки данных с помощью code-driven средств.
- Базовые навыки работы с MPP системами и Hadoop.
- Базовые знания BI-инструментах и методах анализа данных.
- Навык выбора СУБД, модели данных и ETL-инструмента адекватно задаче.
2 ДЗ (проектирование и Hadoop), коллоквиум, экзамен.
Контрольные точки
Входной контроль:
1 задача на написание SQL-запроса
1 задача по программированию
Промежуточный контроль:
Коллоквиум. Не сдавшие коллоквиум не допускаются к дальнейшим домашним заданиям и экзамену.
Финальный контроль:
Экзамен. Не сдавшие экзамен не допускаются к получению сертификата.
Иметь представление о базах данных и разбираться в терминах с ними связанных (MPP, NoSQL, key-value, column-oriented, row-oriented, etc.)
Learn SQL — https://www.codecademy.com/learn/learn-sql
Туториал по Python https://ru.wikibooks.org/wiki/Python/Учебник_Python_3.1
Цель курса — Подготовить будущих архитекторов хранилищ данных, дать студентам обширные знания в области проектирования процессов обработки больших объемов данных, научить делать обоснованный выбор архитектуры хранилища и выстраивать процесс внедрения от презентации концепции до полноценного функционирования системы.
Не секрет, что объем накопленных данных в современном мире колоссален, и те компании, которые умеют извлекать из этих данных знания и монетизировать их, всегда будут на шаг впереди конкурентов.
Однако без должного подхода к организации работы с данными, их очистке, анализу и хранению, вместо ценного ресурса накопленные данные превращаются в неконтролируемуый хаос на балансе организации.
Лекция №1
Введение, История развития БД. Входной тест.
Введение. Структура курса. История развития БД и их внутреннее устройство.
4 часа
Лекция №2
СУБД массивно-параллельной обработки (MPP). Майкл Стоунбрейкер. Классификация распределенных систем по Стоунбрейкеру. Особенности работы MPP-систем. Teradata. Vertica HP. ClickHouse. Exasol. Оптимизация запросов в MPP-системах
4 часа
Лекция №3
Понятие и назначение хранилищ данных. История развитий подходов к построению Хранилища данных. Билл Инмон. Ральф Кимбалл.
Проектирование схемы БД по схеме Data Vault, Anchor modeling.
4 часа
Семинар №1
Проектирование модели хранилища данных
Построение моделей Звезда, Data Vault и Anchor Modelling на конкретном примере.
Выдается домашнее задание по проектированию хранилищ.
4 часа
Лекция №4
Потоки данных ETL. Code-Driven ETL: Airflow
Процессы обработки потоков данных. ETL, требования к ETL. Организация потоков данных. Потоковая обработка и батч-обработка. Code-Driven ETL vs GUI-Driven ETL (проблема выбора инструмента).
Практика: Code-Driven ETL Airflow. Основные понятия, объекты и классы. Написание ETL-процессов с помощью python на airflow.
4 часа
Рубежный контроль №1
Коллоквиум по теории хранилищ и проектированию
Коллоквиум по теории хранилищ и проектированию
4 часа
Смешанное занятие №1
Hadoop и его основные компоненты: HDFS, MapReduce, YARN.
Практика на кластере: подключение к кластеру, запуск MapReduce задач.
4 часа
Смешанное занятие №2
Hadoop. Знакомство с Hive.
Практика на кластере: основы работы с Hive, запуск простых запросов.
4 часа
Смешанное занятие №3
Hadoop. Знакомство со Spark.
Практика на кластере: основы работы со Spark
Выдается домашнее задание по Hadoop.
4 часа
Лекция №5
Качество и мониторинг данных. BI-инструменты. Построение хранилища данных как проект.
Проблема качества данных. Data Quality Management и Data Governance. Тестирование данных. Поддержка и мониторинг.
Средства Business Intelligence, обзор популярных BI инструментов. Инструменты для визуализации. Методы анализа данных.
Задача построения Хранилища данных как проект. Этапы классического проекта хранилища данных. Состав команды и основные роли. Критерии успешности проекта.
4 часа