Проектирование хранилищ больших объемов данных

Длительность
  • 11 занятий
  • 44 ак. часов
Курс преподают
  • Екатерина Колпакова Екатерина Колпакова
  • Денис Корнилов Денис Корнилов
  • Максим Лосников Максим Лосников
  • Артур Чакветадзе Артур Чакветадзе
  • Дарья Лермонтова Дарья Лермонтова
Получаемые навыки

- Умение доказать необходимость внедрения ХД.
- Умение выбрать между подходами к построению ХД по Кимбаллу и Инмону.
- Знание основных подходов к проектированию БД (OLAP, Data Vault, Anchor modeling) и умение сделать обоснованный выбор между ними.
- Умение проектировать потоки данных с помощью code-driven средств.
- Базовые навыки работы с MPP системами и Hadoop.
- Базовые знания BI-инструментах и методах анализа данных.
- Навык выбора СУБД, модели данных и ETL-инструмента адекватно задаче.

Контроль знаний

2 ДЗ (проектирование и Hadoop), коллоквиум, экзамен.

Контрольные точки

Входной контроль:
1 задача на написание SQL-запроса
1 задача по программированию
Промежуточный контроль:
Коллоквиум. Не сдавшие коллоквиум не допускаются к дальнейшим домашним заданиям и экзамену.
Финальный контроль:
Экзамен. Не сдавшие экзамен не допускаются к получению сертификата.

Требования

Иметь представление о базах данных и разбираться в терминах с ними связанных (MPP, NoSQL, key-value, column-oriented, row-oriented, etc.)

Материалы для подготовки

Learn SQL — https://www.codecademy.com/learn/learn-sql 
Туториал по Python https://ru.wikibooks.org/wiki/Python/Учебник_Python_3.1

Цель курса — Подготовить будущих архитекторов хранилищ данных, дать студентам обширные знания в области проектирования процессов обработки больших объемов данных, научить делать обоснованный выбор архитектуры хранилища и выстраивать процесс внедрения от презентации концепции до полноценного функционирования системы.

Не секрет, что объем накопленных данных в современном мире колоссален, и те компании, которые умеют извлекать из этих данных знания и монетизировать их, всегда будут на шаг впереди конкурентов.
Однако без должного подхода к организации работы с данными, их очистке, анализу и хранению, вместо ценного ресурса накопленные данные превращаются в неконтролируемуый хаос на балансе организации.

Лекция №1

Введение, История развития БД. Входной тест.

4 часа

Лекция №2

MPP-системы

4 часа

Лекция №3

Проектирование хранилищ

4 часа

Семинар №1

Проектирование модели хранилища данных

4 часа

Лекция №4

Потоки данных ETL. Code-Driven ETL: Airflow

4 часа

Рубежный контроль №1

Коллоквиум по теории хранилищ и проектированию

4 часа

Смешанное занятие №1

Hadoop. Основные компоненты

4 часа

Смешанное занятие №2

Hadoop. Hive

4 часа

Смешанное занятие №3

Hadoop. Spark

4 часа

Лекция №5

Качество и мониторинг данных. BI-инструменты. Построение хранилища данных как проект.

4 часа

Экзамен №1

Экзамен

4 часа


© Mail.ru Group, 2011–2020

Обратная связь

Присоединяйся:

Группа ВКонтакте
  • Дизайн:
    Nimax
  • Разработка:
    Лаборатория
    Технопарка
Версия портала - 5.45.16