Комментарии 14

ramil_trinion 10.02.2022 в 17:30

Данные — это основа, фундамент.
Информация — это очищенные данные, которые можно проанализировать.
Знания: как поступать на основе алгоритмов Data Science, каким образом предугадывать тренды, предотвращать аномалии и ошибки.
Мудрость — это уже не просто аналитика, это некая стратегия принятия решения.

azatyakupov 10.02.2022 в 17:52

Добрый день! Это описание пирамиды данных и знаний, которая упоминается во многих книгах, например "DAMA-DMBOK. Data Management Body of Knowledge" и "Turning TEXT into GOLD. Taxonomies and Textual Analytics" . Могу вам их порекомендовать.

ramil_trinion 10.02.2022 в 17:54

И? Ссылка на источник не добавляет смысла написанному вами. Кто то написал ерунду, а вы ее перепечатали.

azatyakupov 10.02.2022 в 19:47

Позвольте заметить, что, например, книга “Turning TEXT into GOLD. Taxonomies and Textual Analytics” написана Bill Inmon, он является отцом основателем классического Data WareHouse, и я не могу сказать, что он пишет «ерунду». Вот, пожалуйста, ссылки:
https://www.amazon.com/DAMA-DMBOK-Data-Management-Body-Knowledge/dp/1634622340/
https://www.amazon.com/Turning-Text-into-Gold-Taxonomies-ebook/dp/B01N7OK2SZ/

ramil_trinion 10.02.2022 в 20:19

Называйте его как хотите, написана ерунда.

azatyakupov 10.02.2022 в 20:44

Подскажите, что именно в пирамиде данных вы считаете ерундой? Давайте обсудим? :)

Mrk0jo 11.02.2022 в 18:24

Любопытное распределение ролей

azatyakupov 12.02.2022 в 10:05

Добрый день! Спасибо за внимание к статье :)

Xenia-Day 11.02.2022 в 18:56

Как раз изучаю DAMA DMBOK. Интересно было оценить реальный пример использования этого подхода. Спасибо за статью.

azatyakupov 12.02.2022 в 10:05

Добрый день! Спасибо, рад, что статья была вам полезна :) Успехов!

SATORI-LAB 16.02.2022 в 10:37

Ничего подобного раньше не встречал в русскоязычных статьях. Большое спасибо, Азат, что так досконально все раписали. Подскажите, пожалуйста, получается граница между Data инженерами и Инженерами использующими машинное обучение все больше размывается? Как вы думаете эти компетенции объединятся в итоге или будут также сепарированы?

azatyakupov 16.02.2022 в 13:01

Добрый день! Спасибо вам за комментарий и интересный вопрос. По моему мнению, в IT-индустрии сейчас наблюдается тенденция разделения DS и DE ролей. Более того, среди DS-специалистов можно выделить ML Engineer, Computer Vision Engineer, ML DataOps... DS-специалисты стараются работать с данными, которые «уже доставлены до их инструмента», применяя алгоритмы ML / Data Mining / etc. Но хочу отметить, что вопрос очистки / нормализации данных лежит на плечах DS, т. к. процесс исследования данных и поиска наилучшей математической модели может быть итеративным и уточняющим.

Это не говорит о том, что DS-специалисты не знают, как написать SQL или (H|C|*)QL запрос к данным или настроить Data Pipeline. Например, у нас DS-команда имеет в своем хозяйстве такие хранилища, как Cassandra / ClickHouse / PostgreSQL и моменты, связанные с данными, они делают своими силами.

Redderick 17.02.2022 в 13:24

Вопросы из угла ньюби: я, таки, правильно понял, что технически не очень большая разница какую дату обрабатывать? То есть, если есть продолжительный опыт работы с датой на уровне пользователя(операции с извлечением даты с использованием шаблона SQL, работа со специализированными интерфейсами БД, обработка даты вручную), то этот факт никаких преимуществ не даёт?

azatyakupov 17.02.2022 в 16:32

Добрый день, спасибо за вопрос)

Вообще, если подходить к категориям данных, то как раз есть разница в том, как работать с:

1) Big Data

2) ClickStream Data

3) Relational (Structured) Data

4) Unstructured / Semi-structured Data

5) Streaming Data (например, Internet of Things)

6) etc.

Знание SQL, понимание модели и структуры данных, по моему мнению, очень важно.

Data-инженер должен знать SQL (опять же, по моему мнению), так как в большинстве случаев именно с этим языком или его модификацией (не ANSI SQL я имею в виду) приходится сталкиваться в разных хранилищах и в создании ETL-процессов.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Кто такие Data-специалисты, чем они занимаются и как строится работа