Big Data

KD637 вчера в 13:47

Need for speed. Пакетная обработка данных с TiSpark
- Перевод
TiSpark – это подключаемый модуль Apache Spark, который работает с платформой TiDB и отвечает на запросы сложной интерактивной аналитической обработки (OLAP). Этот плагин Spark широко используется для пакетной обработки больших объёмов данных и для получения аналитических инсайтов. Я старший архитектор решений в PingCAP и бывший разработчик TiSpark. В этом посте я объясню, как он работает и почему TiSpark лучше традиционных решений для пакетной обработки.

Приятного чтения!
- +5
- 417
- Комментировать
Новости
- Вебинар «Разворачиваем приложение на Spark в Kubernetes» 4 февраля от Mail.ru Group
  20 января 2021 в 19:00 Комментарии: 0
- «Данные в песок»: видкаст HabrPRO с директором по управлению данными 24 декабря
  23 декабря 2020 в 14:28 Комментарии: 0
- Росстат откроет бесплатный доступ бизнесу к данным о населении
  7 декабря 2020 в 10:09 Комментарии: 19
- Загляни «под капот» продуктовой розницы вместе с Х5
  25 ноября 2020 в 16:57 Комментарии: 8
- Вебинар «Технологии RFID и BLE для контроля перемещения производственных активов»
  17 ноября 2020 в 18:32 Комментарии: 0
- Вебинар «Как управляться с большими данными в облаке» 19 ноября от Mail.ru Group
  11 ноября 2020 в 09:00 Комментарии: 0
- Участники рынка больших данных в РФ хотят интегрировать данные частных компаний и ГИС
  21 октября 2020 в 12:12 Комментарии: 0
- Data Fest: трек МегаФона по data science
  3 октября 2020 в 12:45 Комментарии: 2
- Как мы провели встречи по NiFi. Видео и впечатления
  27 августа 2020 в 10:13 Комментарии: 1
- «Вымпелком» выполнит дата-майнинг своих абонентов по заказу любого клиента
  23 июля 2020 в 09:52 Комментарии: 51
Все новости
chemtech 28 января 2021 в 09:41

Безопасность hdfs hive hbase используя knox и ranger
- Информационная безопасность,
- Big Data
- Перевод
Apache HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера.
Apache Hive — система управления базами данных на основе платформы Hadoop.
Apache HBase — СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop.
Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop.
Apache Ranger – это инфраструктура для обеспечения, мониторинга и управления комплексной безопасностью данных на платформе Hadoop

Перевод поста Securing hdfs hive hbase knox ranger 2015 года. Получше и поновее поста не нашел.

Читать дальше →
- +5
- 468
- Комментировать
KD637 27 января 2021 в 13:36

Как предотвратить появление неверных данных в ваших идеальных конвейерах
- Перевод
Для команд специалистов DS сломанные конвейеры данных, шаткие информационные панели и пожарные учения в 5 часов утра – это норма, особенно потому, что рабочие процессы принимают всё больше и больше данных из разрозненных источников. Черпая вдохновение в разработке программного обеспечения, мы называем это явление простоем данных – но как упреждающе, в первую очередь предотвратить появление плохих данных?

В этой статье я поделюсь тремя ключевыми стратегиями, которыми пользуются некоторые лучшие компании Data Science, чтобы восстановить доверие к своим данным.

Приятного чтения!
- +19
- 1,3k
- Комментировать
27 января 2021 в 12:47

Разумный женский календарь: как делают приложение № 1 в категории «Здоровье и фитнес»

Big Data
Машинное обучение
Карьера в IT-индустрии
Data Engineering
Представьте, что у вас есть персональный ассистент, который работает круглые сутки, помогает следить за вашим самочувствием, рассказывает о возможных рисках для здоровья и подбирает индивидуальные рекомендации для физического и психологического благополучия. В Беларуси разрабатывают приложение Flo, которое должно стать таким помощником для женщин, и им уже пользуются 150 млн человек по всему миру. Постепенно к команде разработчиков присоединились люди из Литвы, Нидерландов, Великобритании и США. Под катом — история о том, как сделать целостное приложение о женском здоровье с искусственным интеллектом и вывести его на 1-ю строчку в категории «Здоровье и фитнес».
Читать дальше
- +19
- 4,7k
- 13
Минуточку внимания
IvanKhozyainov 27 января 2021 в 10:40

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum
Привет, Хабр!
Меня зовут Иван Хозяинов, а работаю в ITSumma, где изучаю и применяю технологии, связанные с большими данными, машинным обучением и аналитикой. В этой статье хочу рассказать о системе хранения и обработки данных и инструментах, которые встречаются на пути от сырых исходников до представления, удобного для последующего анализа.
Поговорим, как связаны серверы в дата-центре и распределенные приложения для обработки данных и почему пришлось написать свой коннектор для Spark и Greenplum.

Читать далее...
- +17
- 3,2k
- 26
Winnum 26 января 2021 в 17:16

Вебинар «Создавайте больше деталей за меньшее время, отслеживая полезное время работы станков»
- Big Data,
- Разработка для интернета вещей
- Recovery Mode
Приглашаем всех желающих посетить бесплатный вебинар. Мероприятие пройдет 2 февраля в 11:00 по московскому времени.
Мониторинг и отслеживание полезной работы оборудования играет важную роль на всех переделах производственного процесса. Для полноценного решения вопросов, связанных с оценкой эффективности производства, промышленные компании используют системы мониторинга, основанные на данных полезной работы оборудования. Эти системы помогают в технологической подготовке производства, в сокращении непроизводительных затрат, росте качества и выпуска продукции.

Читать далее
- 0
- 520
- Комментировать
cleam 26 января 2021 в 13:06

EventNative – простой инструмент для записи потока событий в ClickHouse
- Перевод
- Tutorial
Данные стали бесценным активом, позволяющим компаниям лучше понимать своих пользователей, прогнозировать их поведение и определять тренды. EventNative – проект с открытым исходным кодом, разработанный командой из Jitsu, который позволяет упростить сбор данных. EventNative поддерживает работу с несколькими хранилищами данных, и ClickHouse – одно из них.
В этой статье мы расскажем как настроить EventNative с ClickHouse, а также в ней приводятся советы по эксплуатации и повышению производительности и надежности.

Читать далее
- +9
- 1,9k
- 2
Реклама
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
chemtech 26 января 2021 в 09:41

Настройка мультинодового кластера Airflow с HDP Ambari и Celery для конвейеров данных
- Перевод
Airflow — идеальный выбор для конвейеров данных, то есть для оркестрации и планирования ETL. Он широко применяется и популярен для создания конвейеров передачи данных будущего. Он обеспечивает обратное заполнение, управление версиями и происхождение с помощью функциональной абстракции.

Функциональное программирование — это будущее.

Оператор определяет единицу в рабочем процессе, DAG — это набор Задач. Операторы обычно работают независимо, на самом деле они могут работать на совершенно двух разных машинах. Если вы инженер данных и работали с Apache Spark или Apache Drill, вы, вероятно, знаете, что такое DAG! Такая же концепция и у Airflow.

Читать дальше →
- +3
- 908
- 3
kzzzr 25 января 2021 в 16:44

Аналитический движок Amazon Redshift + преимущества Облака
Привет, Хабр!

На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:
- Основы гибких кластерных вычислений
- Колоночное хранение и компрессия данных
- Вместо индексов: ключи сегментации и сортировки
- Управление доступами, правами, ресурсами
- Интеграция с S3 или Даталейк на ровном месте
Читать дальше →
- +8
- 1k
- 14
MaxRokatansky 25 января 2021 в 16:36

Меняющаяся роль искусственного интеллекта на финансовых рынках
- Перевод
Основываясь на последних наблюдениях, можно сделать вывод, что sell-side сегмент, будет наращивать свои инвестиции в эти технологии быстрее, чем их buy-side коллеги.
Искусственный интеллект и методы машинного обучения - это технологии, способные преобразовывать бизнес и его рынки. Определение того, какую форму примут эти преобразования и как компании на финансовых рынках должны позиционировать себя, чтобы получить от них максимальную пользу, - задача непростая.
Однако в своем недавнем отчете Refinitiv удалось пролить свет на эту тему. «The rise of the data scientist», как назван этот отчет, является вторым ежегодным отчетом от группы финансовых данных и аналитики по данному сектору.

Читать далее
- +3
- 1,7k
- 2
Вакансии
Больше вакансий на Хабр Карьере
chemtech 25 января 2021 в 09:51

Как настроить мультинодовый кластер Airflow с помощью Celery и RabbitMQ
- Перевод
Что такое Airflow?

Apache Airflow — это продвинутый workflow менеджер и незаменимый инструмент в арсенале современного дата инженера.

Airflow позволяет создавать рабочие процессы в виде направленных ациклических графов (DAG) задач. Разнообразные служебные программы командной строки выполняют сложные операции на DAG. Пользовательский интерфейс легко визуализирует конвейеры, работающие в производственной среде, отслеживает ход выполнения и при необходимости устраняет неполадки.

Читать дальше →
- +7
- 1k
- 5
Nurba7182 24 января 2021 в 12:35

Кластеризация и классификация больших Текстовых данных с помощью М.О. на Java. Статья #3 — Архитектура/Результаты
Привет, Хабр! Сегодня будет продолжение темы Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Данная статья является продолжением первой и второй статьи.

Читать далее
- 0
- 923
- Комментировать
Picard 23 января 2021 в 14:39

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI
- Перевод
- Tutorial
Работать с Data Science в Jupyter, конечно, очень приятно, но если вы хотите пойти дальше и развернуть свой проект или модель на облачном сервере, то здесь есть много отличных решений — с помощью Flask, Django или Streamlit. Хотя облачные решения по-прежнему самые популярные, часто хочется создать быстрое приложение с графическим интерфейсом. Например:
- Модель ML тестируется на различных наборах данных. Вы можете перетащить файлы CSV в модель и отрисовать кривую AUS/ROC. Здесь GUI проявит себя прекрасно, правда?
- Построить случайную переменную или статистическое распределение в заданном диапазоне и динамически управлять параметрами с помощью графического интерфейса.
- Быстро запустить некоторые задачи обработки или предварительной обработки данных в наборе с помощью GUI вместо того, чтобы писать кучу кода.
В этой статье мы покажем, как создать такой графический интерфейс, потратив минимум усилий на изучение библиотеки Python.
Приятного чтения!
- +24
- 6,2k
- 10
Вопросы и ответы
Больше вопросов на Хабр Q&A;
FFelix 22 января 2021 в 00:51

Изучение data science c нуля: этапы и вехи
В соответствии с концепцией спирального подхода к обучению, о которой писал ранее, привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы не уделили обучению и в какой бы момент не остановились - у вас будет наиболее востребованный набор знаний, из возможных к освоению за такое время.

Читать далее
- +10
- 6,5k
- 8
selesnow 21 января 2021 в 10:23

Как использовать функцию UNNEST в Google BigQuery для анализа параметров событий Google Analytics
- Перевод
- Tutorial
Сегодня я расскажу о том, как использовать функцию `UNNEST` в Google BigQuery для анализа параметров событий и свойств пользователей, которые вы получаете вместе с данными Google Analytics.

Читать далее
- +1
- 601
- Комментировать
NIX_Solutions 20 января 2021 в 10:00

Реально ли big data настолько круты?
- Блог компании NIX,
- Big Data
Как собрать в прямом эфире 17 000 зрителей? Значит, рецепт такой. Берем 15 актуальных IT-направлений, зовем зарубежных спикеров, дарим подарки за активность в чате, и вуа-ля — крупнейший в Украине и восточной Европе онлайн-ивент готов. Именно так прошла ежегодная мультитул конференция NIXMultiConf.

Под слоганом «айтишникам — от айтишников» эксперты из Украины, Беларуси, России, Великобритании и Германии поделились опытом и рассказали о новинках индустрии. Полезно было всем — дизайнерам, девелоперам, тестировщикам и менеджерам. И теперь делимся инсайтами с вами.

По мотивам докладов экспертов NIX запускаем серию статей на самые актуальные темы. Начнем с хайповой — Data Engineering. Поклонник Python и Data Engineer в NIX Илья Кальченко выяснил, реально ли big data настолько круты?

Хотите узнать больше — смотрите конференцию на YouTube-канале.

Читать дальше →
- +6
- 2,9k
- Комментировать
Заказы
Больше заказов на Хабр Фрилансе
kzzzr 19 января 2021 в 14:54

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase
Привет, Хабр! Меня зовут Артемий Козырь.

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.

Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут ~~засквозило~~ понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

Читать дальше →
- +10
- 1,8k
- 8
outcoldman 19 января 2021 в 11:11

AWS Athena: GEOIP lookups
- Amazon Web Services,
- Big Data
- Перевод
- Tutorial
PS. Это перевод моей статьи на английском. Давно я не писал на Хабре. Сразу прощу прощения, много на русском не пишу. Не скажу что у меня и английский шикарный. Но к сожалению проживание за рубежом ухудшает мой русский и медленно развивает английский.
Если вы пользуетесь AWS Athena для анализа логов, то часто хочется найти источник IP адресов. К сожалению AWS Athena не предоставляет этого из коробки. К счастью MaxMind предоставляет базы данных GeoIP таблиц, которые позволяют вычислить местоположение по IP адресам. Есть платная и бесплатная версия.
В этой статье я покажу как создать AWS Lambda функцию, которая каждую неделю будет скачивать последнюю базу данных с MaxMind на S3. Эту базу данных можно использовать в AWS Athena для написания SQL запросов для анализа, например, веб логов.

Читать далее
- +3
- 363
- Комментировать
ForwardTelecom 18 января 2021 в 20:32

От появления ЭВМ до периферийных вычислений в телекоме
Edge Computing — введение в тему
С момента появления первых электронно-вычислительных машин (ЭВМ) в 40-х годах прошлого века системы обработки данных прошли огромный путь от отдельного, ненадежного и громоздкого вычислительного устройства до глобальных распределенных систем обработки больших данных (BigData) получаемых в реальном времени. Современные сетевые вычислительные системы несут в себе отпечаток предыдущего накопленного многолетнего опыта их построения и эксплуатации.
Одним из результатов исторического развития стало появление Edge Computing. Что важно знать об Edge Computing? Это не четкое определение или конкретные механизмы, а концепция, при которой часть обработки данных, критичная к скорости, выполняется на узлах, вынесенных за пределы крупных ЦОДов и размещенных перед «последней милей» или в минимальном количестве прыжков от конечного устройства-потребителя или поставщика данных. В русскоязычной среде для обозначения Edge Computing распространены два обозначения – «граничные вычисления» и «периферийные вычисления».
Рассмотрим, как произошёл переход от огромных машинных залов до периферийных вычислений на смартфонах.

Читать далее
- +5
- 907
- Комментировать
100chuk 18 января 2021 в 12:46

COVID-19 и фитнес-трекеры
Очередная свалившаяся на нашу голову напасть получает, как правило, достойный отпор в виде напряжения лучших умов и появления прогрессивных разработок.
Но иногда нечто полезное находится у нас под ногами. Или болтается на руке.
Использование фитнес-трекера помогло автору более объективно отслеживать ход заболевания COVID-19. Согласно же медицинским исследованиям, технологии, заложенные в фитнес-трекерах, могут выступать еще одним прогностическим маркером тяжести течения этого заболевания.
Автор не обладает медицинским образованием, категорически против самолечения, даже витамины пьет только по назначению врачей и в данном материале лишь делится личными пользовательскими наблюдениями, которые, возможно, могут быть полезны медицинским работникам или разработчикам медицинского ПО.

Читать далее
- +7
- 5,2k
- 33