Need for speed. Пакетная обработка данных с TiSpark
- Перевод
Apache HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера.
Apache Hive — система управления базами данных на основе платформы Hadoop.
Apache HBase — СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop.
Apache KNOX — REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop.
Apache Ranger – это инфраструктура для обеспечения, мониторинга и управления комплексной безопасностью данных на платформе Hadoop
Перевод поста Securing hdfs hive hbase knox ranger 2015 года. Получше и поновее поста не нашел.
Привет, Хабр!
Меня зовут Иван Хозяинов, а работаю в ITSumma, где изучаю и применяю технологии, связанные с большими данными, машинным обучением и аналитикой. В этой статье хочу рассказать о системе хранения и обработки данных и инструментах, которые встречаются на пути от сырых исходников до представления, удобного для последующего анализа.
Поговорим, как связаны серверы в дата-центре и распределенные приложения для обработки данных и почему пришлось написать свой коннектор для Spark и Greenplum.
Приглашаем всех желающих посетить бесплатный вебинар. Мероприятие пройдет 2 февраля в 11:00 по московскому времени.
Мониторинг и отслеживание полезной работы оборудования играет важную роль на всех переделах производственного процесса. Для полноценного решения вопросов, связанных с оценкой эффективности производства, промышленные компании используют системы мониторинга, основанные на данных полезной работы оборудования. Эти системы помогают в технологической подготовке производства, в сокращении непроизводительных затрат, росте качества и выпуска продукции.
Данные стали бесценным активом, позволяющим компаниям лучше понимать своих пользователей, прогнозировать их поведение и определять тренды. EventNative – проект с открытым исходным кодом, разработанный командой из Jitsu, который позволяет упростить сбор данных. EventNative поддерживает работу с несколькими хранилищами данных, и ClickHouse – одно из них.
В этой статье мы расскажем как настроить EventNative с ClickHouse, а также в ней приводятся советы по эксплуатации и повышению производительности и надежности.
Airflow — идеальный выбор для конвейеров данных, то есть для оркестрации и планирования ETL. Он широко применяется и популярен для создания конвейеров передачи данных будущего. Он обеспечивает обратное заполнение, управление версиями и происхождение с помощью функциональной абстракции.
Функциональное программирование — это будущее.
Оператор определяет единицу в рабочем процессе, DAG — это набор Задач. Операторы обычно работают независимо, на самом деле они могут работать на совершенно двух разных машинах. Если вы инженер данных и работали с Apache Spark или Apache Drill, вы, вероятно, знаете, что такое DAG! Такая же концепция и у Airflow.
Привет, Хабр!
На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:
Основываясь на последних наблюдениях, можно сделать вывод, что sell-side сегмент, будет наращивать свои инвестиции в эти технологии быстрее, чем их buy-side коллеги.
Искусственный интеллект и методы машинного обучения - это технологии, способные преобразовывать бизнес и его рынки. Определение того, какую форму примут эти преобразования и как компании на финансовых рынках должны позиционировать себя, чтобы получить от них максимальную пользу, - задача непростая.
Однако в своем недавнем отчете Refinitiv удалось пролить свет на эту тему. «The rise of the data scientist», как назван этот отчет, является вторым ежегодным отчетом от группы финансовых данных и аналитики по данному сектору.
Что такое Airflow?
Apache Airflow — это продвинутый workflow менеджер и незаменимый инструмент в арсенале современного дата инженера.
Airflow позволяет создавать рабочие процессы в виде направленных ациклических графов (DAG) задач. Разнообразные служебные программы командной строки выполняют сложные операции на DAG. Пользовательский интерфейс легко визуализирует конвейеры, работающие в производственной среде, отслеживает ход выполнения и при необходимости устраняет неполадки.
Привет, Хабр! Сегодня будет продолжение темы Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. Данная статья является продолжением первой и второй статьи.
В соответствии с концепцией спирального подхода к обучению, о которой писал ранее, привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы не уделили обучению и в какой бы момент не остановились - у вас будет наиболее востребованный набор знаний, из возможных к освоению за такое время.
Сегодня я расскажу о том, как использовать функцию `UNNEST` в Google BigQuery для анализа параметров событий и свойств пользователей, которые вы получаете вместе с данными Google Analytics.
Привет, Хабр! Меня зовут Артемий Козырь.
За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.
Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут засквозило понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.
PS. Это перевод моей статьи на английском. Давно я не писал на Хабре. Сразу прощу прощения, много на русском не пишу. Не скажу что у меня и английский шикарный. Но к сожалению проживание за рубежом ухудшает мой русский и медленно развивает английский.
Если вы пользуетесь AWS Athena для анализа логов, то часто хочется найти источник IP адресов. К сожалению AWS Athena не предоставляет этого из коробки. К счастью MaxMind предоставляет базы данных GeoIP таблиц, которые позволяют вычислить местоположение по IP адресам. Есть платная и бесплатная версия.
В этой статье я покажу как создать AWS Lambda функцию, которая каждую неделю будет скачивать последнюю базу данных с MaxMind на S3. Эту базу данных можно использовать в AWS Athena для написания SQL запросов для анализа, например, веб логов.
Edge Computing — введение в тему
С момента появления первых электронно-вычислительных машин (ЭВМ) в 40-х годах прошлого века системы обработки данных прошли огромный путь от отдельного, ненадежного и громоздкого вычислительного устройства до глобальных распределенных систем обработки больших данных (BigData) получаемых в реальном времени. Современные сетевые вычислительные системы несут в себе отпечаток предыдущего накопленного многолетнего опыта их построения и эксплуатации.
Одним из результатов исторического развития стало появление Edge Computing. Что важно знать об Edge Computing? Это не четкое определение или конкретные механизмы, а концепция, при которой часть обработки данных, критичная к скорости, выполняется на узлах, вынесенных за пределы крупных ЦОДов и размещенных перед «последней милей» или в минимальном количестве прыжков от конечного устройства-потребителя или поставщика данных. В русскоязычной среде для обозначения Edge Computing распространены два обозначения – «граничные вычисления» и «периферийные вычисления».
Рассмотрим, как произошёл переход от огромных машинных залов до периферийных вычислений на смартфонах.
Очередная свалившаяся на нашу голову напасть получает, как правило, достойный отпор в виде напряжения лучших умов и появления прогрессивных разработок.
Но иногда нечто полезное находится у нас под ногами. Или болтается на руке.
Использование фитнес-трекера помогло автору более объективно отслеживать ход заболевания COVID-19. Согласно же медицинским исследованиям, технологии, заложенные в фитнес-трекерах, могут выступать еще одним прогностическим маркером тяжести течения этого заболевания.
Автор не обладает медицинским образованием, категорически против самолечения, даже витамины пьет только по назначению врачей и в данном материале лишь делится личными пользовательскими наблюдениями, которые, возможно, могут быть полезны медицинским работникам или разработчикам медицинского ПО.