Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Настоящее и будущее дата-инжиниринга

Блог компании VK Big Data *Хранилища данных *

Перевод

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы.

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.

Читать дальше →

2.5K

LiMalk 25 апреля в 11:43

Сравнение процессов ETL и ELT

Хранилища данных *

Из песочницы

Перевод

ETL означает извлечение, преобразование и загрузку. Это относится к процессу сбора данных из нескольких источников и подготовки данных для интеграции и загрузки на целевую платформу, такую как хранилище данных или аналитическая среда.

ELT аналогичен, но загружает данные в необработанном формате, оставляя преобразования для людей, чтобы они могли применить их для «самостоятельной аналитики». Оба метода являются типичными примерами развертывания конвейера данных.

Что такое ETL?

ETL (Extract, Transform, Load) — это аббревиатура автоматизированной методологии разработки конвейера данных, с помощью которой данные собираются и подготавливаются для последующего использования в аналитической среде, такой как хранилище данных.

Извлечение данных (Extract)

Извлечение данных — это первый этап процесса ETL, когда данные извлекаются из различных исходных систем. Данные могут быть полностью необработанными, например данные датчиков с устройств, или ,это неструктурированные данные из отсканированных медицинских документов или электронных писем компании. Это могут быть потоковые данные, поступающие из сети социальных сетей или транзакции покупки/продажи на фондовом рынке практически в режиме реального времени, или они могут поступать из существующих корпоративных баз данных и хранилищ данных.

Трансформация (Transform)

На этапе преобразования к данным применяются правила и процессы для их подготовки к загрузке в целевую систему. Обычно это делается в промежуточной рабочей среде, называемой «площадкой подготовки» («staging area» ). Здесь данные очищаются для обеспечения надежности и согласования для обеспечения совместимости с целевой системой. Могут быть применены многие другие преобразования, в том числе:

3.5K

Olga_Mokshina 20 апреля в 11:07

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

Блог компании VK Big Data *Хранилища данных *

Перевод

Dust-n-Rust by Spiritofdarkness

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью с советами, которые касаются общих понятий работы с пайплайнами. Неважно, какую систему управления рабочими процессами вы используете, эти идеи можно применять везде. Сам автор пользуется Apache Airflow и приводит примеры кода на ее основе.

Эта статья будет полезна не только дата-инженерам, но и дата-сайентистам, так как хороший дата-сайентист тоже понимает принципы работы пайплайнов данных.

Читать дальше →

+13

4.6K

Kecven 19 апреля в 14:29

Разработка архитектуры для чайников. Часть 3

Системы управления версиями *Управление разработкой *Хранилища данных *Микросервисы *

Recovery mode

Tutorial

Event system architecture (EDA)

Ещё одна из популярных архитектур — Event system architecture (EDA), что в переводе на русский означает “архитектура на основе событий”. Суть данной архитектуры состоит в том, что приложение работает с событиями (эвентами), которые генерируются пользователем или другими системами.

Предположим, у нас есть метод для обновления локации пользователей в нашей базе данных. В таком случае стандартный запрос будет выглядеть следующим образом:

5.9K

DaniilRoman 15 апреля в 17:59

Как мы индекс в Elasticsearch строили

Блог компании Just AI Программирование *Хранилища данных *

Всем привет! Меня зовут Данил, и мы в Just AI разрабатываем платформу для создания различных чат-ботов. И для того, чтобы максимально упростить этот процесс, а именно процесс написания сценария работы бота, мы имеем свой собственный DSL.

С его помощью можно описать поведение вашего бота, а при помощи javascript’а наполнить бота различной кастомной логикой. Разработчики ботов на платформе используют для этого нашу web IDE, которая поддерживает этот DSL.

Сценарий для бота может состоять из большого количества файлов, в которых хочется ориентироваться и искать интересующую информацию.

Давайте пару слов скажу про то, а какой поиск мы хотели получить по итогу, когда делали его? Проще говоря, такой же, как и в любой IDE, к которой мы привыкли. Чтобы можно было искать не только по частичному совпадению, но так же и по regex, и по полному совпадению слова, а так же как с учетом регистра, так и без.

4.1K

rimecode 14 апреля в 02:21

Где и как хранит данные западный бизнес?

Блог компании HOSTKEY Хранение данных *Хранилища данных *Исследования и прогнозы в IT

Мы решили поделиться результатами опроса, проведенного агентством S&P Global в начале 2022 года. Они позволяют узнать, какие поставщики систем хранения данных и какие технологии лидируют в 2022-м, кто готов сменить свою СХД и почему.

Взглянуть на рейтинги и цифры

KayserSW 13 апреля в 20:56

Совместные конфиденциальные вычисления на пальцах

Data Mining *Big Data *Хранилища данных *

В этой небольшой заметке я хочу затронуть тему совместных конфиденциальных вычислений и попробовать кратко изложить суть этих подходов и развеять несколько неоднозначностей, сложившихся в трактовке этого термина в современном информационном поле. Надеюсь получиться 🙂

Начну немного издалека, я в целом интересуюсь темой распределенной обработки данных с сохранением конфиденциальности, в частности активно смотрю на развитие такого направления, как Federated Learning. Часто попадаются статьи и материалы на эту тему, в которых наблюдаю некоторую терминологическую путаницу, тк термины Federated Learning и Confidential Computing часто используют как синонимы, но это не совсем так. Может быть я не совсем прав, но набор методов, для "обучения" (learning) и для "вычислений" вообще-то отличаются и не являются подмножеством друг друга. Поэтому в первую очередь хочу высказаться про мое понимание их фундаментальной разницы:

Olga_Mokshina 13 апреля в 11:04

Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Блог компании VK Big Data *Хранилища данных *

Перевод

Junkyard Blues by Papaya-Style

Иногда дата-сайентистам и дата-инженерам сложно понять друг друга. И тогда первые получают не те данные, а вторые занимаются непонятными или даже невыполнимыми задачами.

Команда разработки облачной платформы VK Cloud Solution перевела статью бывшего дата-инженера, которая стала дата-сайентистом. Она рассказывает, как этим специалистам прийти к взаимопониманию и эффективнее работать над общими задачами.

Читать дальше →

+14

1.6K

selenzorn 11 апреля в 12:31

Уроки пожара в дата-центре OVH: кто виноват и что делать бизнесу

Блог компании Selectel IT-инфраструктура *Хранилища данных *Энергия и элементы питания

В марте прошлого года в результате пожара во французском ЦОДе SBG2 пострадали 3,6 млн сайтов. Наконец вышел официальный отчет о происшествии, и в этом материале мы разберем, как бизнесу научиться доверять дата-центрам, а также поговорим о лучших практиках пожарной безопасности.

Читать дальше →

+42

6.9K

Legend5366 9 апреля в 17:56

Flutter: Все способы защиты данных

Разработка мобильных приложений *Dart *Хранение данных *Хранилища данных *Flutter *

Из песочницы

Как обезопасить приложение на Flutter? Все способы обеспечения безопасности данных.

Сложность: Новичок

Эта статья расскажет, какими общими способами можно защитить свое приложение от взлома или получения персональной информации третьими лицами посредством исполнения нескольких простых шагов, но стоит помнить, что нет вещей, которые невозможно взломать, все зависит лишь от потраченного времени и наличия мотивации у взломщика. Целью данной статьи является повышение безопасности любого приложения, написанного с помощью фреймворка Flutter, поэтому давайте начинать.

5.7K

Olga_Mokshina 6 апреля в 11:04

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

Блог компании VK Big Data *Хранилища данных *

Перевод

Lake Berryessa by chateaugrief

Выбор формата хранения данных при создании Data Lake влияет на производительность озера, удобство его использования и совместимость с другими инструментами.

Команда разработки Cloud Big Data от VK Cloud Solution перевела статью — сравнение трех форматов данных: Apache Hudi, Apache Iceberg и Delta Lake. Посмотрим, какие в них применяются подходы к производительности обновлений, параллелизму и совместимости, и разберем, какой формат больше подойдет под ваши задачи.

Читать дальше →

+16

1.9K

Skyhook 5 апреля в 15:35

Межкластерная репликация Apache Kafka между тремя дата-центрами

Блог компании Авито Администрирование баз данных *Apache *Хранилища данных *Микросервисы *

Я Роман Ананьев, NoSQL/Kafka-инженер в Авито. В этом материале расскажу, как мы попробовали использовать брокер сообщений Apache Kafka в трёх дата-центрах и что из этого получилось.

Сначала пробегусь по архитектуре Kafka, потому что она играет роль в репликации между кластерами. Затем коснусь самих способов репликации и расскажу о двух инструментах для неё: MirrorMaker и uReplicator. Основная часть статьи — про нашу реализацию Kafka cluster federation и то, как Kafka размазана на несколько дата-центров.

+23

5.6K

SergeyProkhorenko 3 апреля в 20:22

Встречайте UUID нового поколения для ключей высоконагруженных систем

Высокая производительность *IT-стандарты *Big Data *Хранилища данных *Распределённые системы *

✏️ Технотекст 2021

31 марта 2022 года на сайте IETF был официально размещен текст рабочего документа (копия 1, копия 2) New UUID Formats (далее – стандарт), который должен формально обновить, а фактически заменить давно устаревший и изначально ущербный RFC 4122.

В долгих и жарких спорах удалось выработать стандарт высокого качества. Можно надеяться, что этот стандарт заменит многочисленные «самоделки» энтузиастов и отдельных компаний: ULID, KSUID, CUID и т.д., а в СУБД будут встроены генераторы UUID новых форматов, предназначенных для ключей высоконагруженных систем.

+42

14K

B1nary23 31 марта в 14:18

Как оценить риски для зарубежных NGFW и выбрать схему подключения отечественного аналога

Блог компании DataLine Информационная безопасность *Хранилища данных *Облачные сервисы Сетевое оборудование

Многие наши клиенты используют для сетевой защиты популярные межсетевые экраны нового поколения (NGFW). С их помощью компании анализируют входящий и исходящий трафик, предотвращают вторжения, строят VPN-тоннели до конечных устройств и так далее. Кто-то приобретает аппаратные или виртуальные NGFW и администрирует их сам, кто-то арендует у нас ресурсы и получает NGFW как сервис.

В конце февраля западные производители аппаратного и программного обеспечения начали приостанавливать работу в России и даже полностью уходить из страны. Для рынка защиты информации это тревожная ситуация. Если вендор остановит обновления, это сведет на нет всю защиту, для которой не будет свежих патчей и сигнатур. Поэтому все владельцы зарубежных NGFW, даже с действующей поддержкой, задумались о замене или хотя бы о временном запасном варианте.

В статье на примере отечественного UTM UserGate покажу варианты страховки: от временного переключения на отечественный файрвол до полной замены NGFW.

+12

2.4K

ru_vds 31 марта в 12:00

Безопасность в компании: хоть в лоб, хоть по лбу

Блог компании RUVDS.com Информационная безопасность *Резервное копирование *Хранение данных *Хранилища данных *

Когда-нибудь ты станешь немощен и слаб —
Делай бэкап, давай делай бэкап,
На случай, если укусит радиоактивный краб —
Делай бэкап, давай делай бэкап!
_НТР

Только не так!

31 марта весь айтишный мир готовится к 1 апреля. Нет, в компаниях не разрисовывают красным кетчупом пол, не обводят мелом контуры тел, не перетыкают мышки и даже уже не заклеивают лазеры. Всё в прошлом — ну почти. Все готовятся к ненормальному дню атак и таким образом отмечают день бэкапа. И можно каждый год (месяц, день) писать про резервное копирование на Хабре, развешивать плакаты о необходимости бэкапов и инфобеза, но под клавиатурой коллеги всегда найдётся листочек с хитрым паролем qwerty123, в браузере — куча незащищённых платёжных средств, а пароль на вход в CRM и вовсе будет пустым (логин, конечно, admin). Всё потому что компаниям, особенно в секторе малого и среднего бизнеса, затраты на безопасность кажутся роскошью, а не средством выживания. А зря. Как показали панельные беседы на ЦИПР-2021, для современных злоумышленников практически нет преград, они в своём развитии могут основательно опережать средства защиты информации и IT-инфраструктуры: им даже воздушный зазор не помеха. Так вы хоть бэкап-то сделайте, а?

Читать дальше →

+37

Olga_Mokshina 30 марта в 10:54

Docker Everything Bagel: как развернуть локальный стек данных

Блог компании VK Big Data *Хранилища данных *

Перевод

Container au Havre pour les 500 ans by 0Lifea.

При разработке Open-source-проекта важно помогать пользователям и оставлять рекомендации. Но чтобы это делать, иногда нужно буквально «прочувствовать их боль»: воссоздать их рабочую среду, запустить тот же код и посмотреть на ту же ошибку. А учитывая сложность современных стеков данных, это бывает непросто.

Команда Kubernetes aaS VK Cloud Solutions перевела статью об инструменте Everything Bagel, который позволяет эффективнее работать с локальными стеками данных.

Читать дальше →

1.5K

SeagateRussia 28 марта в 15:30

Тест Seagate IronWolf Pro ST20000NE000 — флагманский HDD на 20 TB

Блог компании Seagate Хранение данных *Хранилища данных *Накопители

Seagate IronWolf Pro 20 TB ST20000NE000 стал новым флагманом компании с поддержкой NAS до 24 отсеков, он относится к шестому поколению HDD с гелиевым наполнением. Однако перехода на HAMR пока что не произошло, накопитель по-прежнему использует традиционную перпендикулярную запись. Зато число пластин увеличилось до десяти. Мы вновь провели тесты совместно с лабораторией Hardwareluxx, результатами которых спешим поделиться с читателями.

5.5K

Olga_Mokshina 23 марта в 10:54

Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark

Блог компании VK Big Data *Хранилища данных *Hadoop *

Перевод

Maksym Kaharlytsky on Unsplash

Команда VK Cloud Solutions перевела историю о том, как инженеры PayPal столкнулись с проблемой обработки данных. Если пользователю требовалось получить определенную строку или выполнить многострочный запрос, данные нужно было дублировать, а для их обработки использовать отдельный стек технологий.

Чтобы этого избежать, в PayPal разработали новую Open-source-библиотеку, которая позволяет быстрее выполнять многострочные и однострочные выборки из больших данных. Во время работы над библиотекой они создали новый формат хранения индексов Avro B-Tree и для пользователей Spark реализовали API на Scala и Python.

Читать дальше →

+15

1.4K

Viacheslav_V 22 марта в 05:00

Как скрестить Intel с Эльбрусом: Обзор новой линейки СХД АЭРОДИСК

Блог компании АЭРОДИСК Информационная безопасность *IT-инфраструктура *Хранение данных *Хранилища данных *

Всем доброго здравия! В этой статье мы проведем обзор обновленной линейки систем хранения данных АЭРОДИСК Восток-5 и АЭРОДИСК Engine-5. В новых СХД мы уделили много внимания управлению большими хранилищами в многоконтроллерных конфигурациях на разных процессорных архитектурах («Кластер хранения»), новой реализации динамических пулов хранения, оптимизированных под твердотельные носители (DDP2) и защищенному исполнению СХД для выполнения требований ФСТЭК к критичной информационной инфраструктуре (КИИ).

Также, по традиции, после статьи на Хабре мы организуем вебинар «Около-ИТ» по теме новых СХД Восток-5 и Engine-5, который пройдет 29 марта 2022 года в 14 00. На вебинаре мы подробно разберем все технические аспекты новых систем и ответим на ваши вопросы.

Зарегистрироваться на вебинар можно по ссылке.

5.2K

grigory_koval 15 марта в 15:52

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

Блог компании МТС Администрирование баз данных *Big Data *Хранение данных *Хранилища данных *

Привет, Хабр! Меня зовут Григорий Коваль, я технический руководитель Core Data Lake центра Big Data МТС. Сегодня я расскажу о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.

Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития.

Читать дальше →

+17

3.7K

2 3 ...

39 40

Хранилища данных *

Настоящее и будущее дата-инжиниринга

Новости

Сравнение процессов ETL и ELT

Четыре хитрости в работе с пайплайнами данных, о которых знают не все

Разработка архитектуры для чайников. Часть 3

Как мы индекс в Elasticsearch строили

Где и как хранит данные западный бизнес?

Совместные конфиденциальные вычисления на пальцах

Как дата-сайентистам эффективно сотрудничать с дата-инженерами

Уроки пожара в дата-центре OVH: кто виноват и что делать бизнесу

Flutter: Все способы защиты данных

Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных

Межкластерная репликация Apache Kafka между тремя дата-центрами

Встречайте UUID нового поколения для ключей высоконагруженных систем

Как оценить риски для зарубежных NGFW и выбрать схему подключения отечественного аналога

Безопасность в компании: хоть в лоб, хоть по лбу

Docker Everything Bagel: как развернуть локальный стек данных

Тест Seagate IronWolf Pro ST20000NE000 — флагманский HDD на 20 TB

Как в PayPal разработали Dione — Open-source-библиотеку индексирования данных для HDFS и Spark

Как скрестить Intel с Эльбрусом: Обзор новой линейки СХД АЭРОДИСК

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги