Хранилища данных *

Публикации, рассказывающие о хранилищах данных

dynamicsun 22 сентября в 16:16

Как бизнесу выбрать базу данных под свой проект

Из песочницы

Бизнес любого направления деятельности сопровождается сбором, обработкой и анализом большого объема информации. Он начинается с интернет-продаж, где необходимо повышение конверсии, и платежных сервисов с обработкой транзакций и заканчивается крупными производственными концернами, где прогнозируется простой техники, загруженность маршрутов транспорта и выполняется масса других задач, деятельность связана с хранением и структурированием профильных данных.

Создание базы данных для предприятия – ключевая задача уже на начальном этапе работы. По мере развития бизнеса количество задач, связанных с обработкой информации, возрастает. Если фирма планирует создать надежную, стабильно работающую IT-инфраструктуру, удовлетворяющую все профильные потребности, приходится выбирать один из двух способов решения задачи:

-6

2.1K

Denactive 22 сентября в 14:19

Развертываем облачное хранилище NextCloud AIO на Windows в Docker для дома

Системное администрирование *Nginx *Apache *Хранилища данных *Облачные сервисы *

Tutorial

Пробуем поставить Opensource облачное хранилище NextCloud для повседневного пользования на домашний компьютер с ОС Windows. Подробный гайд.

В этой статье:
Анализ целесообразности развертывания облака дома. Поэтапная настройка. Проблемы и технические решения. Плюсы и минусы NextCloud. Запуск NextCloud в Docker. Подробный разбор параметров контейнера NextCloud AIO. VPN-тоннель домой с использованием сервиса Hamachi. Обход проблемы отсутствия белого ip. Настройка reverse-proxy на базе Nginx, Apache или Caddy. Запуск HTTPS-сервера на домашнем компьютере. Получение SSL-сертификата с помощью сервиса letsencrypt. Краткий разбор форматов SSL-сертификатов. Настройка файервола в Windows.

2.2K

Olga_Mokshina 21 сентября в 10:36

Everything Bagel, часть II: версионные таблицы озера данных в lakeFS и Trino

Блог компании VK Big Data *Хранилища данных *DevOps *Kubernetes *

Перевод

Команда VK Cloud уже переводила статью о том, как развернуть локальный стек данных с помощью инструмента Everything Bagel. Теперь переводим вторую часть, в которой на практике разбираем, как выполнять запросы к разветвленным данным lakeFS через механизм распределенных запросов Trino.

Читать дальше →

343

neoflex 16 сентября в 10:48

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

Блог компании Neoflex Анализ и проектирование систем *Big Data *Хранилища данных *Облачные сервисы *

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

1.9K

dataline 15 сентября в 08:53

На востоке растут облака: новосибирский дата-центр «Ростелеком-ЦОД» сегодня

Блог компании DataLine IT-инфраструктура *Хранение данных *Хранилища данных *Инженерные системы *

Нашему ЦОДу в Новосибирске исполнилось полтора года. За это время в дата-центре выросла зона доступности облака DataLine для заказчиков из Сибири и Дальнего Востока, а также появились новые услуги. Сейчас в новосибирском облаке размещаются почтовые сервисы, облачные диски клиентов, объектные хранилища, сервисы DBaaS, Kubernetes, сервисы ИБ, DR-площадки и резервные копии.

В фоторепортаже из Новосибирска посмотрим, как работает дата-центр сегодня.

Погулять по ЦОДу

+13

1.6K

Swizbiz 9 сентября в 14:36

Готовим приватные репозитории с помощью Artipie

Open source *Java *IT-инфраструктура *Хранилища данных *DevOps *

Из песочницы

Tutorial

Многочисленные санкционные ограничения могут стать преградой для использования существующих систем управления бинарными репозиториями, например, при приобретении необходимых лицензий. Таким образом, альтернатива существующим инструментам может сыграть положительную роль при организации работы с артефактами организации.

Artipie - это бесплатный менеджер бинарных репозиториев с открытым исходным кодом, поддерживающий все основные форматы пакетов и артефактов, который позволяет размещать их локально или в облачном хранилище.

Заготовить репозитории на "зиму"

1.6K

SashaGeo 7 сентября в 16:52

Особенности бинарных систем в Notion на примере Zettelkasten

Интерфейсы *Хранение данных *Хранилища данных *

Из песочницы

Статья описывает особенности настройки фильтрации шаблонов записей в базу данных Notion в бинарной системе Zetteskastena

1.7K

steelsho 7 сентября в 11:51

Как объединить два корпоративных хранилища так, чтобы не перессориться со всеми

Блог компании Газпромбанк Хранение данных *Хранилища данных *

Корпоративное хранилище в ГПБ существует с девяностых. Тогда оно создавалось исключительно под задачи регуляторной и текущей отчетности. Соответственно и архитектура была такой, чтобы соответствовать требованиям этих задач

Изначально мы использовали SAP ASE. В нем была реализована довольно сложная бизнес-логика, и все работало довольно неплохо, но старая система не потянула бы расширение, не хватало производительности. Также были пробелы и в документировании — из-за огромного легаси, о котором даже спросить было некого.

По мере развития IT-ландшафта и появления новых систем, росли требования заказчиков, ставились новые задачи. В 2009 году стало понятно, что надо менять подход к работе с КХД, аналитическую платформу и инструменты по работе с хранилищем. Выбрали новые: SAP IQ, а в качестве «интеллекта» — DataStage (тогда он еще не принадлежал IBM).

Перед командой стояла задача создать объединенное хранилище данных, не порушив при этом работу всех систем. Эта история о том, как команда Газпромбанка сумела незаметно перетащить потребителей со старого хранилища на новое.

1.2K

Olga_Mokshina 31 августа в 12:03

15 самых распространенных проблем с качеством данных (и способы их решения)

Блог компании VK Big Data *Машинное обучение *Хранилища данных *DevOps *

Перевод

Команда VK Cloud перевела статью о 15 самых популярных проблемах с Data Quality и способах их смягчения или даже полного избегания.

1. Неполные данные

Эта проблема самая распространенная. При ее возникновении в ключевых столбцах не хватает информации, либо содержатся неправильно выполненные задания ETL или данные, которые негативно влияют на дальнейшую аналитику.

Решение. Внедрить контроль фреймворка для сверки данных. Он проверяет число записей, поступающих на разные уровни аналитики, и отправляет оповещение, если на каком-то уровне записей стало меньше.

Читать дальше →

+22

4.9K

X5RetailGroup 29 августа в 12:52

SAP CAR: миграция чекового хранилища

Блог компании X5 Tech ERP-системы *Хранилища данных *

Привет, Хабр! Сегодня мы решили рассказать вам про очень значимую для Х5 систему и то, как мы искали ей замену.

Система SAP POS DM обеспечивала нашу торговую операционную деятельность более 10 лет. В последнее время она перестала развиваться и теперь полностью снимается с поддержки. Рассказываем, как наши центры экспертизы по продуктам SAP реализовали проект по миграции функционала чекового хранилища на современное решение.

-1

1.3K

Olga_Mokshina 26 августа в 10:02

От сбора до использования: как повысить Data Quality на всех этапах работы с данными

Блог компании VK Big Data *Машинное обучение *Хранилища данных *DevOps *

Перевод

Представьте, что у вас только что появилось классное озеро данных с прикольными пайплайнами, которые собирают данные со всей компании. А теперь представьте свой шок, когда команды бизнес-специалистов поймут, что в озере данных — не данные, а мусор.

Команда VK Cloud перевела статью о том, как следить за данными на каждом этапе и повысить их качество для грамотного использования.

Читать дальше →

1.6K

avshkol 23 августа в 23:54

Все, что вам нужно знать об Airflow DAGs, ч.3.1 — Создание шаблонов

Python *PostgreSQL *Apache *Хранилища данных *Data Engineering *

Перевод

Все об использовании шаблонов в Airflow с примерами кода. Продолжение серии публикаций astronomer.io

-1

1.3K

avshkol 21 августа в 00:15

Все, что вам нужно знать об Airflow DAGs, ч.3 — Проектирование DAG

Python *PostgreSQL *Apache *Хранилища данных *Data Engineering *

Поскольку Airflow — это на 100% код, знание основ Python - это все, что нужно, чтобы начать писать DAG. Однако написание эффективных, безопасных и масштабируемых DAG требует учета некоторых моментов, специфичных для Airflow. В этом разделе мы рассмотрим некоторые передовые методы разработки DAG, которые максимально используют возможности Airflow.

В целом, большинство лучших практик, которые мы здесь рассматриваем, относятся к одной из двух категорий:

-3

2.3K

avshkol 15 августа в 22:01

Все, что вам нужно знать об Airflow DAGs, ч.2 — Операторы и Датчики

Python *PostgreSQL *Apache *Хранилища данных *Data Engineering *

Перевод

Tutorial

Операторы являются основными строительными блоками DAG Airflow. Это классы, которые содержат логику выполнения единичной работы.

Вы можете использовать операторы в Airflow, создав их экземпляры в задачах. Задача определяет работу, выполняемую оператором в контексте DAG.

Чтобы просмотреть и выполнить поиск по всем доступным операторам в Airflow, посетите Astronomer Registry. Ниже приведены примеры операторов, которые часто используются в проектах Airflow.

2.1K

avshkol 15 августа в 01:06

Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания

Python *PostgreSQL *Apache *Хранилища данных *Data Engineering *

Перевод

Tutorial

Полное руководство по созданию DAG в Apache Airflow DAG, позволяющих создать конвейер данных из разных источников, запускаемый в определенные периоды времени с заданной логикой. Первая часть. Источник: DAGs: The Definitive Guide от astronomer.io

Добро пожаловать в полное руководство по Apache Airflow DAG, представленное командой Astronomer. Эта электронная книга охватывает все, что вам нужно знать для работы с DAG, от строительных блоков, из которых они состоят, до рекомендаций по их написанию, динамической генерации, тестированию, отладке и многому другому. Это руководство, написанное практикующими для практикующих.

3.9K

kvaps 12 августа в 10:28

LINSTOR — это как Kubernetes, но для блочных устройств (обзор и видео доклада)

Блог компании Флант Open source *Хранилища данных *DevOps *Kubernetes *

В июне я выступил на объединенной конференции DevOpsConf & TechLead Conf 2022. Доклад был посвящен LINSTOR — Open Source-хранилищу от компании LINBIT (разработчики DRBD). Основной идеей выступления было показать [на примере Kubernetes], как работает и устроен LINSTOR, какие проблемы решает, как его правильно настроить и использовать. Эта статья — основная выжимка из доклада (его полное видео см. в конце).

+37

Artem3213212 11 августа в 17:01

Создаём своё объектное хранилище за чаc

Блог компании VK Хранилища данных *Tarantool *

Привет! Меня зовут Артем Гаврилов и я работаю в Tarantool. Сегодня я расскажу, как быстро создать объектное хранилище на основе платформы in-memory вычислений Tarantool и распределённой файловой системы IPFS (InterPlanetary File System).

Мы рассмотрим пример шардирования стороннего приложения с помощью Tarantool и сделаем MVP объектного хранилища с отказоустойчивостью на уровне ЦОДа, в то время как более простые решения отказоустойчивы только на уровне нескольких серверов.

Тем, кто знаком с IPFS, вероятно, будет интересно читать начиная с раздела «С чем мы столкнёмся».

Читать дальше →

+38

5.6K

Cloud4Y 8 августа в 14:36

Хранение и управление доступом на данные в хранилище S3

Блог компании Cloud4Y Программирование *Хранилища данных *DevOps *Облачные сервисы *

Привет! Сегодня хотим рассказать о, как использовать бакеты, хранить данные, настраивать политики и управлять доступом на данные при работе c объектным хранилищем S3.

+12

2.1K

kvaps 5 августа в 10:11

Снапшоты в Kubernetes: что это и как ими пользоваться

Блог компании Флант Системное администрирование *Хранилища данных *DevOps *Kubernetes *

С появлением snapshot-controller в Kubernetes появилась возможность создавать снапшоты для совместимых с ними CSI-драйверов и облачных провайдеров.

Как и всё в Kubernetes, имплементация API является универсальной и не зависит от какого-либо вендора, что позволяет нам рассмотреть данный функционал в общем порядке. Как же устроены снапшоты и какую пользу они могут принести пользователям Kubernetes?

Читать дальше →

+30

4.3K

Mikhail_nmv 4 августа в 11:52

SDS vs традиционные СХД: почему мы редко применяем программно-определяемые хранилища?

Блог компании Oxygen Cloud Platform Виртуализация *Хранение данных *Хранилища данных *

Хранение данных — непростая задача, особенно когда к ним нужно обеспечить бесперебойный доступ. И сегодня мне хотелось бы поговорить о гиперконвергентных системах и связанных с ними программно-определяемых хранилищах, позволяющих использовать накопители в стандартных серверах х86 из того же кластера, что и вычислительные узлы. Чтобы не разводить холивара, сразу скажу, что в этом посте не будет глубокого технического разбора той или иной системы. Мы поговорим об архитектуре и особенностях ее применения в ЦОДе.

Итак, используем ли мы гиперконвергенцию в ЦОД Oxygen? Да, конечно. Будем ли мы рекомендовать ее для широкого спектра задач? Нет, не будем. Почему — подробнее разбираемся под катом.

Узнать, кто победил в неравном бою

+17

2.4K

2 3 ...

42 43

Хранилища данных *

Как бизнесу выбрать базу данных под свой проект

Новости

Развертываем облачное хранилище NextCloud AIO на Windows в Docker для дома

Everything Bagel, часть II: версионные таблицы озера данных в lakeFS и Trino

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

На востоке растут облака: новосибирский дата-центр «Ростелеком-ЦОД» сегодня

Готовим приватные репозитории с помощью Artipie

Особенности бинарных систем в Notion на примере Zettelkasten

Как объединить два корпоративных хранилища так, чтобы не перессориться со всеми

15 самых распространенных проблем с качеством данных (и способы их решения)

1. Неполные данные

SAP CAR: миграция чекового хранилища

От сбора до использования: как повысить Data Quality на всех этапах работы с данными

Все, что вам нужно знать об Airflow DAGs, ч.3.1 — Создание шаблонов

Все, что вам нужно знать об Airflow DAGs, ч.3 — Проектирование DAG

Все, что вам нужно знать об Airflow DAGs, ч.2 — Операторы и Датчики

Все, что вам нужно знать об Airflow DAGs, ч.1 — Основы и расписания

LINSTOR — это как Kubernetes, но для блочных устройств (обзор и видео доклада)

Создаём своё объектное хранилище за чаc

Хранение и управление доступом на данные в хранилище S3

Снапшоты в Kubernetes: что это и как ими пользоваться

SDS vs традиционные СХД: почему мы редко применяем программно-определяемые хранилища?

Вклад авторов