Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Посты Новости Авторы Компании

PoflankovaM 8 часов назад

Business intelligence и качество исходных данных

Простой

6 мин

239

IT-инфраструктура *Хранилища данных *Data Engineering *

Из песочницы

Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день.

Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики? Вложиться в жилой комплекс эконом или бизнес-класса? Какие факторы влияют на продление ДМС? Как должно работать индивидуальное автострахование?

В наши дни ты должен быть data-driven или проиграешь.

Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

AERODISK 9 часов назад

Автоматизированная настройка СХД АЭРОДИСК с помощью REST API

Средний

8 мин

212

Блог компании АЭРОДИСК Системное администрирование *IT-инфраструктура *Хранение данных *Хранилища данных *

Туториал

Привет, Хабр.

В одном из наших недавних постов мы немного затронули тему автоматизации, которую мы активно продвигаем в наших продуктах. По различным каналам мы получили много положительных откликов и дополнительных вопросов о том, как можно использовать наши API для различных интеграций.

В рейтинге наиболее популярных «хотелок» – интеграция системы хранения данных с внешними отечественными или opensource продуктами: системы мониторинга, системы управления и планирования ёмкостей или сложные автоматизированные метрокластеры с классическим набором серверов приложений, СУБД и систем виртуализации.

Решив, что краткого упоминания о REST API в системах хранения данных АЭРОДИСК явно недостаточно, в этой статье мы расскажем о том, как автоматизировать создание классических репликации, конфигурации метрокластера и управлять переключением сайтов с использованием REST API и Python. А послушать про это можно будет на вебинаре «ОколоИТ», который пройдёт 12 марта в 15:00 – регистрируйтесь по ссылке.

indmitriev 15 часов назад

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Средний

10 мин

753

Блог компании VK Блог компании Сбер Хранение данных *Хранилища данных *Hadoop *

Кейс

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

+11

qlever 1 мар в 10:58

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

9 мин

8.3K

Администрирование баз данных *Big Data *Хранение данных *Хранилища данных *

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД.

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

aleksejs1 29 фев в 08:30

Распределённые облачные системы хранения Filecoin и Storj

Простой

5 мин

777

Хранение данных *Хранилища данных *Распределённые системы *

Когда-то файлы хранили на дискетах, потом на дисках, потом на флэшках. Закончилось всё облаками. Тогда встал ряд различных вопросов по надёжности и приватности. С одной стороны можно просто доверить файлы гуглу или яндексу, но тогда о приватности можно забыть. C другой стороны можно завести собственное облачное хранилище, будь то дорогое железное решение от Synology, или оперсорсное на арендованной vps на nextcloud, но тут требуется вовлечение, что бы облако оставалось в рабочем состоянии (следить за апдейтами, своевременно обновлять оборудование, поддерживать резервное железо). Вместе с развитием блокчейна и развитием децентрализованных технологий web 3.0, появились и облачные хранилища, обещающие приватность, доступность и низкую цену. Предлагаю к рассмотрению 2 проекта, которые появились более 10 лет назад, и до сих пор существуют - Filecoin и Storj.

delaweb 27 фев в 09:47

Перенос данных из одного S3 облака в другое

Средний

8 мин

1.7K

Высокая производительность *Облачные вычисления *Хранение данных *Хранилища данных *Облачные сервисы *

Кейс

Перенос файлов от одного облачного провайдера S3 к другому должен был обойтись нам примерно в 133 000 рублей. Вместо этого, мы заплатили за него около 29 000 рублей. Как можно в 5 раз удешевить этот процесс – рассказываем в статье.

MikeSukhorukov 25 фев в 13:10

Интеллект в СКС на примере imVision CommScope

Сложный

8 мин

778

Анализ и проектирование систем *IT-инфраструктура *Хранилища данных *Сетевое оборудование Инженерные системы *

Обзор

Каким образом обеспечить автоматизацию процессов мониторинга кабельных журналов, обновлять данные в реальном времени, сократить время и ресурсы, затрачиваемые на обслуживание СКС, повысить эффективность работы с сетевым оборудованием и, соответственно, автоматизировать эксплуатацию IT-инфраструктуры?

SergeyProkhorenko 24 фев в 10:48

UUIDv7

Средний

3 мин

11K

Высокая производительность *Анализ и проектирование систем *IT-стандарты *Big Data *Хранилища данных *

Обзор

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

+13

MikeSukhorukov 23 фев в 09:46

Интеллектуальные СКС в ЦОД

Сложный

10 мин

1.6K

Обзор

В современном мире развитие дата-центров идет стремительными темпами, и одним из ключевых факторов их успешной работы является расширение оптоволоконной инфраструктуры. Это необходимо для обеспечения высокой пропускной способности и быстрого обмена большими объемами данных. В этом контексте системы автоматизированного управления инфраструктурой (AIM) становятся все более востребованными. AIM позволяют автоматизировать процесс управления оптоволоконными сетями, собирать подробную информацию о каждой составляющей сети, что, в свою очередь, обеспечивает эффективное управление и контроль над работой дата-центра.

SergeyProkhorenko 22 фев в 17:28

Как связать натуральные ключи с суррогатным в Anchor Modeling

Средний

2 мин

739

Высокая производительность *Анализ и проектирование систем *IT-стандарты *Big Data *Хранилища данных *

Аналитика

Хранить значения натуральных ключей необходимо, потому что они связывают хранимые данные с реальным миром (внешними классификаторами, реестрами и т.п.), и с ними работают бизнес-пользователи: в выпадающих списках, отчетах и дашбордах. Но в методологии Anchor Modeling для связи таблиц используются только суррогатные ключи, не подверженные изменениям, и это правильно. Поэтому нужно хранить связь натуральных ключей с суррогатным ключом, предпочтительно формата UUIDv7. Как же это сделать в методологии Anchor Modeling?

Получить ответ

ak19 21 фев в 14:40

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Простой

4 мин

1.4K

Блог компании GlowByte Big Data *Визуализация данных *Хранилища данных *

Обзор

Хабр, привет!

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.

barloc 21 фев в 11:00

Vertica Eon в K8S — 3 года развития

Средний

5 мин

535

Big Data *Хранение данных *Хранилища данных *Kubernetes *

Ретроспектива

Vertica - одна из первых широко используемых MPP баз на просторах айти ландшафта СНГ. Колоночное хранение, быстрые запросы на миллиардах строк, легендарные sort-merge джойны, которых нет больше ни у кого, позволяющие запускать свои грибницы. Но нынче на дворе 2024 год: как компания Vertica сменила уже 2 (или трех) владельцев, доступ к веб ресурсам с территории РФ ограничен, поддержка брошена, а вокруг нас процветают облака или как минимум кубернетисы во всех ипостасях.

И все же начиная с версии 10.1 компания представила интересную возможность для тех, кто уже крепко подсел на эту иглу - движок Eon. Описывая в двух словах, это та же самая по скорости база данных, но использующая общее хранилище - S3 (во всех своих ипостасях от вендорских AWS, GCS до онпрем вариантов) или HDFS. К тому же есть отличная завлекалочка - бесплатное использование кластера размером до 1 ТБ и до 3 нод вычисления. Статья является итогом тестирования технологии, и результаты тестирования какие-то не очень веселые.

nike_ilin 18 фев в 09:30

7 направлений оптимизации ClickHouse, которые помогают в BI

Средний

12 мин

8.7K

Блог компании Visiology Big Data *Визуализация данных *Хранение данных *Хранилища данных *

Кейс

Из песочницы

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации.

А что там с оптимизацией ClickHouse?

+24

Odin_Himself 17 фев в 16:50

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Средний

10 мин

4.1K

Открытые данные *Машинное обучение *Хранилища данных *Управление продуктом *

Кейс

Recovery Mode

Здравствуйте, уважаемые читатели!

В этой статье будет проведен разбор одного практического случая - попытки разместить статью на ресурсе Википедия.
Будет дано подробное описание случая и представлены очень важные комментарии от специалиста в данной области.

Присутствует интрига, кульминация и простая развязка =)

Xcom-shop 16 фев в 10:53

Побит новый рекорд емкости HDD. 30 ТБ и 400 градусов Цельсия внутри

Простой

3 мин

15K

Блог компании Группа компаний X-Com Хранение данных *Хранилища данных *Компьютерное железо Накопители

Обзор

Многие задаются вопросом, как хранить данные дома или на работе. Надо же не только установить систему на жесткий диск, но еще куда-то сложить несколько сезонов любимого сериала, фотографии друзей и родных, видео с котиками, да и для игр тоже нужно много места. А если вы работаете с большими объемами информации, то проблем становится еще больше. Но еще более требовательными являются центры обработки данных. И всем нужны большие накопители. Seagate представила самый большой жесткий диск, и его характеристики действительно впечатляют.

+12

LegatoData 15 фев в 18:32

Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями

Простой

3 мин

3.6K

SQL *Хранилища данных *Data Engineering *

Туториал

Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.

-9

artvi 15 фев в 09:00

В поисках ПАК: импортозамещаем немецкое «железо» в российском ЦОД

Средний

5 мин

4.8K

Блог компании Oxygen Cloud Platform Информационная безопасность *Виртуализация *Хранение данных *Хранилища данных *

Обзор

Привет, Хабр! Меня зовут Артем, я инженер по виртуализации в Oxygen Data Centres & Clouds. Любой облачный провайдер и оператор ЦОД может столкнуться с задачей проброса USB-портов виртуальным машинам, которым нужен доступ к определенным устройствам. И чем серьезнее требования к безопасности этих флешек – тем сложнее реализовать такое решение на практике. Сегодня я расскажу о нашем пути к выбору ПАК (программно-аппаратного комплекса) для решения задач с флешками и чем нас обрадовало найденное российское решение, когда немцы решили больше не поставлять свою технику.

+25

randall 13 фев в 14:21

Бэкапы исторических масштабов — как человечество сохраняет большие объемы данных?

Простой

7 мин

3.3K

Блог компании CloudMTS Блог компании МТС Хранение данных *Хранилища данных *Научно-популярное

Обзор

Корпоративные решения для синхронизации, резервного копирования и безопасного обмена файлами легко позволяют отправлять большие данные в облако. Но что, если нам необходимо собрать и сохранить грандиозный объем данных — например, записать историю человеческой цивилизации? Как это сделать, насколько надежны цифровые носители, есть ли конкурентноспособные альтернативы?

Сегодня поговорим о проектах, посвященных созданию массивных архивов и бэкапов, и роли систем ИИ в подобных задачах.

Читать дальше →

+12

GromovBI 8 фев в 12:53

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

Простой

6 мин

1.3K

Big Data *Хранение данных *Хранилища данных *

Обзор

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.

Hanamime 7 фев в 16:06

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Простой

5 мин

1.5K

Блог компании Сбер Хранение данных *Хранилища данных *

Обзор

По данным TAdviser, в России зафиксирован небывалый «бум» строительства ЦОДов. Схожая картина наблюдается и в остальных странах: по итогам 2022 года общий объем данных в мире составил 97 зеттабайт, в 2023 году — 110-120 зеттабайт, а к 2025 году — прогноз вплоть до 180-ти. Всю эту информацию нужно где-то обрабатывать и хранить — потребность в дата-центрах растет ежемесячно. По данным «Коммерсанта», спрос на услуги дата-центров в значительной степени превышает предложение. Именно поэтому на сферу направлено сейчас пристальное внимание, а где внимание, там и высокие технологии.

+14

2 3 ...

49 50

Хранилища данных *

Business intelligence и качество исходных данных

Новости

Автоматизированная настройка СХД АЭРОДИСК с помощью REST API

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Истории

Распределённые облачные системы хранения Filecoin и Storj

Перенос данных из одного S3 облака в другое

Интеллект в СКС на примере imVision CommScope

UUIDv7

Интеллектуальные СКС в ЦОД

Как связать натуральные ключи с суррогатным в Anchor Modeling

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Vertica Eon в K8S — 3 года развития

7 направлений оптимизации ClickHouse, которые помогают в BI

Ближайшие события

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Побит новый рекорд емкости HDD. 30 ТБ и 400 градусов Цельсия внутри

Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями

В поисках ПАК: импортозамещаем немецкое «железо» в российском ЦОД

Бэкапы исторических масштабов — как человечество сохраняет большие объемы данных?

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Вклад авторов