Как стать автором
Обновить
38.19

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга
Уровень сложности

Business intelligence и качество исходных данных

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 239

Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день.

Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики?  Вложиться в жилой комплекс эконом или бизнес-класса?    Какие факторы влияют на продление ДМС?  Как должно работать индивидуальное автострахование?

В наши дни ты должен быть data-driven или проиграешь.

Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 0

Новости

Автоматизированная настройка СХД АЭРОДИСК с помощью REST API

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 212

Привет, Хабр.

В одном из наших недавних постов мы немного затронули тему автоматизации, которую мы активно продвигаем в наших продуктах. По различным каналам мы получили много положительных откликов и дополнительных вопросов о том, как можно использовать наши API для различных интеграций.

В рейтинге наиболее популярных «хотелок» – интеграция системы хранения данных с внешними отечественными или opensource продуктами: системы мониторинга, системы управления и планирования ёмкостей или сложные автоматизированные метрокластеры с классическим набором серверов приложений, СУБД и систем виртуализации.

Решив, что краткого упоминания о REST API в системах хранения данных АЭРОДИСК явно недостаточно, в этой статье мы расскажем о том, как автоматизировать создание классических репликации, конфигурации метрокластера и управлять переключением сайтов с использованием REST API и Python. А послушать про это можно будет на вебинаре «ОколоИТ», который пройдёт 12 марта  в 15:00 – регистрируйтесь по ссылке.

Читать далее
Рейтинг 0
Комментарии 0

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 753

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 2

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Время на прочтение 9 мин
Количество просмотров 8.3K

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД. 

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 5

Истории

Распределённые облачные системы хранения Filecoin и Storj

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 777

Когда-то файлы хранили на дискетах, потом на дисках, потом на флэшках. Закончилось всё облаками. Тогда встал ряд различных вопросов по надёжности и приватности. С одной стороны можно просто доверить файлы гуглу или яндексу, но тогда о приватности можно забыть. C другой стороны можно завести собственное облачное хранилище, будь то дорогое железное решение от Synology, или оперсорсное на арендованной vps на nextcloud, но тут требуется вовлечение, что бы облако оставалось в рабочем состоянии (следить за апдейтами, своевременно обновлять оборудование, поддерживать резервное железо). Вместе с развитием блокчейна и развитием децентрализованных технологий web 3.0, появились и облачные хранилища, обещающие приватность, доступность и низкую цену. Предлагаю к рассмотрению 2 проекта, которые появились более 10 лет назад, и до сих пор существуют - Filecoin и Storj.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Перенос данных из одного S3 облака в другое

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.7K

Перенос файлов от одного облачного провайдера S3 к другому должен был обойтись нам примерно в 133 000 рублей. Вместо этого, мы заплатили за него около 29 000 рублей. Как можно в 5 раз удешевить этот процесс – рассказываем в статье.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 2

Интеллект в СКС на примере imVision CommScope

Уровень сложности Сложный
Время на прочтение 8 мин
Количество просмотров 778

Каким образом обеспечить автоматизацию процессов мониторинга кабельных журналов, обновлять данные в реальном времени, сократить время и ресурсы, затрачиваемые на обслуживание СКС, повысить эффективность работы с сетевым оборудованием и, соответственно, автоматизировать эксплуатацию IT-инфраструктуры?

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

UUIDv7

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 11K

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

Читать далее
Всего голосов 19: ↑16 и ↓3 +13
Комментарии 26

Интеллектуальные СКС в ЦОД

Уровень сложности Сложный
Время на прочтение 10 мин
Количество просмотров 1.6K

В современном мире развитие дата-центров идет стремительными темпами, и одним из ключевых факторов их успешной работы является расширение оптоволоконной инфраструктуры. Это необходимо для обеспечения высокой пропускной способности и быстрого обмена большими объемами данных. В этом контексте системы автоматизированного управления инфраструктурой (AIM) становятся все более востребованными. AIM позволяют автоматизировать процесс управления оптоволоконными сетями, собирать подробную информацию о каждой составляющей сети, что, в свою очередь, обеспечивает эффективное управление и контроль над работой дата-центра.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Как связать натуральные ключи с суррогатным в Anchor Modeling

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 739

Хранить значения натуральных ключей необходимо, потому что они связывают хранимые данные с реальным миром (внешними классификаторами, реестрами и т.п.), и с ними работают бизнес-пользователи: в выпадающих списках, отчетах и дашбордах. Но в методологии Anchor Modeling для связи таблиц используются только суррогатные ключи, не подверженные изменениям, и это правильно. Поэтому нужно хранить связь натуральных ключей с суррогатным ключом, предпочтительно формата UUIDv7. Как же это сделать в методологии Anchor Modeling?

Получить ответ
Всего голосов 8: ↑4 и ↓4 0
Комментарии 0

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.4K

Хабр, привет! 

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Vertica Eon в K8S — 3 года развития

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 535

Vertica - одна из первых широко используемых MPP баз на просторах айти ландшафта СНГ. Колоночное хранение, быстрые запросы на миллиардах строк, легендарные sort-merge джойны, которых нет больше ни у кого, позволяющие запускать свои грибницы. Но нынче на дворе 2024 год: как компания Vertica сменила уже 2 (или трех) владельцев, доступ к веб ресурсам с территории РФ ограничен, поддержка брошена, а вокруг нас процветают облака или как минимум кубернетисы во всех ипостасях.

И все же начиная с версии 10.1 компания представила интересную возможность для тех, кто уже крепко подсел на эту иглу - движок Eon. Описывая в двух словах, это та же самая по скорости база данных, но использующая общее хранилище - S3 (во всех своих ипостасях от вендорских AWS, GCS до онпрем вариантов) или HDFS. К тому же есть отличная завлекалочка - бесплатное использование кластера размером до 1 ТБ и до 3 нод вычисления. Статья является итогом тестирования технологии, и результаты тестирования какие-то не очень веселые.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 11

7 направлений оптимизации ClickHouse, которые помогают в BI

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 8.7K

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации. 

А что там с оптимизацией ClickHouse?
Всего голосов 26: ↑25 и ↓1 +24
Комментарии 2

Ближайшие события

Moscow QA #3 — митап по тестированию ПО
Дата 14 марта
Время 18:30 – 21:30
Место
Москва Онлайн
Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Как мы пытались разместить статью о новом виде спорта на Википедии, а ее украли роботы…

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 4.1K

Здравствуйте, уважаемые читатели!

В этой статье будет проведен разбор одного практического случая - попытки разместить статью на ресурсе Википедия.
Будет дано подробное описание случая и представлены очень важные комментарии от специалиста в данной области.

Присутствует интрига, кульминация и простая развязка =)

Читать далее
Всего голосов 44: ↑24 и ↓20 +4
Комментарии 47

Побит новый рекорд емкости HDD. 30 ТБ и 400 градусов Цельсия внутри

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 15K

Многие задаются вопросом, как хранить данные дома или на работе. Надо же не только установить систему на жесткий диск, но еще куда-то сложить несколько сезонов любимого сериала, фотографии друзей и родных, видео с котиками, да и для игр тоже нужно много места. А если вы работаете с большими объемами информации, то проблем становится еще больше. Но еще более требовательными являются центры обработки данных. И всем нужны большие накопители. Seagate представила самый большой жесткий диск, и его характеристики действительно впечатляют.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 21

Очистка данных перед загрузкой в хранилище. Подробное руководство с техническими деталями

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 3.6K

Детально рассмотрим, кто занимается очисткой данных, какие инструменты и языки программирования используются для этой цели, приведем примеры кода на SQL для очистки данных, узнаем, сколько времени может занять этот процесс и какие последствия могут наступить при его игнорировании.

Читать далее
Всего голосов 9: ↑0 и ↓9 -9
Комментарии 6

В поисках ПАК: импортозамещаем немецкое «железо» в российском ЦОД

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 4.8K

Привет, Хабр! Меня зовут Артем, я инженер по виртуализации в Oxygen Data Centres & Clouds. Любой облачный провайдер и оператор ЦОД может столкнуться с задачей проброса USB-портов виртуальным машинам, которым нужен доступ к определенным устройствам. И чем серьезнее требования к безопасности этих флешек – тем сложнее реализовать такое решение на практике. Сегодня я расскажу о нашем пути к выбору ПАК (программно-аппаратного комплекса) для решения задач с флешками и чем нас обрадовало найденное российское решение, когда немцы решили больше не поставлять свою технику.

Читать далее
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 7

Бэкапы исторических масштабов — как человечество сохраняет большие объемы данных?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 3.3K
image

Корпоративные решения для синхронизации, резервного копирования и безопасного обмена файлами легко позволяют отправлять большие данные в облако. Но что, если нам необходимо собрать и сохранить грандиозный объем данных — например, записать историю человеческой цивилизации? Как это сделать, насколько надежны цифровые носители, есть ли конкурентноспособные альтернативы?

Сегодня поговорим о проектах, посвященных созданию массивных архивов и бэкапов, и роли систем ИИ в подобных задачах.
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 7

Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.3K

«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.  

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Комментарии 1

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 1.5K

По данным TAdviser, в России зафиксирован небывалый «бум» строительства ЦОДов. Схожая картина наблюдается и в остальных странах: по итогам 2022 года общий объем данных в мире составил 97 зеттабайт, в 2023 году — 110-120 зеттабайт, а к 2025 году — прогноз вплоть до 180-ти. Всю эту информацию нужно где-то обрабатывать и хранить — потребность в дата-центрах растет ежемесячно. По данным «Коммерсанта», спрос на услуги дата-центров в значительной степени превышает предложение. Именно поэтому на сферу направлено сейчас пристальное внимание, а где внимание, там и высокие технологии.   

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 2

Вклад авторов