Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Посты Новости Авторы Компании

ru_vds 2 часа назад

Почему люди не делают бэкапы?

Простой

6 мин

1.4K

Блог компании RUVDS.com Резервное копирование *Хранение данных *Хранилища данных *

Дайджест

Есть у меня вузовский товарищ Сашка. Математик, физик, а теперь и разработчик (умело монетизирует мозги), умный до безобразия. Ещё в университете он проявлял патологическую собранность в походах: чего бы ни понадобилось, всё было у него в рюкзаке. Год за годом он погружался в тему жизнеобеспечения всё глубже — и вот в ковидные времена общество получило выживальщика, продуманного до мелочей. Это тот случай, когда тушёнка, сгущёнка, йодид калия, триста способов разжечь костёр, землянка в пригородном лесу уже выкопана и ~~меблирована~~ обставлена по последнему слову выживания. Так вот, этот разработчик, математик, физик и человек, желающий во что бы то ни стало сохраниться вместе с тихоходками, с полгода назад истерически кричал мне в трубку, что у него «стёрся» проект длиной в год. Причина истерики проста: он не сделал бэкап. И это могла быть курьёзная байка, но таких — сотни и тысячи. Это люди, которые доверяют какому-то авосю свой труд, свои силы, свой опыт, свои деньги, данные, судьбы своих компаний. А авось почему-то оказывается ненадёжным.

Это всё чёрная кошка виновата, а не бэкапы там какие-то несделанные

Почему так происходит? Предлагаю рассмотреть 9 возможных причин.

Читать дальше →

+23

unistory 29 мар в 10:30

Нескучная стеганография, или как мы зашифровали секретные ключи пользователей в джипегах

Средний

10 мин

2.9K

Криптография *Хранение данных *Хранилища данных *Развитие стартапа Распределённые системы *

Из песочницы

Рассказываем, как использовать методы стеганографии и шифрования в децентрализованных сервисах на IPFS. Исключаем риски, связанные с централизованным хранением логинов и паролей. Используем метод LSB, «наименьший значащий бит». Внутри статьи — примеры кода на C# и алгоритме AES для шифрования и расшифровки.

devops_ht 26 мар в 18:56

ClickHouse как бэкенд для Prometheus

Средний

8 мин

6.1K

Системное администрирование *IT-инфраструктура *Хранение данных *Хранилища данных *DevOps *

Туториал

Привет! Меня зовут Михаил Кажемский, я Lead DevOps в IT‑интеграторе Hilbert Team. В последнее время к нам часто обращаются заказчики, которым нужна помощь с организацией хранения долгосрочных метрик в российских облаках. Так как для многих эта задача сейчас актуальная, в данной статье мы с моим коллегой Денисом Бабичевым решили рассказать, как мы используем мощные возможности ClickHouse для эффективного долгосрочного хранения метрик Prometheus. В статье вы найдете рекомендации по использованию инструмента и описание альтернативных решений, таких как Thanos, Grafana Mimir и Victoria Metrics.

+20

oldadmin 26 мар в 16:00

HDD, SSD или NVMe: что выбрать для виртуального сервера (тесты внутри)

Средний

6 мин

10K

Блог компании RUVDS.com Хостинг Хранение данных *Хранилища данных *Накопители

Обзор

В сегодняшней статье разберём настройку одного из параметров конфигурации при заказе виртуального выделенного сервера. Речь пойдёт о типе накопителя, который будет использоваться для виртуалки. Попробуем вместе разобраться, чем виды накопителей отличаются друг от друга, и на что может повлиять тот или иной выбор.

Читать дальше →

+32

SobolevP 24 мар в 16:28

Что нужно для внедрения Apache Superset

Средний

5 мин

3.7K

Open source *Визуализация данных *Хранилища данных *Управление проектами *

Обзор

Уже много написано о его развертывании и о функционале, поэтому мне бы хотелось поговорить об опыте внедрения Superset с организационной точки зрения, а также я постараюсь описать техническое окружение и важные отличия от Power BI. Отдельно остановлюсь на системе прав доступа, т.к. в нашей компании этот вопрос важен.

dasafyev 21 мар в 18:34

Есть ли жизнь после Microsoft Teams и OneDrive?

Простой

6 мин

12K

Блог компании HOSTKEY Хостинг Хранение данных *Хранилища данных *Видеоконференцсвязь

Обзор

Неизбежность отключения корпоративных пользователей от «облачных» продуктов Microsoft (и не только) стала очевидной последние два года. В текущий известный список продуктов, которые точно будут отключены, входят корпоративный мессенджер Teams, Office 365, облачное хранилище OneDrive и облако Azure.

Что делать? Можно перейти на отечественные облачные платформы и сервисы. Можно развернуть аналоги «уходящих» решений на собственной инфраструктуре. А можно арендовать выделенные сервера и создать инфраструктуру на них, или арендовать виртуальные сервера у хостинг-провайдеров с решениями быстрого развертывания. И об этом мы хотим поговорить с вами на примере Microsoft Teams и OneDrive.

Commandame 21 мар в 12:57

Уравнение с тремя неизвестными: как отлавливать баги в системах хранения данных

15 мин

1.7K

Блог компании YADRO Тестирование IT-систем *IT-инфраструктура *Хранение данных *Хранилища данных *

Ретроспектива

Привет! Меня зовут Никита Гуцалов, я инженер в компании YADRO и занимаюсь разработкой ПО для системы хранения данных TATLIN.UNIFIED. Вообще с системами хранения данных (СХД) я работаю уже много лет и люблю эту тему, поскольку она постоянно бросает новые вызовы, заставляя решать довольно сложные и нестандартные проблемы, что очень увлекательно само по себе, а удачные решения приносят огромное удовлетворение. 

В статье я попытаюсь погрузить читателя в проблемы, с которыми нам, инженерам YADRO, приходится сталкиваться при отладке программного обеспечения СХД. Также покажу особенности работы с такими системами. Расскажу, какие инструменты, а иногда и решения, которые мы пишем сами, приходится для этого применять. А еще постараюсь сформулировать условия, которые необходимы для нахождения причин возникновения ошибок обработки данных в системе.

Текст про особенности поиска багов был бы пустым без конкретных примеров, поэтому под катом вас ждет разбор случая, который как-то произошел в нашей лаборатории при тестировании производительности СХД.

+16

Sber 21 мар в 10:04

Как мы улучшили СУБД промышленного уровня Platform V Pangolin в версии 6.1

Средний

7 мин

1.6K

Блог компании Сбер Высокая производительность *Администрирование баз данных *Хранилища данных *

Обзор

Меня зовут Михаил Гелемеев, я лидер команды сопровождения Platform V Pangolin в СберТехе.

Platform V Pangolin — реляционная система управления базами данных. Она основана на свободно распространяемой версии PostgreSQL и содержит ряд доработок, обеспечивающих соответствие повышенным требованиям к безопасности данных, доступности, надежности, а также удобству эксплуатации. Наш продукт помогает получить функциональные возможности реляционной СУБД, включая построение кластеров высокой доступности, резервирование данных, снятие и восстановление резервных копий.

В январе мы выпустили новую версию — Platform V Pangolin 6.1. В ней появились обновления для работы с большим объёмом данных. Если вкратце — работать с секциями стало проще и быстрее: дешевле доступ к данным в секционированных таблицах, и для них можно гибко создавать уникальные глобальные индексы. Теперь можно предотвратить высокое потребление CPU и RAM пользовательской сессией, это улучшает доступность сервиса. Мы также добавили инструмент диагностики текущей активности для детального понимания процессов сессии, так работа СУБД становится более прозрачной.

В статье подробнее расскажу о каждой из доработок. Их можно условно разделить на две части: для пользователей и для администраторов/инфраструктуры.

asuleykin 20 мар в 11:30

Современные тенденции и проблемы управления данными на рынке РФ: вызовы 2024 года

Средний

8 мин

1.1K

IT-инфраструктура *Big Data *Хранение данных *Хранилища данных *Исследования и прогнозы в IT *

Обзор

Из песочницы

В эпоху данных и активной цифровизации вопросы эффективного управления данными становятся все более актуальными. От того, насколько эффективно компания управляет своими данными, зависит эффективность принятия управленческих решений, что влияет на выручку компании и чистую прибыль.

Вопросы управления данными включают задачи эффективного хранения и обработки данных (КХД, озера данных, ETL & ELT) в облаках и On-Premise, настройки интеграционных потоков (транспорт) для анализа в режиме реального времени и не только, вопросы предоставления данных во внешние системы и BI, процессы качества данных и каталогизации, безопасность данных, решения на базе расширенной аналитики и ИИ.

Александр Сулейкин, кандидат технических наук, генеральный директор и архитектор Big Data систем компании “ДЮК Технологии” дает прогноз на предстоящий год: какие технологии управления данными будут развиваться, с какими проблемами сталкивается бизнес и каких технологий не хватает для полноценного импортозамещения.

Xcom-shop 20 мар в 10:26

Живы ли жесткие диски в 2024 году, и где их стоит применять

Простой

10 мин

4.4K

Блог компании Группа компаний X-Com Хранение данных *Хранилища данных *Компьютерное железо Накопители

Обзор

Кажется, что эпоха жестких дисков давно ушла. SSD-накопители если не вытеснили HDD с рынка комплектующих для консьюмерских ПК, то сильно пошатнули их позиции. Иначе и быть не могло, когда имеешь дело с очевидно превосходящим решением, которое развивается семимильными шагами. Несмотря на это, жесткие диски все еще продаются и даже пользуются определенной популярностью. Эту статью мы подготовили для тех, кто сомневается и не уверен в рациональности приобретения (или, наоборот, не-приобретения) HDD в 2024 году. Никакого rocket science под катом -- только факты и их анализ, а также сегодня мы расскажем про пять сфер, в которых HDD остаются лучшее SSD.

PackRuble 18 мар в 19:01

Cardoteka — техническая начинка и аналитика решений типобезопасной SP [кто любит вдаваться]

Сложный

28 мин

361

Open source *API *Dart *Хранилища данных *Flutter *

Роадмэп

Этот материал уже без шуточек. Технический обзор и оценка принятых решений. На самом деле шуточки есть, но я не смог окончательно от них избавиться. Видимо, без них нет меня.

Узнать далее

badcasedaily1 14 мар в 17:07

6 важных принципов GDPR

Простой

8 мин

1.5K

Блог компании OTUS Анализ и проектирование систем *Хранение данных *Хранилища данных *Управление персоналом *

Обзор

Привет, Хабр!

Сегодня я хочу поговорить о GDPR – регуляции, которая изменила понимание приватности данных в Европе и за ее пределами. На первый взгляд, GDPR может показаться очередной бюрократической головной болью, но на самом деле это очень большой шаг в сторону уважения и защиты личной информаций.

GDPR выступает не как какой-то набор ограничений, а как стимул для повышения качества работы с данными.

Санкции за несоблюдение GDPR могут быть очень большими, в некоторых случаях доходя до 10 миллионов евро или 2% от общего мирового годового оборота за предыдущий финансовый год, а в других случаях — до 20 миллионов евро или до 4% от общего мирового годового оборота. Размер штрафа оценивается индивидуально и зависит от множества факторов, как серьезность нарушения, степень причиненного ущерба, наличие умысла, и многое другое.

В этой статье мы рассмотрим несколько основных принципов GDPR.

EreminMaxim 13 мар в 15:11

Новое электричество, новая нефть, или Как эффективно управлять разрозненными данными

7 мин

909

Блог компании beeline cloud IT-инфраструктура *Виртуализация *Хранилища данных *

Мнение

Последние 10 лет о данных говорят, что это новое электричество, новая нефть, из которых можно извлекать выгоду для компании. Но не все умеют это делать. Если данные просто лежат в старой Oracle Exadata или внутри 1С, толку от них немного. Если же вы научитесь создавать новые аналитические связи для дальнейшего анализа бизнес-процессов или предсказывать тренды на основе исторических данных — это уже другая история.

Привет, Хабр! Меня зовут Максим Еремин, руководитель направления развития продуктов beeline cloud, и сегодня я затрону тему работы с данными: почему ими нужно уметь управлять и с какими трудностями вы можете столкнуться.

А 19 марта в 11:00 мск я проведу вебинар о том, как эффективно хранить и обрабатывать большие объемы данных, когда в компании множество разрозненных корпоративных систем. Возникли вопросы? Накидывайте в комментариях — обсудим.

Sber 11 мар в 16:26

Конвертация в один клик! Как перенести код из Teradata в GreenPlum без лишних затрат и усилий

Сложный

11 мин

1.3K

Блог компании Сбер Администрирование баз данных *Хранилища данных *

Кейс

Привет, Хабр! Миграция баз данных из одной СУБД в другую представляет собой особо сложную задачу, требующую тщательного планирования, подготовки и исполнения. В 2023 году в Сбербанке завершился масштабный проект по миграции крупного аналитического хранилища данных с платформы Teradata на GreenPlum. Особое внимание уделялось таким направлениям, как:

Повышенная трудоёмкость ручного переписывания SQL‑скриптов из‑за разницы в диалекте и специфических встроенных функций Teradata.

• Перенос архива данных из Teradata, объемом более 400 Тб.

• Кросс‑платформенная проверка качества данных в ходе и после завершения миграции.

Этой статьёй мы открываем небольшую серию, посвящённую технологическим решениям вышеупомянутых сложностей. И начнём с рассмотрения сервиса миграции кода из Teradata в GreenPlum, который автоматизирует и упрощает конвертацию сложных запросов.

PoflankovaM 6 мар в 17:31

Business intelligence и качество исходных данных

Простой

6 мин

2.7K

IT-инфраструктура *Хранилища данных *Data Engineering *

Из песочницы

Сегодня бизнес хочет принимать решения, основываясь на данных, а не на ощущениях, тем более что сейчас для этого есть все возможности. Предприятия накопили терабайты и эксабайты данных, их количество растет в геометрической прогрессии каждый день.

Как повлиял ковид на ценообразование загородной недвижимости? Какой регион выбрать для новой мебельной фабрики? Вложиться в жилой комплекс эконом или бизнес-класса? Какие факторы влияют на продление ДМС? Как должно работать индивидуальное автострахование?

В наши дни ты должен быть data-driven или проиграешь.

Сырые данные предприятия проходят большой путь, чтобы превратиться в управленческие решения. Этот путь включает такие шаги как:

AERODISK 6 мар в 15:43

Автоматизированная настройка СХД АЭРОДИСК с помощью REST API

Средний

8 мин

683

Блог компании АЭРОДИСК Системное администрирование *IT-инфраструктура *Хранение данных *Хранилища данных *

Туториал

Привет, Хабр.

В одном из наших недавних постов мы немного затронули тему автоматизации, которую мы активно продвигаем в наших продуктах. По различным каналам мы получили много положительных откликов и дополнительных вопросов о том, как можно использовать наши API для различных интеграций.

В рейтинге наиболее популярных «хотелок» – интеграция системы хранения данных с внешними отечественными или opensource продуктами: системы мониторинга, системы управления и планирования ёмкостей или сложные автоматизированные метрокластеры с классическим набором серверов приложений, СУБД и систем виртуализации.

Решив, что краткого упоминания о REST API в системах хранения данных АЭРОДИСК явно недостаточно, в этой статье мы расскажем о том, как автоматизировать создание классических репликации, конфигурации метрокластера и управлять переключением сайтов с использованием REST API и Python. А послушать про это можно будет на вебинаре «ОколоИТ», который пройдёт 12 марта в 15:00 – регистрируйтесь по ссылке.

indmitriev 6 мар в 10:41

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Средний

10 мин

2.4K

Блог компании VK Блог компании Сбер Хранение данных *Хранилища данных *Hadoop *

Кейс

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

+16

qlever 1 мар в 10:58

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

9 мин

11K

Администрирование баз данных *Big Data *Хранение данных *Хранилища данных *

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД.

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

aleksejs1 29 фев в 08:30

Распределённые облачные системы хранения Filecoin и Storj

Простой

5 мин

Хранение данных *Хранилища данных *Распределённые системы *

Когда-то файлы хранили на дискетах, потом на дисках, потом на флэшках. Закончилось всё облаками. Тогда встал ряд различных вопросов по надёжности и приватности. С одной стороны можно просто доверить файлы гуглу или яндексу, но тогда о приватности можно забыть. C другой стороны можно завести собственное облачное хранилище, будь то дорогое железное решение от Synology, или оперсорсное на арендованной vps на nextcloud, но тут требуется вовлечение, что бы облако оставалось в рабочем состоянии (следить за апдейтами, своевременно обновлять оборудование, поддерживать резервное железо). Вместе с развитием блокчейна и развитием децентрализованных технологий web 3.0, появились и облачные хранилища, обещающие приватность, доступность и низкую цену. Предлагаю к рассмотрению 2 проекта, которые появились более 10 лет назад, и до сих пор существуют - Filecoin и Storj.

delaweb 27 фев в 09:47

Перенос данных из одного S3 облака в другое

Средний

8 мин

1.9K

Высокая производительность *Облачные вычисления *Хранение данных *Хранилища данных *Облачные сервисы *

Кейс

Перенос файлов от одного облачного провайдера S3 к другому должен был обойтись нам примерно в 133 000 рублей. Вместо этого, мы заплатили за него около 29 000 рублей. Как можно в 5 раз удешевить этот процесс – рассказываем в статье.

2 3 ...

49 50

Хранилища данных *

Почему люди не делают бэкапы?

Новости

Нескучная стеганография, или как мы зашифровали секретные ключи пользователей в джипегах

ClickHouse как бэкенд для Prometheus

HDD, SSD или NVMe: что выбрать для виртуального сервера (тесты внутри)

Что нужно для внедрения Apache Superset

Есть ли жизнь после Microsoft Teams и OneDrive?

Уравнение с тремя неизвестными: как отлавливать баги в системах хранения данных

Как мы улучшили СУБД промышленного уровня Platform V Pangolin в версии 6.1

Современные тенденции и проблемы управления данными на рынке РФ: вызовы 2024 года

Живы ли жесткие диски в 2024 году, и где их стоит применять

Cardoteka — техническая начинка и аналитика решений типобезопасной SP [кто любит вдаваться]

6 важных принципов GDPR

Новое электричество, новая нефть, или Как эффективно управлять разрозненными данными

Ближайшие события

Конвертация в один клик! Как перенести код из Teradata в GreenPlum без лишних затрат и усилий

Business intelligence и качество исходных данных

Автоматизированная настройка СХД АЭРОДИСК с помощью REST API

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Распределённые облачные системы хранения Filecoin и Storj

Перенос данных из одного S3 облака в другое

Вклад авторов