Как стать автором
Обновить
44.43
Рейтинг

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга

Репликация с нуля за 5 простых шагов (невозможна)

Блог компании VK Алгоритмы *Хранение данных *Tarantool *
Меня зовут Сергей Петренко, я работаю в команде кластерных технологий Tarantool. В прошлом году я рассказывал о том, как в Tarantool появилась синхронная репликация и поддержка автоматических выборов лидера на основе Raft. Теперь предлагаю погрузиться во «внутренности» репликации в Tarantool. Я расскажу, как устроена репликация, по какой логике она работает и почему самые очевидные решения не всегда самые оптимальные.

Если вы давно хотели углубиться в эту тему и разобраться в устройстве репликации на живом примере, то эта статья для вас.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 3.1K
Комментарии 0

Новости

Что в глубинах Data Lake? Строим архитектуру, укладываем слои, распределяем ответственность

Блог компании МТС Администрирование баз данных *Big Data *Хранение данных *Хранилища данных *
Привет, Хабр! Меня зовут Григорий Коваль, я технический руководитель Core Data Lake центра Big Data МТС. Сегодня я расскажу о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.



Для создания Data Lake нужен итерационный подход – agile и все, что с этим связано. Еще необходимо правильно организовать работу команд, синхронизировать их распределить ответственность между участниками. Тогда получится прямая связь между пользователями и людьми, которые развивают витрины данных или домены. В этой статье поговорим о задачах, архитектуре и проблемах развития Data lake, а также обсудим способы решения возникающих проблем, специфику процессов и перспективы развития.
Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 2.3K
Комментарии 0

Disaster Recovery — быстро поднятое упавшим не считается

Блог компании Сервер Молл Системное администрирование *IT-инфраструктура *Резервное копирование *Хранение данных *

Когда я собирал материал и писал эту статью, обстановка в мире была более-менее стабильна. После недавних событий часть информации потеряла актуальность, особенно в России, Беларуси и Украине: векторы сместились, настроения специалистов, да и простых людей — тоже. Цены растут, рубль слабеет, облачные сервисы останавливают работу, железо не купить, компании временно уходят, переставая продавать/продлевать лицензии и услуги.

Команда Servermall делает всё возможное, чтобы продолжать поставки серверов, адаптировать логистические цепочки к новым реалиям и осуществлять 5-летнее гарантийное обслуживание. Да, спрос огромный, срок доставок немного увеличился, но серверы есть и будут — это главное. И пускай обстановка изменилась, основной посыл статьи всё тот же — оценивайте любые риски и составляйте план действий до их наступления.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 2.4K
Комментарии 2

FSNotes 5 для iOS — заметочник для гиков

Разработка под iOS *Хранение данных *Софт

Привет, Habr! Больше 4 лет я пишу программу заметочник под macOS и iOS. Я уже упоминал вскольз о нюансах разработки, сегодня время пришло написать о самой программе.

Если кратко, то FSNotes это программа для написания, каталогизации и хранения заметок в максимально открытом виде. Весь код полностью открыт и доступен на GitHub.

Несмотря на то, что лицензия MIT, приложение продается, что в свою очередь добавляет мне мотивации реализовывать новые фичи и исправлять ошибки.

Вчера я выпустил большое обновление FSNotes 5 для iOS, о котором ниже.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 3.6K
Комментарии 20

Наследство, передаваемое «в цифре». Что с этим делать и как правильно завещать (ч. 2, заключительная)

Блог компании Cloud4Y Хранение данных *Законодательство в IT Читальный зал

Вторая часть статьи, в которой расскажем о практике работы с наследием, этичности управления подобного рода активами, цифровым «кладбищам» и способам использования данных, оставленных умершими людьми. Ссылка на первую часть.

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 2.1K
Комментарии 0

Анонимизация базы данных или как быть уверенным, что ты не нарушаешь закон “О персональных данных”

Разработка веб-сайтов *Python *Программирование *Django *Хранение данных *
Из песочницы

В настоящее время практически все ИТ-продукты работают с персональной информацией пользователя: ФИО, телефон, e-mail, паспортные и другие идентифицирующие данные. Для  обеспечения защиты прав и свобод, человека и гражданина при обработке его персональных данных в Российской Федерации существует Федеральный закон от 27.07.2006 N 152-ФЗ “О персональных данных”.

Согласно пункту 2 статьи 5 обработка персональных данных должна ограничиваться достижением конкретных, заранее определенных и законных целей, а в статье 6 установлено, что обработка персональных данных осуществляется с согласия субъекта персональных данных. Все это накладывает определенные ограничения на разработку программных продуктов и заставляет разработчиков думать о возможных последствиях несоблюдения норм законодательства.

Хочется заметить, что во многих случаях для непосредственной разработки личные данные пользователя не важны, необходима сама структура данных, их полнота и количество. По этой причине, а также в рамках соблюдения закона, персональные данные пользователя можно анонимизировать, чем и пришлось заниматься в рамках своей профессиональной деятельности. 

Под анонимизацией в рамках статьи стоит понимать процесс изменения данных введенных пользователем и сохраненных в БД на программно сгенерированные данные, которые по виду и типу совпадают с реальными, но не имеют отношения к конкретному пользователю.  О том, как была организована работа по этому вопросу и какой в итоге получился результат и будет эта статья.

Читать далее
Всего голосов 14: ↑11 и ↓3 +8
Просмотры 8.1K
Комментарии 5

Наследство, передаваемое «в цифре». Что с этим делать и как правильно завещать

Блог компании Cloud4Y Информационная безопасность *Хранение данных *Законодательство в IT Читальный зал

Интернет — часть повседневной жизни, и наши онлайн и оффлайн-миры тесно связаны. Но по мере всё большей цифровизации жизни возникает вопрос о том, что делать с цифровым наследием людей. Представьте, что у некоего Васи была многолетняя подписка на Pornhub музыкальный сервис, прокачанный игровой аккаунт, большая коллекция фотографий и пара биткойнов в кошельке. Что с ними будет, если Васи не станет? 

Неизвестно. Может быть, наследники попробуют отыскать доступ хотя бы к кошельку, чтобы пользоваться криптой. Может быть, они даже не узнают об этих активах. Или будут знать не про все. Вариантов очень много. А всё потому, что вопрос цифрового наследия почти никак не регламентирован на государственном и международном уровне. Попробуем разобраться в этом вопросе, разобрав положение дел на данный момент.

Поскольку вопрос объёмный и сложный, мы разбили статью на две части. В первой обсудим сущность цифрового наследия, его компоненты, особенности законодательства. Вторая часть будет посвящена практике работы с наследием, этичности управления подобного рода активами, цифровым «кладбищам» и способам использования данных, оставленных умершими людьми.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 6.2K
Комментарии 5

Графовые базы данных на примере простых запросов

Блог компании Neoflex Хранение данных *
Tutorial

Статья  будет полезна начинающему разработчику или тому, кто хочет расширить свой кругозор практическим знакомством с графовыми базами данных. Часто в аналогичных статьях не хватает либо пошаговой инструкции по установке, либо более детального разъяснения –  как общаться с данными в базе.

Информации по теории графов достаточно много, поэтому в материале будут сугубо прикладные знания, которые существенно облегчат закрепление материала практикой. В данном примере рассматривается работа с локальным экземпляром БД Neo4j. Считаю, что СУБД именно этого вендора позволяет осваивать тему графовых баз данных с достаточно низким порогом входа – нам понадобится только понимание SQL. Иными словами, статья представляет собой краткую сводку/инструкцию о том, какие шаги нужно пройти и что освоить, чтобы начать "играться" с Neo4j на вашем личном ПК или сервере в инфраструктуре вашей компании. Поскольку в этот тип БД заходят специалисты, ранее работавшие с реляционными БД, для облегчения понимания принципов в статье сделан упор на сопоставление языка общения с графовыми базами данных и классическим SQL. Чтобы сделать пример прикладным, в материале приводится  решение типовой бизнес-задачи для графовых БД на простом примере из финансовой предметной области.

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 3.9K
Комментарии 3

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

Блог компании HFLabs Анализ и проектирование систем *Data Mining *Открытые данные *Хранение данных *

1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.

Читать далее
Всего голосов 22: ↑19 и ↓3 +16
Просмотры 9.7K
Комментарии 15

Полезный опыт: Как работает автоматизация базы знаний для техподдержки пользователей крупных порталов

Поисковые технологии *Хранение данных *Управление сообществом *Управление персоналом *

Сегодня хочется поговорить о технической поддержке, а точнее о тонкостях, которые обеспечивают ее работу. Недавно мы закончили проект по организации базы знаний, которая помогает выполнять свою работу техподдержке электронных сервисов крупных порталов. Результаты автоматизации говорят о том, что подобный подход может оказаться полезен и для других проектов, и в этом посте я расскажу о распределении ролей и процессов в созданной информационной системе. Заинтересованные найдут под катом — подробный рассказ о том, как работает база знаний СТП (службы техподдержки) для сервисов портала. А я буду рад любой обратной связи, мнениям и, конечно же, предложениям, как можно еще улучшить работу по поддержанию подобной базы знаний.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 2.4K
Комментарии 3

Информационные батареи: то что может свергнуть монополию литий-ионных аккумуляторов

Блог компании Timeweb Cloud Хранение данных *Хранилища данных *Энергия и элементы питания Накопители

Преодоление непостоянства возобновляемой энергии является фундаментальной проблемой, ключевыми ответами на которую являются переключение нагрузки и хранение в масштабе сети. Будущее, основанное на устойчивых источниках энергии, может спасти мир от разрушительного изменения климата, сократив расходы за электроэнергию. Но у возобновляемых источников энергии есть проблема прерывистости — Солнце ночью не даёт энергии, а ветер может прекратиться. Кроме того, электрические сети должны поддерживать баланс между спросом и предложением, иначе возникнут риски перенапряжений и отключений электроэнергии. Вследствие чего возобновляемая энергия сбрасывается во время избыточного производства, в то время как в другое время электростанции сжигают ископаемое топливо, чтобы восполнить дефицит в сети. При таком раскладе, через пять лет количество возобновляемой энергии, например, ежегодно теряемой в Калифорнии, будет эквивалентно количеству энергии, используемой Лос-Анджелесом каждый год.

Оптимальное использование батарей считается ключом к решению проблемы прерывистости за счёт накопления энергии при сильном ветре и солнце. Но текущие решения для хранения, включая литий-ионные батареи и гидронасосы, дороги и сложны в масштабировании.
Что если бы избыток возобновляемой энергии можно было бы вместо этого хранить в виде вычислений? Идея «информационных батарей» предложенная студентами из Калифорнийского университета в Сан-Диего, опубликовано в ACM Energy Informatics Review.
Читать дальше →
Всего голосов 53: ↑42 и ↓11 +31
Просмотры 7.3K
Комментарии 17

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 3. Магия измерений

Блог компании Форсайт Тестирование IT-систем *Анализ и проектирование систем *Хранение данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели продолжить рассказ про виртуализацию данных. И рассказать о том, как с помощью различных «магических» приемов трансформации измерений в кубе можно адаптировать многомерные данные в совершенно новые структуры. Раскрыть количественную статистику некоторых замеров производительности и скорости быстродействия такой виртуализации. Показать, как мы это тестируем. Провести сравнение подходов формирования витрин данных с помощью технологии BI и СУБД. За всеми этими подробностями добро пожаловать под кат!

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 785
Комментарии 1

Linux и бесплатные облачные хранилища, семь лет спустя

Хранение данных *Облачные сервисы
В 2015 году я писал небольшой обзор облачных хранилищ, которые давали максимальный бесплатный объём и при этом была возможность их использовать в линуксе, примонтировав в папку. Набрёл на свой пост и решил посмотреть, как сказалось время на рассмотренных вариантах.

image

Потому что семь (ну ладно, шесть с половиной) лет — всё же солидный срок по IT'шным меркам, особенно для бесплатных сервисов.

Я смотрел только на состояние сервисов, новые регистрации и т.п. Возможность монтирования я проверял только в том случае, если там что-то стандартное — webdav, rclone. Если какие-то свои инструменты, то не проверял.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 23K
Комментарии 98

БДСМ с БД ПМО или как я работал с госданными

SQL *Открытые данные *Хранение данных *Читальный зал
Из песочницы

Росстат ежегодно публикует порядка 4 тысяч показателей государственной статистики. Они доступны всем без каких-либо ограничений по статусу, правам доступа и т.п. Но публикуя данные, Росстат прежде всего ориентируется на то, что пользователи будут работать с ними вручную (глазами и руками), хотя последние 20 лет, мягко говоря, это не совсем тренд.

Меня зовут Веденьков Максим, я работаю в ЦПУР (Центр перспективных управленческих решений), некоммерческой организации, которая проводит исследования на государственных данных с целью повышения информированности общества о происходящих в стране процессах. Также мы собираем, обогащаем и публикуем датасеты с государственными данными, как ранее опубликованными, так и теми, которые раньше не публиковались.

В этой статье хочу рассказать об одном из таких наборов данных. Большом, сложном, важном, но при этом доступном в крайне неудобном для исследователей формате — базе данных показателей муниципальных образований (БД ПМО).

Читать далее
Всего голосов 33: ↑32 и ↓1 +31
Просмотры 7.3K
Комментарии 14

Tarantool: ускорение разработки с Rust

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *Rust *Хранение данных *Tarantool *

Tarantool, как известно, поддерживает любой язык, который совместим с C и компилируется в машинный код. В том числе есть возможность реализации хранимых функций и модулей на Lua и C. Тем не менее, уже в двух своих проектах мы использовали Rust (в одном полностью перенесли Lua-код на Rust) и получили 5-кратное увеличение производительности по сравнению с Lua и сопоставимый результат, который дает по производительности C.

Читать далее
Всего голосов 51: ↑49 и ↓2 +47
Просмотры 7.7K
Комментарии 27

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 2. Виртуализация данных

Блог компании Форсайт Анализ и проектирование систем *Хранение данных *Хранилища данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели поговорить о том, как выйти за рамки привычного online analytical processing (OLAP) и с помощью enterprise BI погрузиться в проблематику «Fixed format reporting». Какие средства и возможности дает BI-платформа для 100% точного воспроизведения шаблона официальной отчётности? Как это можно сделать с помощью трансформации и виртуализации данных многомерных ROLAP-кубов? Расскажем о том, как в платформе «Форсайт» на уровне бизнес-логики и семантического слоя можно выполнить аналоги реляционных операций view, join, group by и т.п. Итак, за всеми этими подробностями добро пожаловать под кат!

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2K
Комментарии 0

Как защитить базы с персональными данными, рассказываем на примере крупного ритейлера

Блог компании Бастион Информационная безопасность *IT-инфраструктура *Администрирование баз данных *Хранение данных *


Недавно одна обширная торговая сеть запустила программу лояльности. Команда Бастион участвовала в этом проекте в качестве консультантов по информационной безопасности, и это отличный повод поговорить о защите баз с персональными данными.


В этом посте расскажем, как работает database activity monitoring, какие мощности нужны, чтобы анализировать гигабиты трафика на лету, и в чем внешний мониторинг превосходит встроенный.

Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Просмотры 6.5K
Комментарии 11

Шард всемогущий: как масштабировать СУБД для highload системы

Блог компании STM Labs IT-инфраструктура *NoSQL *MongoDB *Хранение данных *
✏️ Технотекст 2021

Весной 2021 года во французском Страсбурге случилось яркое событие: полностью сгорел дата-центр одного из крупнейших европейских хостинг-провайдеров (OVH). Всего за несколько часов пожар отрубил доступ к миллиону популярных сайтов и онлайн-сервисов во всём мире. Одна из вероятных причин — человеческий фактор. В результате под угрозой существования оказался не только сам ЦОД, но и весь бизнес провайдера. К слову, и в России ЦОДы тоже горят. К сожалению, пожар — не единственная проблема больших данных. Не менее опасно — highload системы. Это когда, например, приложение перестаёт справляться с моментальной нагрузкой, а вся инфраструктура работает на пределе возможностей, и запаса для роста у неё нет. Забегая вперед, скажу, что решение есть у каждой из перечисленных проблем. Но, обо всём по порядку.


Читать дальше →
Всего голосов 13: ↑11 и ↓2 +9
Просмотры 3.5K
Комментарии 2

Кто проживает на дне океана: дата-центры погружаются на глубину 3000 м

Блог компании Selectel IT-инфраструктура *Хранение данных *Сетевое оборудование IT-компании

Насколько можно понять, первыми, кто не только предложил опустить серверы на дно моря, но и реализовал проект подводного дата-центра, стали инженеры из Microsoft. Затем, увидев, что у американцев вроде бы все получается, стали работать с концепцией подводного дата-центра китайцы, из проекта Highlander.

Ну а теперь, видя успехи и тех, и других, вступают в игру новые компании. Некоторые из них пока что находятся на этапе R&D, но другие реализуют проекты «во плоти». Об одном из таких проектов, а также о прочих оригинальных идеях — под катом.
Читать дальше →
Всего голосов 46: ↑44 и ↓2 +42
Просмотры 11K
Комментарии 23

Мой новый домашний сервер, часть 4: использование unraid

Системное администрирование *Хранение данных *DIY или Сделай сам
Для тех, кому лень читать предыдущие части — я переходил с HP Microserver Gen8/Windows Server на самосборный сервер с Unraid в качестве базовой ОС. Unraid — это коммерческая ОС для NAS/домашнего сервера на базе ядра Linux. Основные возможности — гибкое управление массивом дисков, удобная установка докер-контейнеров из своего каталога и возможность запуска виртуальных машин. Почему выбрал именно unraid — написано во второй части.

Я не буду здесь расписывать установку и настройку unraid. Это делается элементарно — просто закидываются файлы на флэшку, флэшка вставляется в сервер — можно пользоваться. Всё понятно расписано у них на сайте, плюс много полезной информации есть на youtube-канале Spaceinvader One. Какие-то ранние вещи там уже устарели, потому, если видите несколько видео на одну тему, выбирайте более свежее. Ещё понятные доки на эту тему у ibracorp, есть и youtube-канал, если буквы не любите.



А я лучше просто опишу, как выглядят теперь перечисленные во второй части сервисы.

Читать дальше →
Всего голосов 18: ↑16 и ↓2 +14
Просмотры 18K
Комментарии 55

Вклад авторов