Хранение данных *

Что имеем, то храним

Статьи Посты Новости Авторы Компании

aleksejs1 3 часа назад

Хранение паролей: работа над ошибками

Простой

9 мин

1.9K

Информационная безопасность *Криптография *Хранение данных *Облачные сервисы *Лайфхаки для гиков

Кейс

В предыдущей статье, я описал свой сетап хранения авторотационных данных (паролей). Многие эксперты изучили её и дали свои комментарии, - о том, где могут быть проблемы, о том, что можно упростить, и о том, что можно делать по другому.

Но начнём мы с небольшого объяснения, почему система такая сложная. Вспомним суть:

1) Для логина на "не значимые" сайты (например в аккаунт очередного AI-продукта) мы используем уникальный пароль, который храним в программе хранения паролей (парольном менеджере)

2) Для логина на "более важные ресурсы" (например в аккаунт на github), мы используем уникальный пароль, который храним в парольном менеджере, плюс одноразовый пароль (TOTP - Time-based One-Time Password) который нам покажет специальное приложение на телефоне.

Вот и всё. Это вся суть повседневного использования всей системы. Но почему она тогда казалась такой сложной? Вероятно из-за дополнительных слоёв защиты от самого себя или любых непредвиденных факторов.

Hanamime 19 часов назад

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Простой

5 мин

896

Блог компании Сбер Хранение данных *Хранилища данных *

Обзор

По данным TAdviser, в России зафиксирован небывалый «бум» строительства ЦОДов. Схожая картина наблюдается и в остальных странах: по итогам 2022 года общий объем данных в мире составил 97 зеттабайт, в 2023 году — 110-120 зеттабайт, а к 2025 году — прогноз вплоть до 180-ти. Всю эту информацию нужно где-то обрабатывать и хранить — потребность в дата-центрах растет ежемесячно. По данным «Коммерсанта», спрос на услуги дата-центров в значительной степени превышает предложение. Именно поэтому на сферу направлено сейчас пристальное внимание, а где внимание, там и высокие технологии.

CyberPaul 6 фев в 10:33

От перфокарт в облако. Где вы хранили файлы десятилетие назад?

Простой

7 мин

1.3K

Блог компании Serverspace IT-инфраструктура *Хранение данных *Хранилища данных *История IT

Ретроспектива

В годы моей бурной юности в ходу были пятидюймовые дискеты. Их и вправду можно было назвать “floppy”, то есть, гибкими — футляр из плотного коленкора довольно легко сгибался, пробивался степлером и даже с некоторым усилием сворачивался в трубку. Перфокарты я тоже застал — родители иногда приносили их домой из вычислительного центра, в котором работали, и маленький я рисовал на этих забавных карточках с напечатанными типографским способом рядами цифр (и совой, сова с надписью «КАНГАС» почему-то накрепко засела в памяти) короткими фломастерами от плоттеров-графопостроителей, которые в ассортименте добывались там же, в ВЦ. Сейчас, используя многогигабайтовое облако, смешно вспоминать эту бумажную карточку емкостью 80 байт. Зато можно сказать, что эволюцию носителей информации от перфокарт к облаку я увидел собственными глазами.

Читать дальше →

+13

flancer 4 фев в 15:00

Web 3.0 и частные данные

8 мин

1.2K

Децентрализованные сети *Веб-разработка *Хранение данных *Хранилища данных *Распределённые системы *

Мнение

Эта публикация является развитием идей, сформулированных в предыдущей статье - "Идентификация пользователей в Web 3.0". После предыдущей публикации я понял, что в массах нет однозначного определения, что же именно называть Web 3.0 - виртуальную реальность, интернет вещей или децентрализацию на базе блокчейна. С моей точки зрения, Web 3.0 - это архитектура веб-приложений, обусловленная спросом пользователей на конфиденциальность их собственных данных.

Развитие идей Web 2.0 привело к тому, что пользователи сами стали товаром. Вернее, товаром стала информация об их связях и предпочтениях, которую собирают и монетизируют корпорации типа Google и Facebook. В ответ на это у многих пользователей появилось желание не делиться своими персональными данными с корпорациями, а хранить свои данные в недоступном для корпораций месте. Размышлениям о том, к каким последствиям может привести персонализация хранимых данных, и посвящена данная публикация. Сразу предупреждаю - это просто моё растекание мыслью по древу, а не "сборник рецептов" или разъяснения "как всё устроено". Не очаровывайтесь, чтобы не разочароваться :)

PatientZero 2 фев в 12:05

Как устроена страничная организация памяти x86_64

Простой

15 мин

5.7K

Программирование *Хранение данных *Операционные системы

Обзор

Перевод

В этом посте я буду говорить о страничной организации только в контексте PML4 (Page Map Level 4), потому что на данный момент это доминирующая схема страничной организации x86_64 и, вероятно, останется таковой какое-то время.

Окружение

Это необязательно, но я рекомендую подготовить систему для отладки ядра Linux с QEMU + gdb. Если вы никогда этого не делали, то попробуйте такой репозиторий: easylkb (сам я им никогда не пользовался, но слышал о нём много хорошего), а если не хотите настраивать окружение самостоятельно, то подойдёт режим практики в любом из заданий по Kernel Security на pwn.college (вам нужно знать команды vm connect и vm debug).

Я рекомендую вам так поступить, потому что считаю, что самостоятельное выполнение команд вместе со мной и возможность просмотра страниц (page walk) на основании увиденного в gdb — хорошая проверка понимания.

+48

shemik7 1 фев в 17:55

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Средний

7 мин

2.5K

Блог компании Selectel Анализ и проектирование систем *Big Data *Хранение данных *

Мнение

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно но…

Читать дальше →

+30

beeline_cloud 1 фев в 16:01

Снова на те же грабли. Разбираемся с ошибками хранения ПДн и способами защиты медицинских данных

5 мин

Блог компании beeline cloud IT-инфраструктура *Хранение данных *Хранилища данных *

Дайджест

Привет, Хабр! Ловите новую подборку от beeline cloud — собрали практические истории по работе с персональными данными. Здесь и основные ошибки хранения ПДн, и советы, которые помогут навести порядок, и примеры защиты личных данных пациентов в виде кейса компании, которая проводит дистанционные медицинские осмотры.

shasoftX 29 янв в 06:59

Представление родственных связей (генеалогического дерева) в виде графа

Простой

3 мин

3.8K

Хранение данных *

Мнение

Прочитал статью Фамильный вики-движок Bonsai: 6 лет спустя и вспомнил что в своё время были планы сделать что-то подобное. После того как я попробовал использовать некоторые существующие решения (особенно одно в котором предлагалось при добавлении человека указать кем он является по отношению к другим и список на 100500 позиций вида сын, дочь, мама, папа, дедушка и т.д. и т.п. ) была разработана собственная схема хранения родственных связей в виде графа. В качестве вершин графа выступают люди, а в качестве ребер отношения между людьми. При этом типов отношений всего два:

Родитель->Ребенок (связь имеет направление от родителя к ребенку)
Брачный союз (связь равноправна и не имеет направления)
С помощью отношений этих двух видов возможно задать родство любой сложности.

Читать дальше →

skonik_dev 26 янв в 11:23

Разбираемся с работой брокеров, или Что такое гарантия доставки сообщений и как с этим жить…

Средний

12 мин

2.6K

Блог компании Компания «Самолет» IT-инфраструктура *Apache *Хранение данных *Микросервисы *

Туториал

В эпоху мгновенной коммуникации, гарантия доставки сообщений становится не просто плюсом, но и неотъемлемой частью репутации сервиса. Как быть уверенным, что ваше сообщение дойдет до адресата именно тогда, когда это нужно? Привет, Хабр, меня зовут Сергей Коник, я работаю в Самолете на должности старшего разработчика и одна из проблем, с которой сталкивались наши команды, – это потеря важных сообщений при общении между сервисами. Расскажу сегодня основы, как с этим работать.

+12

Grigory_Otrepyev 25 янв в 17:59

The СПО Strikes Back

2 мин

1.9K

Open source *Хранение данных *Хранилища данных *

Как-то удачно началась неделя. В поле зрения попали отчет про то, как СПО, преодолевая все трудности - наконец показывает огого какие цифры (по работе дисковой подсистемы в CEPH )

konstantin_tyurin 25 янв в 17:12

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

9 мин

3.1K

Блог компании СберМаркет IT-стандарты *Визуализация данных *Хранение данных *Data Engineering *

Кейс

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом.

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

+10

Beeline_tech 25 янв в 14:39

Что находится внутри физического Архива Интернета

4 мин

13K

Блог компании билайн Хранение данных *Хранилища данных *История IT

Обзор

Перевод

Когда я был в Сан-Франциско на AI Engineer Summit, то воспользовался возможностью посетить Архив Интернета — физический архив в калифорнийском городе Ричмонде примерно в двадцати минутах езды от Сан-Франциско.

Я купил билет на «экскурсию по закулисью физического архива» 11 октября и прибыл прямо перед началом; я был рад, что не приехал раньше, потому что физический архив находится (вполне логично) на складе в промышленной части Ричмонда. Похоже, больше ничего интересного в окрестностях нет.

Я попросил водителя Uber подбросить меня до парковки со знаком Internet Archive. Но оглядевшись, я не смог найти публичного входа на склад. Рядом стояло ещё несколько озадаченных фанатов истории Интернета, мы неуклюже поздоровались и начали обсуждать, там ли находимся. Вскоре нас заметила пара людей в конце улицы и помахала нам.

Читать дальше →

+76

bazden 25 янв в 10:21

Нефть глазами аналитика данных

Средний

6 мин

2.8K

Блог компании IBS Python *Хранение данных *Финансы в IT

Аналитика

Любите ли вы работать с данными, как люблю это делать я? Страдаете ли вы также от несовершенства инструментов для анализа данных? И вот, буквально в первых строках, я понимаю, что мне надо быть очень аккуратным, дабы не задеть чувства, к примеру, фанатов Excel или Notepad++. Попытаюсь исправить ситуацию: Эксель великолепен! Лучшая low-code система! Notepad++ бесподобен… но попробуйте поработать этими инструментами с данными размером с один миллион строк… эх, не удержался. Ну и раз статья обещает быть провокационной, добавлю еще огоньку: я хочу продемонстрировать, как обрабатывать и анализировать данные по всем обезличенным сделкам по нефти. Взглядом аналитика покажу, как крупный капитал управляет рынком. И да, я хочу, чтобы такая возможность была доступна не только корпорациям с их ресурсами, а обычному пользователю с ноутбуком. Текст статьи не является инвестиционной рекомендацией, все совпадения случайны.

Читать дальше →

HLDM 24 янв в 12:55

Приглашаем на Ozon Tech Community BI Meetup

2 мин

1.5K

Блог компании Ozon Tech Big Data *Хранение данных *Сжатие данных *Конференции

Всем привет!
Меня зовут Дмитрий, я руководитель группы разработки инструментов BI.

Стоит ли говорить, что данные вокруг нас и, если мы не умеем с ними работать, то мы не можем функционировать как бизнес вообще? Наша команда платформы данных старается обуздать десятки петабайтов аналитических данных и разрабатывает для этого множество новых подходов и инструментов.

И мы готовы ими поделиться. Приглашаем вас на Ozon Tech Community BI Meetup, 31 января в 19:00. Наша команда расскажет про основные сервисы работы с данными, о том, как нам пришёл в голову подход «платформизации», про создание функционала для сжатия данных, а также обсудим феномен data quality в обработке данных.

PO_BSC_BSP 23 янв в 13:20

Между буквой и духом законов: как международной компании защитить ПДн клиентов и избежать санкций

13 мин

1.3K

Блог компании Бастион Информационная безопасность *Хранение данных *Развитие стартапа Законодательство в IT

Большинство международных компаний ходит по тонкому льду — когда твои сотрудники и пользователи разбросаны по всему миру, хранение и обработка их персональных данных становится сложной юридической проблемой. Если пытаться досконально вникнуть в законы сразу всех стран, можно превратиться в юридическую контору. С другой стороны, повсюду есть надзорные органы, которые грозят санкциями за любые нарушения.

Чтобы избежать претензий, не навредить пользователям и обеспечить стабильное развитие бизнеса, недостаточно изучать нормативную базу. Желательно также знакомиться с реальным опытом разных компаний, особенно из числа тех, для кого работа с ПДн имеет первостепенное значение.

Мы побеседовали с экспертами из соцсети ReLife, пользователи которой проживают в более 70 странах мира. Они рассказали, на что в первую очередь обращают внимание, на какие законы ориентируются, с какими рисками и «подводными камнями» сталкиваются и как их обходят. Вместе мы сравнили американское, европейское и российское законодательство по охране ПДн и делимся практическими рекомендациями по его соблюдению.

+11

PatientZero 20 янв в 12:51

Почему текст в нижнем регистре сжимается лучше

Простой

7 мин

10K

HTML *Хранение данных *Сжатие данных *Экология

Обзор

Перевод

Буквы в нижнем и верхнем регистре содержат одинаковое количество данных — по 1 байту каждая.

Поэтому удивительно, что замена заглавных букв на строчные снижает объём данных.

Пример: я взял главную страницу Hacker News и переписал заголовок каждой статьи, капитализировав только первые буквы в предложениях (sentence case) вместо первых букв во всех словах (title case). Это позволило мне снизить размер на 31 байт.

Sentence case: The cat sat on the mat

Title case: The Cat Sat on the Mat

Как может замена нескольких заглавных букв на строчные снижать объём? Всё дело в сжатии.

Это непривычно, но если понять, как работает сжатие текста, то начинает казаться логичным.

+23

DRoman0v 19 янв в 03:34

Seagate выпустит HDD с лазерным подогревом емкостью от 30 ТБ уже в этом квартале. Что это за диски?

4 мин

27K

Блог компании Selectel Хранение данных *Накопители IT-компании

Корпорация Seagate уже достаточно давно анонсировала свои жесткие диски нового типа с очень высокой плотностью хранения информации. Речь идет о HDD с необычной технологией прогрева «блинов» дисков при помощи лазера. Это нужно для повышения плотности записи данных, в результате чего производителю и удалось достичь весьма высокой емкости диска — от 30 терабайт. Подробности — под катом.

Читать дальше →

+62

125

okssobyanina 18 янв в 18:20

Как сэкономить время на старте этапа макетирования отчетности или прочь «чистый лист»

Средний

6 мин

1.5K

Администрирование баз данных *Хранение данных *

Из песочницы

Как правило, аналитики на этапе макетирования сталкиваются с одной и той же проблемой – нехваткой времени. Делюсь шаблоном для создания макетов отчетности, который поможет сэкономить время и силы!

В основе этого инструмента макетирования отчетности лежит сформированный в нашей компании принцип конструирования дашборда, исходя из решаемой бизнесом задачи, или «сценарный подход».

kolxo3nick 18 янв в 15:04

17 мгновений миграции DWH X5 Group

13 мин

2.4K

Блог компании X5 Tech IT-инфраструктура *Big Data *Хранение данных *Управление проектами *

Кейс

Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой.

Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum.

В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.

SergeyPanasenko 18 янв в 12:29

Оптимален ли блокчейн для хранения идентификационных данных?

Средний

12 мин

1.7K

Блог компании «Актив» Децентрализованные сети *Анализ и проектирование систем *Хранение данных *Распределённые системы *

Мнение

Приветствую, Хабр! Моя предыдущая статья была посвящена формализованным критериям выбора базовой технологии хранения и обработки данных, совокупность которых позволяла ответить на вопрос, использовать ли в конкретной системе блокчейн-технологии или ограничиться хорошо изученными СУБД. При этом ответ на данный вопрос при использовании формализованных методов выбора мог быть получен именно на основе технических факторов, не принимая во внимание различные «политические» аспекты выбора, такие как, например, повышенный информационный шум, продолжающийся вокруг блокчейна.

Приведенная в предыдущей статье классификация известных применений блокчейн-технологий позволила проиллюстрировать, с одной стороны, их широту, а с другой – тот факт, что применения блокчейн-технологий значительно различаются по степени полезности данных технологий для систем, в которых они могут использоваться.

Одним из известных направлений применения блокчейн-технологий является хранение идентификационных данных граждан. Предлагаю далее рассмотреть варианты хранения идентификационных данных на основе блокчейн-технологий и традиционных баз данных и сравнить подобные решения для формулировки вывода об оптимальной технологии для данного применения.

+10

2 3 ...

49 50

Хранение данных *

Хранение паролей: работа над ошибками

Новости

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

От перфокарт в облако. Где вы хранили файлы десятилетие назад?

Web 3.0 и частные данные

Истории

Как устроена страничная организация памяти x86_64

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Снова на те же грабли. Разбираемся с ошибками хранения ПДн и способами защиты медицинских данных

Представление родственных связей (генеалогического дерева) в виде графа

Разбираемся с работой брокеров, или Что такое гарантия доставки сообщений и как с этим жить…

The СПО Strikes Back

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Что находится внутри физического Архива Интернета

Нефть глазами аналитика данных

Ближайшие события

Приглашаем на Ozon Tech Community BI Meetup

Между буквой и духом законов: как международной компании защитить ПДн клиентов и избежать санкций

Почему текст в нижнем регистре сжимается лучше

Seagate выпустит HDD с лазерным подогревом емкостью от 30 ТБ уже в этом квартале. Что это за диски?

Как сэкономить время на старте этапа макетирования отчетности или прочь «чистый лист»

17 мгновений миграции DWH X5 Group

Оптимален ли блокчейн для хранения идентификационных данных?

Вклад авторов