Как стать автором
Обновить
103.36

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Хранение паролей: работа над ошибками

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 1.9K

В предыдущей статье, я описал свой сетап хранения авторотационных данных (паролей). Многие эксперты изучили её и дали свои комментарии, - о том, где могут быть проблемы, о том, что можно упростить, и о том, что можно делать по другому.

Но начнём мы с небольшого объяснения, почему система такая сложная. Вспомним суть:

1) Для логина на "не значимые" сайты (например в аккаунт очередного AI-продукта) мы используем уникальный пароль, который храним в программе хранения паролей (парольном менеджере)

2) Для логина на "более важные ресурсы" (например в аккаунт на github), мы используем уникальный пароль, который храним в парольном менеджере, плюс одноразовый пароль (TOTP - Time-based One-Time Password) который нам покажет специальное приложение на телефоне.

Вот и всё. Это вся суть повседневного использования всей системы. Но почему она тогда казалась такой сложной? Вероятно из-за дополнительных слоёв защиты от самого себя или любых непредвиденных факторов.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 2

Новости

Подводные дата-центры и хранение информации в QR-кодах: новшества индустрии ЦОД

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 896

По данным TAdviser, в России зафиксирован небывалый «бум» строительства ЦОДов. Схожая картина наблюдается и в остальных странах: по итогам 2022 года общий объем данных в мире составил 97 зеттабайт, в 2023 году — 110-120 зеттабайт, а к 2025 году — прогноз вплоть до 180-ти. Всю эту информацию нужно где-то обрабатывать и хранить — потребность в дата-центрах растет ежемесячно. По данным «Коммерсанта», спрос на услуги дата-центров в значительной степени превышает предложение. Именно поэтому на сферу направлено сейчас пристальное внимание, а где внимание, там и высокие технологии.   

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 0

От перфокарт в облако. Где вы хранили файлы десятилетие назад?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 1.3K


В годы моей бурной юности в ходу были пятидюймовые дискеты. Их и вправду можно было назвать “floppy”, то есть, гибкими — футляр из плотного коленкора довольно легко сгибался, пробивался степлером и даже с некоторым усилием сворачивался в трубку. Перфокарты я тоже застал — родители иногда приносили их домой из вычислительного центра, в котором работали, и маленький я рисовал на этих забавных карточках с напечатанными типографским способом рядами цифр (и совой, сова с надписью «КАНГАС» почему-то накрепко засела в памяти) короткими фломастерами от плоттеров-графопостроителей, которые в ассортименте добывались там же, в ВЦ. Сейчас, используя многогигабайтовое облако, смешно вспоминать эту бумажную карточку емкостью 80 байт. Зато можно сказать, что эволюцию носителей информации от перфокарт к облаку я увидел собственными глазами.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 11

Web 3.0 и частные данные

Время на прочтение 8 мин
Количество просмотров 1.2K

Эта публикация является развитием идей, сформулированных в предыдущей статье - "Идентификация пользователей в Web 3.0". После предыдущей публикации я понял, что в массах нет однозначного определения, что же именно называть Web 3.0 - виртуальную реальность, интернет вещей или децентрализацию на базе блокчейна. С моей точки зрения, Web 3.0 - это архитектура веб-приложений, обусловленная спросом пользователей на конфиденциальность их собственных данных.

Развитие идей Web 2.0 привело к тому, что пользователи сами стали товаром. Вернее, товаром стала информация об их связях и предпочтениях, которую собирают и монетизируют корпорации типа Google и Facebook. В ответ на это у многих пользователей появилось желание не делиться своими персональными данными с корпорациями, а хранить свои данные в недоступном для корпораций месте. Размышлениям о том, к каким последствиям может привести персонализация хранимых данных, и посвящена данная публикация. Сразу предупреждаю - это просто моё растекание мыслью по древу, а не "сборник рецептов" или разъяснения "как всё устроено". Не очаровывайтесь, чтобы не разочароваться :)

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 4

Истории

Как устроена страничная организация памяти x86_64

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 5.7K

В этом посте я буду говорить о страничной организации только в контексте PML4 (Page Map Level 4), потому что на данный момент это доминирующая схема страничной организации x86_64 и, вероятно, останется таковой какое-то время.

Окружение

Это необязательно, но я рекомендую подготовить систему для отладки ядра Linux с QEMU + gdb. Если вы никогда этого не делали, то попробуйте такой репозиторий: easylkb (сам я им никогда не пользовался, но слышал о нём много хорошего), а если не хотите настраивать окружение самостоятельно, то подойдёт режим практики в любом из заданий по Kernel Security на pwn.college (вам нужно знать команды vm connect и vm debug).

Я рекомендую вам так поступить, потому что считаю, что самостоятельное выполнение команд вместе со мной и возможность просмотра страниц (page walk) на основании увиденного в gdb — хорошая проверка понимания.

Читать далее
Всего голосов 48: ↑48 и ↓0 +48
Комментарии 0

Как мы не выбрали Airbyte, или почему собирать данные лучше по старинке

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 2.5K

Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.

У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.

Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно но…
Читать дальше →
Всего голосов 32: ↑31 и ↓1 +30
Комментарии 4

Снова на те же грабли. Разбираемся с ошибками хранения ПДн и способами защиты медицинских данных

Время на прочтение 5 мин
Количество просмотров 1K

Привет, Хабр! Ловите новую подборку от beeline cloud — собрали практические истории по работе с персональными данными. Здесь и основные ошибки хранения ПДн, и советы, которые помогут навести порядок, и примеры защиты личных данных пациентов в виде кейса компании, которая проводит дистанционные медицинские осмотры.

Читать далее
Всего голосов 12: ↑8 и ↓4 +4
Комментарии 1

Представление родственных связей (генеалогического дерева) в виде графа

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 3.8K

Прочитал статью Фамильный вики-движок Bonsai: 6 лет спустя и вспомнил что в своё время были планы сделать что-то подобное. После того как я попробовал использовать некоторые существующие решения (особенно одно в котором предлагалось при добавлении человека указать кем он является по отношению к другим и список на 100500 позиций вида сын, дочь, мама, папа, дедушка и т.д. и т.п. ) была разработана собственная схема хранения родственных связей в виде графа. В качестве вершин графа выступают люди, а в качестве ребер отношения между людьми. При этом типов отношений всего два:


  1. Родитель->Ребенок (связь имеет направление от родителя к ребенку)
  2. Брачный союз (связь равноправна и не имеет направления)
    С помощью отношений этих двух видов возможно задать родство любой сложности.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 7

Разбираемся с работой брокеров, или Что такое гарантия доставки сообщений и как с этим жить…

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 2.6K

В эпоху мгновенной коммуникации, гарантия доставки сообщений становится не просто плюсом, но и неотъемлемой частью репутации сервиса. Как быть уверенным, что ваше сообщение дойдет до адресата именно тогда, когда это нужно? Привет, Хабр, меня зовут Сергей Коник, я работаю в Самолете на должности старшего разработчика и одна из проблем, с которой сталкивались наши команды, – это потеря важных сообщений при общении между сервисами. Расскажу сегодня основы, как с этим работать.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 10

The СПО Strikes Back

Время на прочтение 2 мин
Количество просмотров 1.9K

Как-то удачно началась неделя. В поле зрения попали отчет про то, как СПО, преодолевая все трудности - наконец показывает огого какие цифры (по работе дисковой подсистемы в CEPH )

Читать далее
Всего голосов 6: ↑3 и ↓3 0
Комментарии 1

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Время на прочтение 9 мин
Количество просмотров 3.1K

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом. 

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 6

Что находится внутри физического Архива Интернета

Время на прочтение 4 мин
Количество просмотров 13K

Когда я был в Сан-Франциско на AI Engineer Summit, то воспользовался возможностью посетить Архив Интернета — физический архив в калифорнийском городе Ричмонде примерно в двадцати минутах езды от Сан-Франциско.

Я купил билет на «экскурсию по закулисью физического архива» 11 октября и прибыл прямо перед началом; я был рад, что не приехал раньше, потому что физический архив находится (вполне логично) на складе в промышленной части Ричмонда. Похоже, больше ничего интересного в окрестностях нет.

Я попросил водителя Uber подбросить меня до парковки со знаком Internet Archive. Но оглядевшись, я не смог найти публичного входа на склад. Рядом стояло ещё несколько озадаченных фанатов истории Интернета, мы неуклюже поздоровались и начали обсуждать, там ли находимся. Вскоре нас заметила пара людей в конце улицы и помахала нам.
Читать дальше →
Всего голосов 76: ↑76 и ↓0 +76
Комментарии 14

Нефть глазами аналитика данных

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 2.8K


Любите ли вы работать с данными, как люблю это делать я? Страдаете ли вы также от несовершенства инструментов для анализа данных? И вот, буквально в первых строках, я понимаю, что мне надо быть очень аккуратным, дабы не задеть чувства, к примеру, фанатов Excel или Notepad++. Попытаюсь исправить ситуацию: Эксель великолепен! Лучшая low-code система! Notepad++ бесподобен… но попробуйте поработать этими инструментами с данными размером с один миллион строк… эх, не удержался. Ну и раз статья обещает быть провокационной, добавлю еще огоньку: я хочу продемонстрировать, как обрабатывать и анализировать данные по всем обезличенным сделкам по нефти. Взглядом аналитика покажу, как крупный капитал управляет рынком. И да, я хочу, чтобы такая возможность была доступна не только корпорациям с их ресурсами, а обычному пользователю с ноутбуком. Текст статьи не является инвестиционной рекомендацией, все совпадения случайны.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 19

Ближайшие события

Открытый урок «Behaviour Tree в Unity»
Дата 8 февраля
Время 19:00
Место
Онлайн
One Day Offer от УЦСБ
Дата 17 февраля
Время 10:00
Место
Онлайн

Приглашаем на Ozon Tech Community BI Meetup

Время на прочтение 2 мин
Количество просмотров 1.5K

Всем привет!
Меня зовут Дмитрий, я руководитель группы разработки инструментов BI. 

Стоит ли говорить, что данные вокруг нас и, если мы не умеем с ними работать, то мы не можем функционировать как бизнес вообще? Наша команда платформы данных старается обуздать десятки петабайтов аналитических данных и разрабатывает для этого множество новых подходов и инструментов.

И мы готовы ими поделиться. Приглашаем вас на Ozon Tech Community BI Meetup, 31 января в 19:00. Наша команда расскажет про основные сервисы работы с данными, о том, как нам пришёл в голову подход «платформизации», про создание функционала для сжатия данных, а также обсудим феномен data quality в обработке данных.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Между буквой и духом законов: как международной компании защитить ПДн клиентов и избежать санкций

Время на прочтение 13 мин
Количество просмотров 1.3K

Большинство международных компаний ходит по тонкому льду — когда твои сотрудники и пользователи разбросаны по всему миру, хранение и обработка их персональных данных становится сложной юридической проблемой. Если пытаться досконально вникнуть в законы сразу всех стран, можно превратиться в юридическую контору. С другой стороны, повсюду есть надзорные органы, которые грозят санкциями за любые нарушения.

Чтобы избежать претензий, не навредить пользователям и обеспечить стабильное развитие бизнеса, недостаточно изучать нормативную базу. Желательно также знакомиться с реальным опытом разных компаний, особенно из числа тех, для кого работа с ПДн имеет первостепенное значение.

Мы побеседовали с экспертами из соцсети ReLife, пользователи которой проживают в более 70 странах мира. Они рассказали, на что в первую очередь обращают внимание, на какие законы ориентируются, с какими рисками и «подводными камнями» сталкиваются и как их обходят. Вместе мы сравнили американское, европейское и российское законодательство по охране ПДн и делимся практическими рекомендациями по его соблюдению.

Читать далее
Всего голосов 15: ↑13 и ↓2 +11
Комментарии 2

Почему текст в нижнем регистре сжимается лучше

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 10K

Буквы в нижнем и верхнем регистре содержат одинаковое количество данных — по 1 байту каждая.

Поэтому удивительно, что замена заглавных букв на строчные снижает объём данных.

Пример: я взял главную страницу Hacker News и переписал заголовок каждой статьи, капитализировав только первые буквы в предложениях (sentence case) вместо первых букв во всех словах (title case). Это позволило мне снизить размер на 31 байт.

Sentence case: The cat sat on the mat

Title case: The Cat Sat on the Mat

Как может замена нескольких заглавных букв на строчные снижать объём? Всё дело в сжатии.

Это непривычно, но если понять, как работает сжатие текста, то начинает казаться логичным.

Читать далее
Всего голосов 41: ↑32 и ↓9 +23
Комментарии 28

Seagate выпустит HDD с лазерным подогревом емкостью от 30 ТБ уже в этом квартале. Что это за диски?

Время на прочтение 4 мин
Количество просмотров 27K

Корпорация Seagate уже достаточно давно анонсировала свои жесткие диски нового типа с очень высокой плотностью хранения информации. Речь идет о HDD с необычной технологией прогрева «блинов» дисков при помощи лазера. Это нужно для повышения плотности записи данных, в результате чего производителю и удалось достичь весьма высокой емкости диска — от 30 терабайт. Подробности — под катом.
Читать дальше →
Всего голосов 64: ↑63 и ↓1 +62
Комментарии 125

Как сэкономить время на старте этапа макетирования отчетности или прочь «чистый лист»

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 1.5K

Как правило, аналитики на этапе макетирования сталкиваются с одной и той же проблемой – нехваткой времени. Делюсь шаблоном для создания макетов отчетности, который поможет сэкономить время и силы!

В основе этого инструмента макетирования отчетности лежит сформированный в нашей компании принцип конструирования дашборда, исходя из решаемой бизнесом задачи, или «сценарный подход».

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 0

17 мгновений миграции DWH X5 Group

Время на прочтение 13 мин
Количество просмотров 2.4K

Каждый человек по мере взросления встречает множество вызовов на своём жизненном пути. Ответы на эти вызовы формируют его личность. То же самое происходит и с командой. 

Для нас, офиса CDO X5, пожалуй, определяющим был 2022 год. В том году мы выполнили проект такого масштаба и уровня сложности, какими мало кто может похвастаться. В него была вовлечена вся команда. А главное, что он не просто завершился успешным внедрением, но и дал нам вместе больше, чем каждому из нас по отдельности. За 9 месяцев мы выполнили миграцию аналитики и данных из SAP BW на ClickHouse и GreenPlum. 

В серии статей, которую мы открываем этой публикацией, мы расскажем о 17-ти эпизодах, имевших место по ходу этого проекта. Поделимся своим опытом в том, как реализуются масштабные проекты в крупных компаниях, какие технологические решения используются для аналитики, как принимаются ключевые управленческие решения, как на деле выглядит гибкая антикризисная стратегия. В этой статье представлены первые пять эпизодов.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 1

Оптимален ли блокчейн для хранения идентификационных данных?

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 1.7K

Приветствую, Хабр! Моя предыдущая статья была посвящена формализованным критериям выбора базовой технологии хранения и обработки данных, совокупность которых позволяла ответить на вопрос, использовать ли в конкретной системе блокчейн-технологии или ограничиться хорошо изученными СУБД. При этом ответ на данный вопрос при использовании формализованных методов выбора мог быть получен именно на основе технических факторов, не принимая во внимание различные «политические» аспекты выбора, такие как, например, повышенный информационный шум, продолжающийся вокруг блокчейна.

Приведенная в предыдущей статье классификация известных применений блокчейн-технологий позволила проиллюстрировать, с одной стороны, их широту, а с другой – тот факт, что применения блокчейн-технологий значительно различаются по степени полезности данных технологий для систем, в которых они могут использоваться.

Одним из известных направлений применения блокчейн-технологий является хранение идентификационных данных граждан. Предлагаю далее рассмотреть варианты хранения идентификационных данных на основе блокчейн-технологий и традиционных баз данных и сравнить подобные решения для формулировки вывода об оптимальной технологии для данного применения.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 11

Вклад авторов