Как стать автором
Обновить
33.5
Рейтинг

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
Порог рейтинга

Самодельное облако с аппаратным ключом шифрования

Криптография *Резервное копирование *Хранилища данных *Облачные сервисы DIY или Сделай сам

Облачные хранилища удобны и прочно вошли в жизнь рабочих и колхозниц, однако, имеют ряд недостатков. Это цена за гигабайт, проблемы с приватностью данных (причём, как со стороны хакеров, так и со стороны владельцев облачного сервиса), риск блокировки аккаунта (привет гуглу) или недоступность сервиса из определённых стран (привет яндексу). В этой статье хотелось бы кратко рассказать про одну свою поделку, которую я тихо мастерю для себя и так, как я это вижу. Она не претендует на роль лучшего или уникального решения, просто мне показалось, что сделать именно так будет лучше и удобнее для пользователя.

Читать далее
Всего голосов 16: ↑13 и ↓3 +10
Просмотры 9.5K
Комментарии 45

Новости

Информационные батареи: то что может свергнуть монополию литий-ионных аккумуляторов

Блог компании Timeweb Cloud Хранение данных *Хранилища данных *Энергия и элементы питания Накопители

Преодоление непостоянства возобновляемой энергии является фундаментальной проблемой, ключевыми ответами на которую являются переключение нагрузки и хранение в масштабе сети. Будущее, основанное на устойчивых источниках энергии, может спасти мир от разрушительного изменения климата, сократив расходы за электроэнергию. Но у возобновляемых источников энергии есть проблема прерывистости — Солнце ночью не даёт энергии, а ветер может прекратиться. Кроме того, электрические сети должны поддерживать баланс между спросом и предложением, иначе возникнут риски перенапряжений и отключений электроэнергии. Вследствие чего возобновляемая энергия сбрасывается во время избыточного производства, в то время как в другое время электростанции сжигают ископаемое топливо, чтобы восполнить дефицит в сети. При таком раскладе, через пять лет количество возобновляемой энергии, например, ежегодно теряемой в Калифорнии, будет эквивалентно количеству энергии, используемой Лос-Анджелесом каждый год.

Оптимальное использование батарей считается ключом к решению проблемы прерывистости за счёт накопления энергии при сильном ветре и солнце. Но текущие решения для хранения, включая литий-ионные батареи и гидронасосы, дороги и сложны в масштабировании.
Что если бы избыток возобновляемой энергии можно было бы вместо этого хранить в виде вычислений? Идея «информационных батарей» предложенная студентами из Калифорнийского университета в Сан-Диего, опубликовано в ACM Energy Informatics Review.
Читать дальше →
Всего голосов 53: ↑42 и ↓11 +31
Просмотры 7K
Комментарии 17

Кто такой data-инженер в Тинькофф и как им стать

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *
Из песочницы

Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.

Читать далее
Всего голосов 20: ↑16 и ↓4 +12
Просмотры 3.8K
Комментарии 14

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 2. Виртуализация данных

Блог компании Форсайт Анализ и проектирование систем *Хранение данных *Хранилища данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели поговорить о том, как выйти за рамки привычного online analytical processing (OLAP) и с помощью enterprise BI погрузиться в проблематику «Fixed format reporting». Какие средства и возможности дает BI-платформа для 100% точного воспроизведения шаблона официальной отчётности? Как это можно сделать с помощью трансформации и виртуализации данных многомерных ROLAP-кубов? Расскажем о том, как в платформе «Форсайт» на уровне бизнес-логики и семантического слоя можно выполнить аналоги реляционных операций view, join, group by и т.п. Итак, за всеми этими подробностями добро пожаловать под кат!

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 1.8K
Комментарии 0

Единый семантический слой BI и что он дает на примере платформы Microstrategy

Анализ и проектирование систем *Big Data *Визуализация данных Хранилища данных *Бизнес-модели
Из песочницы

Ежедневно я общаюсь с большим количеством крупных компаний. Нередко они выражают желание построить data-driven компанию в течение следующих нескольких лет. Их ключевая стратегия заключается в создании DWH/Big data и подключении к ней пользователей, которые сами будут строить отчеты, визуализации и дашборды, используя self-service инструменты - Tableau, Power BI или Qlik.

Одна из основных проблем Tableau, Power BI или Qlik - у них нет единого семантического слоя, единой логической модели, единого определения всех атрибутов, фактов и показателей для всей бизнес-аналитики компании. Именно поэтому они растут в компании без контроля и governance, порождая множество версий правды в отчетности и аналитике в компании. Через какое-то время компании сталкиваются с тем, что уже не могут разобраться какому отчету доверять - данные не сходятся не только в разных системах Tableau, Power BI или Qlik, но и между отчетами в одной системе. Получается, что компании вкладывают огромные средства в построение единой версии правды на уровне хранилищ данных, а в конечном счете получают невероятное количество отдельных и ungoverned отчетов, визуализаций, дашбордов, которым они не могут доверять.

Tableau, Power BI и Qlik - отличные инструменты, если вы хотите, чтобы бизнес-пользователь мог выполнять локальную аналитику self-services для нужд своего отдела. Тем не менее, чтобы построить data-driven компанию на уровне всего предприятия, вам потребуется инструмент, который позволит упорядочить, структурировать и стандартизовать всю вашу бизнес-аналитику. 

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 2.2K
Комментарии 11

Вторая жизнь бани викторианской эпохи: итоги конкурса на лучшую архитектуру ЦОДа по версии издания Data Centre Dynamics

Блог компании ITSOFT Хранение данных *Хранилища данных *Бизнес-модели Урбанизм
Перевод

В декабре прошедшего года издание Data Centre Dynamics (DCD), освещающее события в сфере хранения и обработки данных подвело итоги года и обработав 7000 голосов специалистов присудила награды 14 номинациях. Одна из них касалась архитектуры Центров обработки данных и победу в ней одержала реконструкция старой бани в центре Манчестера, перепрофилированной в ЦОД. Расскажем о проекте более подробно, а также покажем других претендентов на звание самого красивого дата-центра.

Читать далее
Всего голосов 12: ↑9 и ↓3 +6
Просмотры 1.9K
Комментарии 1

Как вырастить аналитика хранилища данных за 60 дней: опыт Уралсиба

Блог компании Уралсиб Big Data *Хранилища данных *

Привет! Это вновь Игорь Гончаров, CDO Банка Уралсиб. Продолжаю рассказывать о том, как у нас устроена работа с данными. Сегодня я хочу поделиться опытом решения острой проблемы, боль от которой, я уверен, испытывают многие участники рынка.

Любая компания, которая развивает корпоративное хранилище данных, сталкивается с поиском и обучением аналитиков DWH. С тем, как и кого искать, всё ясно: есть набор компетенций, которыми должен обладать кандидат, плюс необходимые знания технологического стека. Однако с обучением и адаптацией вопросов куда больше.

Как быстро и качественно погрузить сотрудника в специфику именно этого хранилища? Как в максимально короткие сроки сделать работу аналитика максимально эффективной? И самое главное — как компании быстрее получить добавленную стоимость от работы нового специалиста?

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 3.5K
Комментарии 7

Анонимный обмен файлами. BitTorrent over I2P

Децентрализованные сети Занимательные задачки I2P *Хранилища данных *Киберпанк

Обсуждать публично тему анонимного обмена файлами считается не этично, так как нашему обывателю известен круг людей, грезящих об анонимности. За свежим списком следите в эфире федеральных телеканалов. Однако, вольномыслящему и здоровому человеку область применения анонимных торрентов рисуется легко и без угрызения совести. Вспомните WikiLeaks и другие разоблачения нечеловечности, которые для здорового человека являются преступлением, но по порой абсурдным законам распространение информации о таких преступлениях уже является преступлением вроде разглашения государственной тайны. Возможность секретной передачи файлов в таких случаях равна сохранению собственной жизни, здоровья и свободы.

Читать целиком
Всего голосов 62: ↑62 и ↓0 +62
Просмотры 17K
Комментарии 49

DBaaS: друг или враг?

Блог компании Timeweb Cloud Администрирование баз данных *Хранилища данных *Облачные сервисы
Перевод

Нажмите, чтобы узнать больше об авторе Matt Yonkovit.

Лесной пожар — это проявление могущественной силы природы. Он может все разрушить, а может дать начало новой жизни и способствовать положительному росту. 

Облачная база данных как услуга (DataBase-as-a-Service, DBaaS) обладает аналогичной двойственностью. 

«Сила» облака трансформировала нашу техническую инфраструктуру. Нигде это не проявляется так ярко, как в росте количества предложений DBaaS на рынке.

Мощные игроки рынка (такие, как Amazon Aurora, Azure SQL, Google Cloud SQL и MongoDB Atlas) быстро стали самым популярным для пользователей способом запуска базы данных в облаке. Но при неправильном развертывании или использовании перед пользователями могут возникать препятствия и проблемы. В своем последнем «Magic Quadrant» компания Gartner сделала стратегические предположения, что 75% всех БД будут развернуты или перемещены на облачные платформы, и только 5% облачных БД когда-либо рассматривались для возвращения в локальную среду. К 2023 году предпочтение к управлению данными в облаке приведет к сокращению количества поставщиков услуг, но в тоже время использование нескольких «облаков» усложнит управление данными и интеграцию. 
Читать дальше →
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 1.3K
Комментарии 0

Эволюция хранилища данных в Авито

Блог компании Авито Big Data *Хранилища данных *

Сейчас Data Warehouse в Авито — это инсталляция на 32 серверах. Мы используем девятую версию Vertica и ClickHouse. В команде, которая отвечает за хранилище, работает 21 человек. Поток событий, который мы загружаем, достигает 20 миллионов событий в минуту. Я расскажу, как менялось наше хранилище аналитических данных с 2013 года.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 5.6K
Комментарии 9

Подводный ЦОД Microsoft: пассивное охлаждение, энергия волн и пост-квантовая криптография у берегов Шотландии

Блог компании ITSOFT Хранение данных *Хранилища данных *Будущее здесь
Перевод

Серым июльским днем у шотландских островов на поверхность был поднят цилиндр, покрытый ракушками. Его можно было принять за неразорвавшийся боеприпас времен Второй мировой войны, но он был больше, чем любая бомба. Двенадцать метров в длину, два метра в диаметре и размером со сверхмалую подводную лодку X-класса, на которых тренировались подводники в 1942 году. Но баржа с грузом не вернула часть военной истории. Логотип на борту дал ясно понять – это собственность Microsoft.

В 2018 году Microsoft подвела к объекту силовые и оптоволоконные кабели и намеренно затопила. В течение последующих 2 лет под 117-метровой толщей воды внутри цилиндра находились 12 стоек с ИТ-оборудованием обрабатывая рабочие нагрузки по программе Microsoft Azure (лазурный). Подводный центр обработки данных был последним экспериментом в рамках в проекте Natick, который ставил перед собой цель запустить необслуживаемые серверы и выяснить, может ли облако работать под водой. В июле 2020 года пришло время поднять капсулу и оценить результаты.

Читать далее
Всего голосов 25: ↑21 и ↓4 +17
Просмотры 6.4K
Комментарии 34

Дилемма моделирования в рамках Data Vault/Anchor Modeling: объект или событие

Блог компании ManyChat Big Data *Хранилища данных *Data Engineering *

Всем привет :) 

Меня зовут Голов Николай, я строю платформу данных на основе Snowflake и Anchor Modeling в ManyChat.

В этой статье я уже подробно рассказывал, как решал аналогичную задачу  в Авито, используя Vertica и методологию Anchor Modeling. В комментариях меня спрашивали, с какими сложностями приходится сталкиваться при использовании этой модели, поэтому сегодня я решил поговорить именно о них и заодно поделиться решением, к которому мы пришли.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2.1K
Комментарии 2

Как сделать стрим в Postgres?

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *PostgreSQL *Администрирование баз данных *Хранилища данных *

На одной конференции мне задали вопрос (спасибо Александру!): как сделать стрим в PostgreSQL? Представьте, что имеется bytea и вы к нему хотите что-то дописать. Люди столкнулись с тем, что на это в PostgreSQL  тратится гигантское время  и растет WAL-трафик. 

Расскажу, что с этим возможно сделать — это будет еще один пример оптимизации TOAST (о чем я недавно писал), на на этот раз — для быстрой записи потока бинарных данных. На самом деле мой коллега, Никита Глухов, за несколько часов сделал расширение, которое «вылечило» проблему, и мы даже успели рассказать про это на сессии блиц-докладов на PGConf.Online 2021.

Читать далее
Всего голосов 33: ↑33 и ↓0 +33
Просмотры 6.4K
Комментарии 1

Планы Facebook по строительству дата-центра вызывают недовольство у жителей Нидерландов

Блог компании ua-hosting.company Хранение данных *Хранилища данных *Экология
Перевод
Местные жители переживают, что Big Tech дата центры будут выкачивать всю локальную «зеленую» энергию.

image

Дорога 61-летней Сьюзан Схаап из своего родного голландского города Зеволде в ближайший город Лелистад занимает 30 минут и на протяжении всей поездки можно созерцать бескрайние тюльпановые поля, прерывающиеся лишь ветряными турбинами и иногда овечками. Но если планы компании Facebook Meta будут одобрены, этот вид будет заменен крупнейшим в истории Нидерландов центром обработки данных.

Дата-центр Meta «слишком большой для такого маленького городка, как Зеволде», — говорит Схаап, которая стала одной из самых ярых противников проекта. «В Нидерландах уже есть 200 центров обработки данных», — утверждает она, и в случае позитивного решения, очень огромные площади сельскохозяйственных земель будут выделены только одной компании, «что несправедливо».
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2.8K
Комментарии 7

Космос – финальный рубеж освоения пространства дата-центрами

Блог компании ITSOFT Хранение данных *Хранилища данных *Космонавтика Будущее здесь
Перевод

Есть веские причины отправить 19-дюймовые стойки на орбиту и даже дальше

В прошлом году человечество впервые развернуло в космосе обычный центр обработки данных. В феврале 2021 года на Международной космической станции (МКС) была установлена система HPE Spaceborne Computer-2. На борт были доставлены машины двух моделей HPE Edgeline Converged EL4000 Edge и HPE ProLiant, оснащенные графическими процессорами Nvidia T4 для решения задач искусственного интеллекта. Это был первый готовый сервер, используемый в космосе для реальных рабочих нагрузок. “Цель миссии состояла в том, чтобы избежать затрат времени и средств на создание усиленной защиты компьютеров”, – здесь и далее говорит Марк Фернандес (Mark Fernandez), главный разработчик программы в Hewlett Packard Enterprise в интервью порталу Data Center Knowledge.

Читать далее
Всего голосов 21: ↑20 и ↓1 +19
Просмотры 3.1K
Комментарии 20

Как мы общебанковскую Informatica пилили

Big Data *Хранение данных *Хранилища данных *Data Engineering *

Однажды ребята позвали создать общебанковский контур ETL Informatica (Data Integration) и вот что из этого вышло.

Данный пост не является рекомендацией к действиям или последней инстанцией, тут описан подход который работает, возможно, что то можно улучшить (с).

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Просмотры 872
Комментарии 0

Борьба с  TOAST или будущее JSONB в PostgreSQL

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *PostgreSQL *Администрирование баз данных *Хранилища данных *

В PostgreSQL есть два типа данных: JSON и JSONB. Первый формат является текстовым хранилищем, в котором json хранится "as is",  второй — бинарным, в нем ключи отсортированы  (сначала по длине ключа, а потом по его названию), дубликаты удалены, а пробелы удалены.

Тип JSONB имеет богатую поддержку, облегчающую работу разработчиков приложений, для него есть встроенные индексы, кроме того, существует расширение Jsquery, в котором реализован язык запросов к JSONB и дополнительные индексы. Когда у меня спрашивают, чем пользоваться, я всегда советую JSONB, так как он позволяет работать очень эффективно. 

Однако у постгреса есть серьёзная проблема, которая сказывается и на производительности JSONB  — это TOAST, и о ней я говорил в первой части. Сегодня я расскажу о том, как мы улучшили JSONB для того, чтобы существенно повысить его производительность.

Читать далее
Всего голосов 58: ↑57 и ↓1 +56
Просмотры 11K
Комментарии 8

Жесткие диски с поддержкой NVMe 2.0: в чем смысл?

Блог компании Seagate Хранение данных *Хранилища данных *Компьютерное железо

Летом 2021 года был представлен новый стандарт NVM Express 2.0 (NVMe 2.0). Изначально NVMe был разработан для твердотельных накопителей и сетей хранения данных, но в последней версии добавлена полноценная поддержка жестких дисков. Конечно, возникает логичный вопрос: зачем? Но обо всем по порядку.

Читать далее
Всего голосов 18: ↑17 и ↓1 +16
Просмотры 35K
Комментарии 34

Хранители данных: как устроена работа с DWH в Lamoda

Блог компании Lamoda Oracle *IT-инфраструктура *Хранение данных *Хранилища данных *

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

Читать далее
Всего голосов 19: ↑16 и ↓3 +13
Просмотры 4.5K
Комментарии 26

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

Блог компании Cloudera Big Data *Хранилища данных *Hadoop *Data Engineering *

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.

SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.

Читать далее
Рейтинг 0
Просмотры 799
Комментарии 1

Вклад авторов