Как стать автором

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Статьи Авторы Компании

Dikoy 23 февраля в 03:39

Самодельное облако с аппаратным ключом шифрования

Криптография *Резервное копирование *Хранилища данных *Облачные сервисы DIY или Сделай сам

Облачные хранилища удобны и прочно вошли в жизнь рабочих и колхозниц, однако, имеют ряд недостатков. Это цена за гигабайт, проблемы с приватностью данных (причём, как со стороны хакеров, так и со стороны владельцев облачного сервиса), риск блокировки аккаунта (привет гуглу) или недоступность сервиса из определённых стран (привет яндексу). В этой статье хотелось бы кратко рассказать про одну свою поделку, которую я тихо мастерю для себя и так, как я это вижу. Она не претендует на роль лучшего или уникального решения, просто мне показалось, что сделать именно так будет лучше и удобнее для пользователя.

Читать далее

+10

9.5K

TilekSamiev 21 февраля в 11:01

Информационные батареи: то что может свергнуть монополию литий-ионных аккумуляторов

Блог компании Timeweb Cloud Хранение данных *Хранилища данных *Энергия и элементы питания Накопители

Преодоление непостоянства возобновляемой энергии является фундаментальной проблемой, ключевыми ответами на которую являются переключение нагрузки и хранение в масштабе сети. Будущее, основанное на устойчивых источниках энергии, может спасти мир от разрушительного изменения климата, сократив расходы за электроэнергию. Но у возобновляемых источников энергии есть проблема прерывистости — Солнце ночью не даёт энергии, а ветер может прекратиться. Кроме того, электрические сети должны поддерживать баланс между спросом и предложением, иначе возникнут риски перенапряжений и отключений электроэнергии. Вследствие чего возобновляемая энергия сбрасывается во время избыточного производства, в то время как в другое время электростанции сжигают ископаемое топливо, чтобы восполнить дефицит в сети. При таком раскладе, через пять лет количество возобновляемой энергии, например, ежегодно теряемой в Калифорнии, будет эквивалентно количеству энергии, используемой Лос-Анджелесом каждый год.

Оптимальное использование батарей считается ключом к решению проблемы прерывистости за счёт накопления энергии при сильном ветре и солнце. Но текущие решения для хранения, включая литий-ионные батареи и гидронасосы, дороги и сложны в масштабировании.
Что если бы избыток возобновляемой энергии можно было бы вместо этого хранить в виде вычислений? Идея «информационных батарей» предложенная студентами из Калифорнийского университета в Сан-Диего, опубликовано в ACM Energy Informatics Review.

Читать дальше →

+31

7K

mechanik61 18 февраля в 16:57

Кто такой data-инженер в Тинькофф и как им стать

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *

Из песочницы

Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.

Читать далее

+12

3.8K

kvsman 11 февраля в 20:49

Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 2. Виртуализация данных

Блог компании Форсайт Анализ и проектирование систем *Хранение данных *Хранилища данных *Data Engineering *

Всем привет.

Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели поговорить о том, как выйти за рамки привычного online analytical processing (OLAP) и с помощью enterprise BI погрузиться в проблематику «Fixed format reporting». Какие средства и возможности дает BI-платформа для 100% точного воспроизведения шаблона официальной отчётности? Как это можно сделать с помощью трансформации и виртуализации данных многомерных ROLAP-кубов? Расскажем о том, как в платформе «Форсайт» на уровне бизнес-логики и семантического слоя можно выполнить аналоги реляционных операций view, join, group by и т.п. Итак, за всеми этими подробностями добро пожаловать под кат!

Читать далее

+6

1.8K

VLVE 8 февраля в 17:47

Единый семантический слой BI и что он дает на примере платформы Microstrategy

Анализ и проектирование систем *Big Data *Визуализация данных Хранилища данных *Бизнес-модели

Из песочницы

Ежедневно я общаюсь с большим количеством крупных компаний. Нередко они выражают желание построить data-driven компанию в течение следующих нескольких лет. Их ключевая стратегия заключается в создании DWH/Big data и подключении к ней пользователей, которые сами будут строить отчеты, визуализации и дашборды, используя self-service инструменты - Tableau, Power BI или Qlik.

Одна из основных проблем Tableau, Power BI или Qlik - у них нет единого семантического слоя, единой логической модели, единого определения всех атрибутов, фактов и показателей для всей бизнес-аналитики компании. Именно поэтому они растут в компании без контроля и governance, порождая множество версий правды в отчетности и аналитике в компании. Через какое-то время компании сталкиваются с тем, что уже не могут разобраться какому отчету доверять - данные не сходятся не только в разных системах Tableau, Power BI или Qlik, но и между отчетами в одной системе. Получается, что компании вкладывают огромные средства в построение единой версии правды на уровне хранилищ данных, а в конечном счете получают невероятное количество отдельных и ungoverned отчетов, визуализаций, дашбордов, которым они не могут доверять.

Tableau, Power BI и Qlik - отличные инструменты, если вы хотите, чтобы бизнес-пользователь мог выполнять локальную аналитику self-services для нужд своего отдела. Тем не менее, чтобы построить data-driven компанию на уровне всего предприятия, вам потребуется инструмент, который позволит упорядочить, структурировать и стандартизовать всю вашу бизнес-аналитику.

Читать далее

+1

2.2K

Galperin_Mark 3 февраля в 18:55

Вторая жизнь бани викторианской эпохи: итоги конкурса на лучшую архитектуру ЦОДа по версии издания Data Centre Dynamics

Блог компании ITSOFT Хранение данных *Хранилища данных *Бизнес-модели Урбанизм

Перевод

В декабре прошедшего года издание Data Centre Dynamics (DCD), освещающее события в сфере хранения и обработки данных подвело итоги года и обработав 7000 голосов специалистов присудила награды 14 номинациях. Одна из них касалась архитектуры Центров обработки данных и победу в ней одержала реконструкция старой бани в центре Манчестера, перепрофилированной в ЦОД. Расскажем о проекте более подробно, а также покажем других претендентов на звание самого красивого дата-центра.

Читать далее

+6

1.9K

URS_CDO 3 февраля в 13:33

Как вырастить аналитика хранилища данных за 60 дней: опыт Уралсиба

Блог компании Уралсиб Big Data *Хранилища данных *

Привет! Это вновь Игорь Гончаров, CDO Банка Уралсиб. Продолжаю рассказывать о том, как у нас устроена работа с данными. Сегодня я хочу поделиться опытом решения острой проблемы, боль от которой, я уверен, испытывают многие участники рынка.

Любая компания, которая развивает корпоративное хранилище данных, сталкивается с поиском и обучением аналитиков DWH. С тем, как и кого искать, всё ясно: есть набор компетенций, которыми должен обладать кандидат, плюс необходимые знания технологического стека. Однако с обучением и адаптацией вопросов куда больше.

Как быстро и качественно погрузить сотрудника в специфику именно этого хранилища? Как в максимально короткие сроки сделать работу аналитика максимально эффективной? И самое главное — как компании быстрее получить добавленную стоимость от работы нового специалиста?

Читать далее

+1

3.5K

pureacetone 1 февраля в 21:40

Анонимный обмен файлами. BitTorrent over I2P

Децентрализованные сети Занимательные задачки I2P *Хранилища данных *Киберпанк

Обсуждать публично тему анонимного обмена файлами считается не этично, так как нашему обывателю известен круг людей, грезящих об анонимности. За свежим списком следите в эфире федеральных телеканалов. Однако, вольномыслящему и здоровому человеку область применения анонимных торрентов рисуется легко и без угрызения совести. Вспомните WikiLeaks и другие разоблачения нечеловечности, которые для здорового человека являются преступлением, но по порой абсурдным законам распространение информации о таких преступлениях уже является преступлением вроде разглашения государственной тайны. Возможность секретной передачи файлов в таких случаях равна сохранению собственной жизни, здоровья и свободы.

Читать целиком

+62

17K

Stedihabr 1 февраля в 14:48

DBaaS: друг или враг?

Блог компании Timeweb Cloud Администрирование баз данных *Хранилища данных *Облачные сервисы

Перевод

Нажмите, чтобы узнать больше об авторе Matt Yonkovit.

Лесной пожар — это проявление могущественной силы природы. Он может все разрушить, а может дать начало новой жизни и способствовать положительному росту.

Облачная база данных как услуга (DataBase-as-a-Service, DBaaS) обладает аналогичной двойственностью.

«Сила» облака трансформировала нашу техническую инфраструктуру. Нигде это не проявляется так ярко, как в росте количества предложений DBaaS на рынке.

Мощные игроки рынка (такие, как Amazon Aurora, Azure SQL, Google Cloud SQL и MongoDB Atlas) быстро стали самым популярным для пользователей способом запуска базы данных в облаке. Но при неправильном развертывании или использовании перед пользователями могут возникать препятствия и проблемы. В своем последнем «Magic Quadrant» компания Gartner сделала стратегические предположения, что 75% всех БД будут развернуты или перемещены на облачные платформы, и только 5% облачных БД когда-либо рассматривались для возвращения в локальную среду. К 2023 году предпочтение к управлению данными в облаке приведет к сокращению количества поставщиков услуг, но в тоже время использование нескольких «облаков» усложнит управление данными и интеграцию.

Читать дальше →

+1

1.3K

phil88 1 февраля в 11:26

Эволюция хранилища данных в Авито

Блог компании Авито Big Data *Хранилища данных *

Сейчас Data Warehouse в Авито — это инсталляция на 32 серверах. Мы используем девятую версию Vertica и ClickHouse. В команде, которая отвечает за хранилище, работает 21 человек. Поток событий, который мы загружаем, достигает 20 миллионов событий в минуту. Я расскажу, как менялось наше хранилище аналитических данных с 2013 года.

Читать далее

+15

5.6K

Galperin_Mark 31 января в 18:51

Подводный ЦОД Microsoft: пассивное охлаждение, энергия волн и пост-квантовая криптография у берегов Шотландии

Блог компании ITSOFT Хранение данных *Хранилища данных *Будущее здесь

Перевод

Серым июльским днем у шотландских островов на поверхность был поднят цилиндр, покрытый ракушками. Его можно было принять за неразорвавшийся боеприпас времен Второй мировой войны, но он был больше, чем любая бомба. Двенадцать метров в длину, два метра в диаметре и размером со сверхмалую подводную лодку X-класса, на которых тренировались подводники в 1942 году. Но баржа с грузом не вернула часть военной истории. Логотип на борту дал ясно понять – это собственность Microsoft.

В 2018 году Microsoft подвела к объекту силовые и оптоволоконные кабели и намеренно затопила. В течение последующих 2 лет под 117-метровой толщей воды внутри цилиндра находились 12 стоек с ИТ-оборудованием обрабатывая рабочие нагрузки по программе Microsoft Azure (лазурный). Подводный центр обработки данных был последним экспериментом в рамках в проекте Natick, который ставил перед собой цель запустить необслуживаемые серверы и выяснить, может ли облако работать под водой. В июле 2020 года пришло время поднять капсулу и оценить результаты.

Читать далее

+17

6.4K

azathot 27 января в 16:13

Дилемма моделирования в рамках Data Vault/Anchor Modeling: объект или событие

Блог компании ManyChat Big Data *Хранилища данных *Data Engineering *

Всем привет :)

Меня зовут Голов Николай, я строю платформу данных на основе Snowflake и Anchor Modeling в ManyChat.

В этой статье я уже подробно рассказывал, как решал аналогичную задачу в Авито, используя Vertica и методологию Anchor Modeling. В комментариях меня спрашивали, с какими сложностями приходится сталкиваться при использовании этой модели, поэтому сегодня я решил поговорить именно о них и заодно поделиться решением, к которому мы пришли.

Читать далее

+6

2.1K

zen 26 января в 12:16

Как сделать стрим в Postgres?

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *PostgreSQL *Администрирование баз данных *Хранилища данных *

На одной конференции мне задали вопрос (спасибо Александру!): как сделать стрим в PostgreSQL? Представьте, что имеется bytea и вы к нему хотите что-то дописать. Люди столкнулись с тем, что на это в PostgreSQL тратится гигантское время и растет WAL-трафик.

Расскажу, что с этим возможно сделать — это будет еще один пример оптимизации TOAST (о чем я недавно писал), на на этот раз — для быстрой записи потока бинарных данных. На самом деле мой коллега, Никита Глухов, за несколько часов сделал расширение, которое «вылечило» проблему, и мы даже успели рассказать про это на сессии блиц-докладов на PGConf.Online 2021.

Читать далее

+33

6.4K

HannaBilova 25 января в 13:17

Планы Facebook по строительству дата-центра вызывают недовольство у жителей Нидерландов

Блог компании ua-hosting.company Хранение данных *Хранилища данных *Экология

Перевод

Местные жители переживают, что Big Tech дата центры будут выкачивать всю локальную «зеленую» энергию.

Дорога 61-летней Сьюзан Схаап из своего родного голландского города Зеволде в ближайший город Лелистад занимает 30 минут и на протяжении всей поездки можно созерцать бескрайние тюльпановые поля, прерывающиеся лишь ветряными турбинами и иногда овечками. Но если планы компании Facebook Meta будут одобрены, этот вид будет заменен крупнейшим в истории Нидерландов центром обработки данных.

Дата-центр Meta «слишком большой для такого маленького городка, как Зеволде», — говорит Схаап, которая стала одной из самых ярых противников проекта. «В Нидерландах уже есть 200 центров обработки данных», — утверждает она, и в случае позитивного решения, очень огромные площади сельскохозяйственных земель будут выделены только одной компании, «что несправедливо».

Читать дальше →

+12

2.8K

Galperin_Mark 24 января в 16:08

Космос – финальный рубеж освоения пространства дата-центрами

Блог компании ITSOFT Хранение данных *Хранилища данных *Космонавтика Будущее здесь

Перевод

Есть веские причины отправить 19-дюймовые стойки на орбиту и даже дальше

В прошлом году человечество впервые развернуло в космосе обычный центр обработки данных. В феврале 2021 года на Международной космической станции (МКС) была установлена система HPE Spaceborne Computer-2. На борт были доставлены машины двух моделей HPE Edgeline Converged EL4000 Edge и HPE ProLiant, оснащенные графическими процессорами Nvidia T4 для решения задач искусственного интеллекта. Это был первый готовый сервер, используемый в космосе для реальных рабочих нагрузок. “Цель миссии состояла в том, чтобы избежать затрат времени и средств на создание усиленной защиты компьютеров”, – здесь и далее говорит Марк Фернандес (Mark Fernandez), главный разработчик программы в Hewlett Packard Enterprise в интервью порталу Data Center Knowledge.

Читать далее

+19

3.1K

osj 24 января в 10:30

Как мы общебанковскую Informatica пилили

Big Data *Хранение данных *Хранилища данных *Data Engineering *

Однажды ребята позвали создать общебанковский контур ETL Informatica (Data Integration) и вот что из этого вышло.

Данный пост не является рекомендацией к действиям или последней инстанцией, тут описан подход который работает, возможно, что то можно улучшить (с).

Читать далее

0

872

zen 24 января в 00:26

Борьба с TOAST или будущее JSONB в PostgreSQL

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *PostgreSQL *Администрирование баз данных *Хранилища данных *

В PostgreSQL есть два типа данных: JSON и JSONB. Первый формат является текстовым хранилищем, в котором json хранится "as is", второй — бинарным, в нем ключи отсортированы (сначала по длине ключа, а потом по его названию), дубликаты удалены, а пробелы удалены.

Тип JSONB имеет богатую поддержку, облегчающую работу разработчиков приложений, для него есть встроенные индексы, кроме того, существует расширение Jsquery, в котором реализован язык запросов к JSONB и дополнительные индексы. Когда у меня спрашивают, чем пользоваться, я всегда советую JSONB, так как он позволяет работать очень эффективно.

Однако у постгреса есть серьёзная проблема, которая сказывается и на производительности JSONB — это TOAST, и о ней я говорил в первой части. Сегодня я расскажу о том, как мы улучшили JSONB для того, чтобы существенно повысить его производительность.

Читать далее

+56

11K

SeagateRussia 12 января в 17:09

Жесткие диски с поддержкой NVMe 2.0: в чем смысл?

Блог компании Seagate Хранение данных *Хранилища данных *Компьютерное железо

Летом 2021 года был представлен новый стандарт NVM Express 2.0 (NVMe 2.0). Изначально NVMe был разработан для твердотельных накопителей и сетей хранения данных, но в последней версии добавлена полноценная поддержка жестких дисков. Конечно, возникает логичный вопрос: зачем? Но обо всем по порядку.

Читать далее

+16

35K

juliaskogoreva 10 января в 12:36

Хранители данных: как устроена работа с DWH в Lamoda

Блог компании Lamoda Oracle *IT-инфраструктура *Хранение данных *Хранилища данных *

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

Читать далее

+13

4.5K

Cloudera 10 января в 11:33

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

Блог компании Cloudera Big Data *Хранилища данных *Hadoop *Data Engineering *

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.

SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.

Читать далее

0

799

1