Облачные хранилища удобны и прочно вошли в жизнь рабочих и колхозниц, однако, имеют ряд недостатков. Это цена за гигабайт, проблемы с приватностью данных (причём, как со стороны хакеров, так и со стороны владельцев облачного сервиса), риск блокировки аккаунта (привет гуглу) или недоступность сервиса из определённых стран (привет яндексу). В этой статье хотелось бы кратко рассказать про одну свою поделку, которую я тихо мастерю для себя и так, как я это вижу. Она не претендует на роль лучшего или уникального решения, просто мне показалось, что сделать именно так будет лучше и удобнее для пользователя.
![](http://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/hub/897/faa/d43/897faad4310f59b4e5547371b5bd196f.png)
Хранилища данных *
Публикации, рассказывающие о хранилищах данных
Новости
Информационные батареи: то что может свергнуть монополию литий-ионных аккумуляторов
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/webt/iz/bt/eu/izbteunwq3plmaekd7zdcpqimuc.jpeg)
Преодоление непостоянства возобновляемой энергии является фундаментальной проблемой, ключевыми ответами на которую являются переключение нагрузки и хранение в масштабе сети. Будущее, основанное на устойчивых источниках энергии, может спасти мир от разрушительного изменения климата, сократив расходы за электроэнергию. Но у возобновляемых источников энергии есть проблема прерывистости — Солнце ночью не даёт энергии, а ветер может прекратиться. Кроме того, электрические сети должны поддерживать баланс между спросом и предложением, иначе возникнут риски перенапряжений и отключений электроэнергии. Вследствие чего возобновляемая энергия сбрасывается во время избыточного производства, в то время как в другое время электростанции сжигают ископаемое топливо, чтобы восполнить дефицит в сети. При таком раскладе, через пять лет количество возобновляемой энергии, например, ежегодно теряемой в Калифорнии, будет эквивалентно количеству энергии, используемой Лос-Анджелесом каждый год.
Оптимальное использование батарей считается ключом к решению проблемы прерывистости за счёт накопления энергии при сильном ветре и солнце. Но текущие решения для хранения, включая литий-ионные батареи и гидронасосы, дороги и сложны в масштабировании.
Что если бы избыток возобновляемой энергии можно было бы вместо этого хранить в виде вычислений? Идея «информационных батарей» предложенная студентами из Калифорнийского университета в Сан-Диего, опубликовано в ACM Energy Informatics Review.
Кто такой data-инженер в Тинькофф и как им стать
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/674/fb7/fce/674fb7fceaf1d2589bcd077338251557.png)
Привет! Меня зовут Михаил Иванов, я работаю архитектором DWH в Тинькофф и занимаюсь развитием Batch ETL направления платформы обработки данных. Я расскажу о направлении data engineering в Тинькофф, о том, чем занимаются data-инженеры и как попасть к нам в команду.
Как BI «купается» в озёрах данных: практика платформы «Форсайт». Часть 2. Виртуализация данных
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/240/df7/c16/240df7c16218d003f2ab141afa0fbc3c.png)
Всем привет.
Мы продолжаем цикл публикаций о том, как наша BI-платформа «Форсайт» работает с данными. В этой статье мы бы хотели поговорить о том, как выйти за рамки привычного online analytical processing (OLAP) и с помощью enterprise BI погрузиться в проблематику «Fixed format reporting». Какие средства и возможности дает BI-платформа для 100% точного воспроизведения шаблона официальной отчётности? Как это можно сделать с помощью трансформации и виртуализации данных многомерных ROLAP-кубов? Расскажем о том, как в платформе «Форсайт» на уровне бизнес-логики и семантического слоя можно выполнить аналоги реляционных операций view, join, group by и т.п. Итак, за всеми этими подробностями добро пожаловать под кат!
Единый семантический слой BI и что он дает на примере платформы Microstrategy
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/ce7/0d0/e33/ce70d0e3327f02cad88b3258332a9d7e.png)
Ежедневно я общаюсь с большим количеством крупных компаний. Нередко они выражают желание построить data-driven компанию в течение следующих нескольких лет. Их ключевая стратегия заключается в создании DWH/Big data и подключении к ней пользователей, которые сами будут строить отчеты, визуализации и дашборды, используя self-service инструменты - Tableau, Power BI или Qlik.
Одна из основных проблем Tableau, Power BI или Qlik - у них нет единого семантического слоя, единой логической модели, единого определения всех атрибутов, фактов и показателей для всей бизнес-аналитики компании. Именно поэтому они растут в компании без контроля и governance, порождая множество версий правды в отчетности и аналитике в компании. Через какое-то время компании сталкиваются с тем, что уже не могут разобраться какому отчету доверять - данные не сходятся не только в разных системах Tableau, Power BI или Qlik, но и между отчетами в одной системе. Получается, что компании вкладывают огромные средства в построение единой версии правды на уровне хранилищ данных, а в конечном счете получают невероятное количество отдельных и ungoverned отчетов, визуализаций, дашбордов, которым они не могут доверять.
Tableau, Power BI и Qlik - отличные инструменты, если вы хотите, чтобы бизнес-пользователь мог выполнять локальную аналитику self-services для нужд своего отдела. Тем не менее, чтобы построить data-driven компанию на уровне всего предприятия, вам потребуется инструмент, который позволит упорядочить, структурировать и стандартизовать всю вашу бизнес-аналитику.
Вторая жизнь бани викторианской эпохи: итоги конкурса на лучшую архитектуру ЦОДа по версии издания Data Centre Dynamics
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/89a/f53/284/89af53284e9e92f90fe8002426190b7c.jpg)
В декабре прошедшего года издание Data Centre Dynamics (DCD), освещающее события в сфере хранения и обработки данных подвело итоги года и обработав 7000 голосов специалистов присудила награды 14 номинациях. Одна из них касалась архитектуры Центров обработки данных и победу в ней одержала реконструкция старой бани в центре Манчестера, перепрофилированной в ЦОД. Расскажем о проекте более подробно, а также покажем других претендентов на звание самого красивого дата-центра.
Как вырастить аналитика хранилища данных за 60 дней: опыт Уралсиба
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/5ea/115/79a/5ea11579a8a1f16c9dfeab19578037d7.jpg)
Привет! Это вновь Игорь Гончаров, CDO Банка Уралсиб. Продолжаю рассказывать о том, как у нас устроена работа с данными. Сегодня я хочу поделиться опытом решения острой проблемы, боль от которой, я уверен, испытывают многие участники рынка.
Любая компания, которая развивает корпоративное хранилище данных, сталкивается с поиском и обучением аналитиков DWH. С тем, как и кого искать, всё ясно: есть набор компетенций, которыми должен обладать кандидат, плюс необходимые знания технологического стека. Однако с обучением и адаптацией вопросов куда больше.
Как быстро и качественно погрузить сотрудника в специфику именно этого хранилища? Как в максимально короткие сроки сделать работу аналитика максимально эффективной? И самое главное — как компании быстрее получить добавленную стоимость от работы нового специалиста?
Анонимный обмен файлами. BitTorrent over I2P
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/017/4b8/459/0174b8459132e0c282d514d00373b083.jpg)
Обсуждать публично тему анонимного обмена файлами считается не этично, так как нашему обывателю известен круг людей, грезящих об анонимности. За свежим списком следите в эфире федеральных телеканалов. Однако, вольномыслящему и здоровому человеку область применения анонимных торрентов рисуется легко и без угрызения совести. Вспомните WikiLeaks и другие разоблачения нечеловечности, которые для здорового человека являются преступлением, но по порой абсурдным законам распространение информации о таких преступлениях уже является преступлением вроде разглашения государственной тайны. Возможность секретной передачи файлов в таких случаях равна сохранению собственной жизни, здоровья и свободы.
DBaaS: друг или враг?
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/post_images/93d/34d/847/93d34d84745b53224a3525f642fca2d3.png)
Нажмите, чтобы узнать больше об авторе Matt Yonkovit.
Лесной пожар — это проявление могущественной силы природы. Он может все разрушить, а может дать начало новой жизни и способствовать положительному росту.
Облачная база данных как услуга (DataBase-as-a-Service, DBaaS) обладает аналогичной двойственностью.
«Сила» облака трансформировала нашу техническую инфраструктуру. Нигде это не проявляется так ярко, как в росте количества предложений DBaaS на рынке.
Мощные игроки рынка (такие, как Amazon Aurora, Azure SQL, Google Cloud SQL и MongoDB Atlas) быстро стали самым популярным для пользователей способом запуска базы данных в облаке. Но при неправильном развертывании или использовании перед пользователями могут возникать препятствия и проблемы. В своем последнем «Magic Quadrant» компания Gartner сделала стратегические предположения, что 75% всех БД будут развернуты или перемещены на облачные платформы, и только 5% облачных БД когда-либо рассматривались для возвращения в локальную среду. К 2023 году предпочтение к управлению данными в облаке приведет к сокращению количества поставщиков услуг, но в тоже время использование нескольких «облаков» усложнит управление данными и интеграцию.
Эволюция хранилища данных в Авито
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/bce/536/c6b/bce536c6bb3b575cf2a4d37e22ed8953.png)
Сейчас Data Warehouse в Авито — это инсталляция на 32 серверах. Мы используем девятую версию Vertica и ClickHouse. В команде, которая отвечает за хранилище, работает 21 человек. Поток событий, который мы загружаем, достигает 20 миллионов событий в минуту. Я расскажу, как менялось наше хранилище аналитических данных с 2013 года.
Подводный ЦОД Microsoft: пассивное охлаждение, энергия волн и пост-квантовая криптография у берегов Шотландии
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/307/b48/ded/307b48ded6788a22e3a5fa2e57711418.jpg)
Серым июльским днем у шотландских островов на поверхность был поднят цилиндр, покрытый ракушками. Его можно было принять за неразорвавшийся боеприпас времен Второй мировой войны, но он был больше, чем любая бомба. Двенадцать метров в длину, два метра в диаметре и размером со сверхмалую подводную лодку X-класса, на которых тренировались подводники в 1942 году. Но баржа с грузом не вернула часть военной истории. Логотип на борту дал ясно понять – это собственность Microsoft.
В 2018 году Microsoft подвела к объекту силовые и оптоволоконные кабели и намеренно затопила. В течение последующих 2 лет под 117-метровой толщей воды внутри цилиндра находились 12 стоек с ИТ-оборудованием обрабатывая рабочие нагрузки по программе Microsoft Azure (лазурный). Подводный центр обработки данных был последним экспериментом в рамках в проекте Natick, который ставил перед собой цель запустить необслуживаемые серверы и выяснить, может ли облако работать под водой. В июле 2020 года пришло время поднять капсулу и оценить результаты.
Дилемма моделирования в рамках Data Vault/Anchor Modeling: объект или событие
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/0da/a30/b2d/0daa30b2d1c123b4e90d47bfa380749f.png)
Всем привет :)
Меня зовут Голов Николай, я строю платформу данных на основе Snowflake и Anchor Modeling в ManyChat.
В этой статье я уже подробно рассказывал, как решал аналогичную задачу в Авито, используя Vertica и методологию Anchor Modeling. В комментариях меня спрашивали, с какими сложностями приходится сталкиваться при использовании этой модели, поэтому сегодня я решил поговорить именно о них и заодно поделиться решением, к которому мы пришли.
Как сделать стрим в Postgres?
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/e63/87e/62d/e6387e62da98db2eab821c4594d34b57.png)
На одной конференции мне задали вопрос (спасибо Александру!): как сделать стрим в PostgreSQL? Представьте, что имеется bytea и вы к нему хотите что-то дописать. Люди столкнулись с тем, что на это в PostgreSQL тратится гигантское время и растет WAL-трафик.
Расскажу, что с этим возможно сделать — это будет еще один пример оптимизации TOAST (о чем я недавно писал), на на этот раз — для быстрой записи потока бинарных данных. На самом деле мой коллега, Никита Глухов, за несколько часов сделал расширение, которое «вылечило» проблему, и мы даже успели рассказать про это на сессии блиц-докладов на PGConf.Online 2021.
Планы Facebook по строительству дата-центра вызывают недовольство у жителей Нидерландов
![image](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/webt/mf/j4/rq/mfj4rqolq9iucdaonxec6a7vqd4.png)
Дорога 61-летней Сьюзан Схаап из своего родного голландского города Зеволде в ближайший город Лелистад занимает 30 минут и на протяжении всей поездки можно созерцать бескрайние тюльпановые поля, прерывающиеся лишь ветряными турбинами и иногда овечками. Но если планы компании Facebook Meta будут одобрены, этот вид будет заменен крупнейшим в истории Нидерландов центром обработки данных.
Дата-центр Meta «слишком большой для такого маленького городка, как Зеволде», — говорит Схаап, которая стала одной из самых ярых противников проекта. «В Нидерландах уже есть 200 центров обработки данных», — утверждает она, и в случае позитивного решения, очень огромные площади сельскохозяйственных земель будут выделены только одной компании, «что несправедливо».
Космос – финальный рубеж освоения пространства дата-центрами
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/2ab/dee/958/2abdee958c3aa7b2ec00803dbfeaf1f1.jpg)
Есть веские причины отправить 19-дюймовые стойки на орбиту и даже дальше
В прошлом году человечество впервые развернуло в космосе обычный центр обработки данных. В феврале 2021 года на Международной космической станции (МКС) была установлена система HPE Spaceborne Computer-2. На борт были доставлены машины двух моделей HPE Edgeline Converged EL4000 Edge и HPE ProLiant, оснащенные графическими процессорами Nvidia T4 для решения задач искусственного интеллекта. Это был первый готовый сервер, используемый в космосе для реальных рабочих нагрузок. “Цель миссии состояла в том, чтобы избежать затрат времени и средств на создание усиленной защиты компьютеров”, – здесь и далее говорит Марк Фернандес (Mark Fernandez), главный разработчик программы в Hewlett Packard Enterprise в интервью порталу Data Center Knowledge.
Как мы общебанковскую Informatica пилили
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/126/6dc/350/1266dc350a0d3d815371b8b0903821a5.jpeg)
Однажды ребята позвали создать общебанковский контур ETL Informatica (Data Integration) и вот что из этого вышло.
Данный пост не является рекомендацией к действиям или последней инстанцией, тут описан подход который работает, возможно, что то можно улучшить (с).
Борьба с TOAST или будущее JSONB в PostgreSQL
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/3b9/9b4/c7d/3b99b4c7d01d2dd93daddcb5008bdf03.jpg)
В PostgreSQL есть два типа данных: JSON и JSONB. Первый формат является текстовым хранилищем, в котором json хранится "as is", второй — бинарным, в нем ключи отсортированы (сначала по длине ключа, а потом по его названию), дубликаты удалены, а пробелы удалены.
Тип JSONB имеет богатую поддержку, облегчающую работу разработчиков приложений, для него есть встроенные индексы, кроме того, существует расширение Jsquery, в котором реализован язык запросов к JSONB и дополнительные индексы. Когда у меня спрашивают, чем пользоваться, я всегда советую JSONB, так как он позволяет работать очень эффективно.
Однако у постгреса есть серьёзная проблема, которая сказывается и на производительности JSONB — это TOAST, и о ней я говорил в первой части. Сегодня я расскажу о том, как мы улучшили JSONB для того, чтобы существенно повысить его производительность.
Жесткие диски с поддержкой NVMe 2.0: в чем смысл?
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/f70/e20/ac4/f70e20ac4bf0a2313b10fea12fd4991e.jpg)
Летом 2021 года был представлен новый стандарт NVM Express 2.0 (NVMe 2.0). Изначально NVMe был разработан для твердотельных накопителей и сетей хранения данных, но в последней версии добавлена полноценная поддержка жестких дисков. Конечно, возникает логичный вопрос: зачем? Но обо всем по порядку.
Хранители данных: как устроена работа с DWH в Lamoda
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/9e8/043/b3c/9e8043b3cd6c6eb64ff5d50762db1a36.png)
Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.
Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.
В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.
Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL
![](https://webcf.waybackmachine.org/web/20220303084732im_/https://habrastorage.org/getpro/habr/upload_files/ec7/790/5e9/ec77905e9eb2d09f78fcfff9e97384a7.png)
Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL
В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.
SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.
Вклад авторов
-
1cloud 677.0 -
ru_vds 511.6 -
it_man 496.0 -
Viacheslav_V 234.0 -
WesternDigital 234.0 -
host_m 197.2 -
KorP 170.0 -
olegbunin 156.0 -
alizar 155.0