Как стать автором
Обновить
35.17
Рейтинг

Хранилища данных

Публикации, рассказывающие о хранилищах данных

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Tango Controls hdbpp-docker

IT-инфраструктураХранение данныхХранилища данных
Tutorial
main

Эта статья продолжение статьи HDB++ TANGO Archiving System, в которой рассказывалось об архитектуре и о том как настроить архивацию. Здесь речь пойдет о том как поднять и настроить docker в котором будет работать база архивирования.

Читать дальше →
Рейтинг 0
Просмотры181
Комментарии 0

Новости

Показать еще

Как мы испытывали в бою High-End массив Huawei OceanStor Dorado 18000 V6

Блог компании Инфосистемы ДжетХранение данныхХранилища данных

«Не СХД, а болид “Формулы-1”», — подумал я, когда увидел анонс нового топового массива от Huawei. А еще со скепсисом: «Посмотрим, как этот суперкар покажет себя на трассе». И вот мне посчастливилось «обкатать» Huawei OceanStor Dorado 18000 V6, нагрузив ее синтетическими и прикладными тестами. Делюсь полученными результатами. Заодно получилось пройти незапланированный квест в поисках параметра, который вначале заметно портил картину производительности на AIX. Итак, под кат.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры1.1K
Комментарии 2

Из хлама в NAS и немного темы майнинга

Блог компании RUVDS.comХранилища данныхКомпьютерное железоСтарое железоКриптовалюты
Tutorial

Начну с того, что очень часто, рядом со мной аккумулируется разного рода железо (в простонародье хлам), а так как я по своей природе Плюшкин, в том плане, что я очень редко выкидываю технику, а если и случается предварительно вытаскиваю оттуда всё, что может хоть как-то пригодиться. И что бы ничего не выкидывать, периодически приходится находить применение всему этому железу, об этом сегодня и будет идти речь.

Итак мы имеем: ПК 11 летней давности в состоянии «трэш».
Если подробнее: у блока питания вздуты все конденсаторы на выходе, у жёсткого диска взорванный полимерный конденсатор на входе питания, видеокарта тоже не стартует. По моим догадкам, по 12в линии явно пошло сильно больше 12в. При этом материнка с процессором остались живы. Чудо!
И что можно из этого получить?
Всего голосов 52: ↑45 и ↓7 +38
Просмотры22.7K
Комментарии 59

Что нам стоит… загрузить JSON в Data Platform

Блог компании Леруа МерленBig DataХранение данныхХранилища данныхData Engineering

Всем привет! В недавней статье мы рассказали, как мы шли к построению нашей Data Platform.

Сегодня хотелось бы глубже погрузиться в «желудок» нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной схеме из упомянутой выше статьи (специально дублирую ее ниже, чтобы уважаемым читателям было удобнее), то сегодня мы будем более углубленно говорить о реализации «правой части» схемы — той, что лежит после Apache NiFi.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры812
Комментарии 0

Уроки стойкости, или Выбираем стойки для ИТ-оборудования правильно

Блог компании DataLineIT-инфраструктураХранение данныхХранилища данныхИнженерные системы

Уже 7 лет я занимаюсь в DataLine искусством capacity-менеджмента — управляю основными ресурсами дата-центра. Проще говоря, обеспечиваю каждому клиенту необходимое и достаточное место, электричество и холод для решения его задач. Мы уже рассказывали, как ведем статистику по потреблению оборудования и определяем стандартную мощность. Но что насчет самих стоек, которые отвечают за место?

Сегодня проведу небольшой ликбез по серверным стойкам, покажу, что и как мы выбираем для надежной работы оборудования. Список рекомендаций по выбору шкафов будет в последнем разделе, опытные ЦОДоводы могут сразу переключаться на него и предлагать свои дополнения.

Эта статья — итог нашего эфира в Телеграме. Можно заодно послушать запись эфира в Салатовой телеге.     

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Просмотры3.4K
Комментарии 5

Как мы используем Kafka Streams в команде хранилища данных Vivid Money?

Блог компании Vivid MoneyХранилища данных
Из песочницы

Привет! Меня зовут Андрей Серебрянский, я дата инженер в Vivid Money. Сегодня я расскажу про то, для каких задач можно применять Kafka Streams и покажу код для наших простых примеров. Это будет полезно тем, кто использует Kafka, но еще не пробовал Kafka Streams. Если вы бы хотели сохранять состояние при обработке Kafka топиков или искали простой синтаксис для обогащения одних топиков информацией из других, то сегодня я покажу, как это можно делать легко и практически из коробки.

Читать далее
Рейтинг 0
Просмотры1.1K
Комментарии 2

Платформа данных в Леруа Мерлен – 2 года, сотни источников и более 2.000 пользователей

Блог компании Леруа МерленОблачные вычисленияBig DataХранилища данных

Всем привет!

На сегодняшний день данные и всё связанное с ними (ML, AI, DataMining, etc) это самый хайповый тренд в IT-индустрии. Все - от ритейлеров до компаний Илона Маска - работают (или пытаются работать) с данными. Нас в Леруа Мерлен эта волна не обошла стороной - data-driven подход к принятию решений является одним из основных в компании. Следуя ему, мы создали свою платформу данных, которой на данный момент пользуется около 2 тыс.человек, а в минуту обрабатывается примерно 1800 запросов. В этой статье мы (Data-команда Леруа Мерлен Россия) расскажем, как за 2 года построили платформу данных в компании с большим количеством оффлайн-процессов, про ее архитектуру и опыт, который мы получили в процессе создания.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры3.9K
Комментарии 16

Как упростить доработки и поддержку хранилища данных?

Анализ и проектирование системERP-системыBig DataХранилища данныхФинансы в IT
Из песочницы

Избыточная сложность хранилищ данных и связанных с ними информационных систем затрудняет проведение доработок, необходимых для интеграции систем или для удовлетворения новых требований, задерживает регулярную обработку данных, способствует появлению ошибок и мешает поиску их причин.

Проявления избыточной сложности в хранилищах данных можно перечислять долго. Это таблицы с сотнями полей, SQL-скрипты на тысячи строк, отдельные SQL-скрипты одинакового назначения для разных типов данных, отсутствие необходимой нормализации данных, отсутствие первичных ключей и ограничений целостности, отсутствие необходимых полей начала или окончания срока действия записи, наличие многочисленных и сложных «костылей», перекодировка или реклассификация данных, изменение типа или формата данных, замена идентификаторов, разнобой в наименованиях, излишнее количество слоев информационной системы, «протягивание» полей окольными путями, упаковка и распаковка составных полей, расчет лишних полей и использование лишних связей и условий, дублирование информации в записях и лишняя фильтрация записей, наследование таблиц, отсутствие единых правил заполнения данных.

Основной причиной избыточной сложности является денормализация в витринах данных. Популярное утверждение «денормализируйте, если необходимо повысить производительность» игнорирует проблему избыточной сложности, и поэтому во многих случаях неверно. Впрочем, источник цитаты это признает: «денормализованная база данных под большой нагрузкой может работать медленнее, чем её нормализованный аналог». Нетребовательность к структуре и качеству данных со временем неизбежно приводит к усложнению структуры данных и алгоритмов, ошибкам, замедлению работы информационных систем и раздуванию IT-подразделений.

Но можно значительно упростить доработки и поддержку хранилища данных, если придерживаться описанных далее правил.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры1K
Комментарии 2

Dell EMC PowerStore и AppSync: эффективная работа с копиями данных

Блог компании Dell TechnologiesСистемное администрированиеIT-инфраструктураХранение данныхХранилища данных

Мы продолжаем цикл публикаций о системе хранения Dell EMC PowerStore. Сегодня расскажем о том, как эффективно организовать работу с различными версиями продуктивных данных и их копиями при совместном использовании PowerStore и программного продукта Dell EMC AppSync.

Уверены, каждый хоть раз задумывался о количестве информации, которой мы с вами окружены, о том, с какой колоссальной скоростью она создается. Данные стали самостоятельным ресурсом, ценность которого зачастую гораздо выше физических носителей или устройств обработки. Потеря или неэффективное их использование может оказать негативное, а порой и губительное влияние на работоспособность организаций. Но, безусловно, главной ценностью обладает именно актуальная информация, поэтому важны не только сами данные, но и их копии, и возможность оперативно работать с ними. Это позволяет значительно повысить ценность самой информации.

Читать далее
Рейтинг 0
Просмотры389
Комментарии 3

Создаём компанию мечты: нет хайпу

Анализ и проектирование системBig DataХранилища данныхУправление проектами
Recovery mode
Наверняка в вашей компании уже не раз появлялись ребята в дорогих костюмах и с хорошо подвешенным языком, увлекательно рассказывающие, что без современных айти-штучек компания не проживет и несколько лет!

Все эти data lake (болото данных), КХД (корпоративное кладбище данных), data mining (смотри, не подорвись), data governance (стань рабом своих данных) и им подобные не исчезают из их рассказов, периодически сменяя друг друга. Срок жизни очередного хайпа редко превышает год-два, но при желании для вас с большим удовольствием откопают любую почти забытую технологию.

При этом биг-дату продают как такой волшебный сундук, из которого можно доставать разные чудеса: то ковер-самолёт, то сапоги-скороходы, а то и шамаханскую царицу (кому что актуально). Вот только, как правило, ковёр-самолёт проеден волшебной же молью — и больше не летает, у сапог отвалилась подошва — и пешком-то в них ходить неудобно, а про дряхлую царицу и говорить нечего.

В этой статье я постараюсь рассказать о старых-добрых технологиях, которые всё ещё работают. О том, что можно извлечь из перечисленных выше хайповых технологий — и как всем этим пользоваться простым смертным, типа нас, не нанимая толпу дата-сайентологов с зарплатами >10 тысяч $ в месяц.

image
Подробнее
Всего голосов 6: ↑5 и ↓1 +4
Просмотры3.1K
Комментарии 13

Нагрузочное тестирование СХД на Эльбрусе на базе нового ядра Линукс версии 5.4

Блог компании АЭРОДИСКСистемное администрированиеIT-инфраструктураХранение данныхХранилища данных


Тестирование СХД Аэродиск Восток на базе процессоров Эльбрус 8С на новом ядре 5.4 показало крайне позитивный результат: 1,4 миллиона IOPS! Пока оптимисты верили и надеялись, а пессимисты снисходительно улыбались, программисты работали — писали код. В итоге новая версия ядра Линукс v5.4 для архитектуры Эльбрус позволила в разы улучшить производительность подсистемы ввода-вывода и полностью реализовать процессора Эльбрус 8С/СВ для систем хранения данных.

Читать дальше →
Всего голосов 33: ↑30 и ↓3 +27
Просмотры8.7K
Комментарии 21

Как мы внедрили свою модель хранения данных — highly Normalized hybrid Model. Доклад Яндекса

Блог компании ЯндексАдминистрирование баз данныхХранение данныхХранилища данных
Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы в Яндекс Go пришли к неожиданному ответу: выбирать надо не между подходами, а лучшее из двух подходов.

Темы доклада, который вместе со мной прочитал Николай Гребенщиков:
— DV и AM: в чем разница и где точки соприкосновения
— Гибридный подход к построению хранилища
— Сильные и слабые стороны этого подхода
— Примеры кода
— Дальнейший вектор развития hNhM

— Меня зовут Евгений Ермаков, я руководитель Data Warehouse в Яндекс Go.
Читать дальше →
Всего голосов 27: ↑26 и ↓1 +25
Просмотры2.6K
Комментарии 10

Транзакции. Часть 2. Конспект книги «Designing Data-Intensive Applications»

ПрограммированиеАнализ и проектирование системХранение данныхХранилища данных

Эта статья является конспектом книги «Designing Data-Intensive Applications».

В предыдущем конспекте мы рассмотрели «грязную» операцию чтения – это разновидность состояния гонки, возникающая при попытке конкурентной записи в одни объекты различными транзакциями. К этой категории проблем также относится ситуация потери обновления.

Однако на этом список возможных состояний гонки, возникающих при конкурентных операциях записи не заканчивается. В этом конспекте рассмотрим более сложные примеры конфликтов и то, как с ними бороться. Далее затронем изоляцию уровня сериализуемости, в том числе различные методы, которые обеспечивают сериализуемость. И в конце подведем итоги по транзакциям.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры3.9K
Комментарии 1

Будущее без пластика: как данные помогают экологии

Блог компании SeagateХранилища данныхЭкология

В нашем блоге мы неоднократно подчеркивали важность данных для бизнеса и отдельных пользователей. Не зря данные называют новой нефтью. Нет такой сферы, где современные технологии получения, обработки и анализа данных не привели бы к революционным изменениям. И сегодня мы поговорим об экологии, вернее, о пластиковых отходах, из которых формируются целые острова мусора в океане. Данные изменили многие подходы к вопросам экологии, и в конечном итоге они помогут решить одну из злободневных проблем человечества.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры1.3K
Комментарии 9

Автоматизация в центрах обработки данных

Блог компании Hewlett Packard EnterpriseСерверное администрированиеАдминистрирование баз данныхХранение данныхХранилища данных

В большинстве серверов HPE имеется встроенный контроллер управления Integrated Lights Out (iLO). Его первоначальное назначение – удаленное управление сервером:
включение/выключение, перехват графической консоли, подключение медиа-устройств – что и иллюстрирует название «Lights-Out» – «Свет выключен» – в ЦОД, где трудятся серверы HPE, администратору нет необходимости быть рядом.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры1.7K
Комментарии 1

Транзакции. Часть 1. Конспект книги «Designing Data-Intensive Applications»

ПрограммированиеАнализ и проектирование системХранение данныхХранилища данных

Эта статья является конспектом книги «Designing Data-Intensive Applications».

В суровой реальности информационных систем очень многое может пойти не так - программное или аппаратное обеспечение базы данных может отказать в любой момент; в любой момент может произойти фатальный сбой приложения; разрывы сети могут неожиданно отрезать приложение от базы данных или один узел базы от другого; состояния гонки между клиентами могут привести к неожиданным ошибкам.

Транзакции в течение десятилетий считались предпочтительным механизмом решения этих проблем. Транзакция — способ группировки приложением нескольких операций записи и чтения в одну логическую единицу. По сути, все операции записи и чтения в ней выполняются как одна: вся транзакция или целиком выполняется успешно (с фиксацией изменений), или целиком завершается неудачно (с прерыванием и откатом). Транзакции значительно упрощают для приложения обработку ошибок, поскольку нет нужды заботиться о частичных отказах.

В этом конспекте рассмотрим примеры возможных проблем и изучим алгоритмы, которые используют БД для их предотвращения. Рассмотрим вопрос управления конкурентным доступом, обсудим различные виды возникающих состояний гонки, а также реализацию в базах различных уровней изоляции.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры6.7K
Комментарии 1

Ровняем шарды

NoSQLMongoDBАдминистрирование баз данныхХранение данныхХранилища данных
image

"Размышления без практики приводят к заблуждению, практика без размышления приводит к затруднению."


Мы ведём войну с индивидуальностью у шардов в кластере MongoDB. Это продолжение статьи Шардинг от которого невозможно отказаться, а это значит, что наступила пора конкретики.


Как я и обещал, здесь мы рассмотрим подробнее:


  • настройку процесса выравнивания размера шардов
  • расчет поправок для коррекции границ
  • мониторинг распределения данных в коллекциях
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры1.4K
Комментарии 2

Подсистемы хранения и извлечение данных. Конспект книги «Designing Data-Intensive Applications»

ПрограммированиеАнализ и проектирование системХранение данныхХранилища данных

Эта статья является конспектом книги «Designing Data-Intensive Applications».

В этом конспекте рассмотрим, как сохранить полученные от пользователя данные и как найти их снова в случае запроса с точки зрения БД.

Почему разработчика приложений должны волновать внутренние нюансы того, как БД хранит данные и как она их находит? Вряд ли вы собираетесь реализовать собственную подсистему хранения данных с нуля, но вам определенно нужно выбрать из множества существующих подсистему хранения, подходящую именно для вашего приложения. Чтобы настроить его на оптимальную работу при вашей нагрузке, не помешает иметь хотя бы приблизительное представление о том, каковы внутренние механизмы функционирования подсистемы хранения.

Читать далее
Рейтинг 0
Просмотры1.4K
Комментарии 0

Пример архитектуры аналитического решения с использованием платформы Snowflake

Блог компании EPAMSQLBig DataХранилища данныхData Engineering
Перевод

Всем привет, меня зовут Максим Крупенин, я работаю Data & Analytics Solution Architect в EPAM Systems. За 4 года работы в EPAM мне пришлось поработать в разных проектах, связанных с BI, Big Data, Data warehouse и другими технологиями. В этой статье поделюсь одним из клиентских проектов, где мы реализовали кастомное решение для near real time-аналитики на базе Snowflake. Надеюсь, статья будет полезной, оставляйте фидбек в комментариях.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры2K
Комментарии 5

Озеро, хранилище и витрина данных

Блог компании IBMData MiningBig DataХранение данныхХранилища данных
Перевод
Рассмотрим три типа облачных хранилищ данных, их различия и области применения.


Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры1.9K
Комментарии 5

Вклад авторов