Как стать автором
Обновить
31.12
Рейтинг

Хранилища данных *

Публикации, рассказывающие о хранилищах данных

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Jellyfish: Экономически целесообразная стратификация данных для крупнейшего хранилища Uber

Высокая производительность *Хранение данных *Хранилища данных *IT-компании
Перевод

Задача

В Uber применяется несколько технологий хранения информации, причем, хранение бизнес-данных зависит от того, какова модель приложения, в которой они применяются. Одна из таких технологий называется Schemaless и обеспечивает моделирование взаимосвязанных записей с представлением в виде одной строки из множества столбцов, а также версионирование для каждого столбца отдельно.

Schemaless в ходу уже пару лет, и там накапливаются данные Uber. Притом, что Uber консолидирует все практические кейсы в Docstore, Schemaless остается источником истины для различных клиентских конвейеров задач, тех, что существуют уже давно. Schemaless как таковая использует быструю (но дорогую) базовую технологию хранения данных, которая позволяет обходиться задержкой порядка нескольких миллисекунд при высоком показателе QPS (запросы в секунду). Кроме того, Schemaless развертывает для каждого региона несколько реплик, чтобы обеспечить сохранность и доступность данных при различных моделях отказов.

Поскольку Schemaless – дорогостоящее хранилище, а данных в нем накапливается все больше, она превратилась в ключевую статью расходов и поэтому требует внимания. Чтобы разобраться в этой ситуации, были проведены замеры, помогающие лучше понять паттерны обращения к данным. Было обнаружено, что в течение некоторого периода времени обращения к данным происходили часто, а после этого – не столь часто. Точная длительность такого периода варьируется от кейса к кейсу, но при любом запросе старые данные все равно должны безусловно предоставляться по запросу.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 303
Комментарии 0

Apache Spark: оптимизация производительности на реальных примерах

Блог компании Neoflex Apache *Big Data *Хранилища данных *Data Engineering *
Из песочницы

Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком.

Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора данных, написав всего одну строку кода. Но только задумайтесь: что происходит в кластере при соединении двух наборов данных, которые могут и не находится целиком на каком-либо из узлов кластера? Обычно Spark со всем справляется быстро, но иногда, а особенно, если данных действительно много, необходимо все-таки понимать – что происходит уровнем ниже и использовать это знание, чтобы помочь Spark работать в полную силу.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 3.2K
Комментарии 5

Репликация ClickHouse без костылей: ожидание и реальность

Блог компании Туту.ру Системное администрирование *Администрирование баз данных *Хранилища данных *DevOps *


Про ClickHouse есть много разной информации, но мало про то, как готовить инфраструктуру с ним. Мы потратили примерно полгода вялого набивания шишек, чтобы это заработало именно так, как нас наконец-то устраивает. Нужно было найти конфигурацию эффективную и в плане денег, и в плане работы базы как таковой.

На момент написания статьи хранилищем и результатами его работы пользуются 16+ команд (11+ аналитиков и 2 data scientist, 70+ разработчиков, руководители и менеджерский состав).

Ежесуточно в хранилище поступает ~1,2 ТБ данных, пользователи и автоматика для построения отчётности генерируют ~35 000 запросов в сутки на выборки различной сложности. Подробнее про наше хранилище и то, какие задачи для бизнеса им решаем, можно почитать по ссылке.
Читать дальше →
Всего голосов 35: ↑34 и ↓1 +33
Просмотры 4.7K
Комментарии 11

История HDD, часть II

Блог компании Seagate Хранение данных *Хранилища данных *История IT Старое железо

Жесткие диски знакомы всем пользователям, без них сложно представить современный компьютер. Конечно, SSD вытеснили жесткие диски в сценариях, где требуется максимальная производительность, например, для загрузочного раздела ОС. Но если нужна максимальная емкость, то без HDD не обойтись.

Сегодня жесткие диски достигли емкости 18 Тбайт, а скоро выйдут и более емкие модели, в том числе и благодаря технологии термомагнитной записи (HAMR). 3,5" форм-фактор жестких дисков сегодня утвердился, однако они не всегда были такими. В нашем цикле статей мы проведем небольшой экскурс в историю жестких дисков.

В первой части мы начали с 50-х годов прошлого века. Сейчас же мы перейдем к эпохе миникомпьютеров, которые появились в 1980-е годы.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 9.4K
Комментарии 9

За парту в дата-центре, или Как мы строим распределенный центр подготовки инженеров

Блог компании DataLine Хранилища данных *Учебный процесс в IT Карьера в IT-индустрии Инженерные системы

Привет, Хабр! Меня зовут Антон Турсунов, я руковожу центром подготовки дежурного персонала ЦОД и уже давно считаю день знаний своим праздником. До этого я был старшим инженером службы технической поддержки на площадке OST и занимался обучением дежурных дата-центра: помогал освоить особенности оборудования и ПО, рассказывал про специфику работы с клиентскими запросами и другие азы профессии инженера. 

В прошлом году наша сеть дата-центров расширилась: команды «Ростелеком-ЦОД» и DataLine объединились, да еще и начали вместе строить новые ЦОДы. К московским площадкам добавились региональные: в Удомле, Санкт-Петербурге, Екатеринбурге, Новосибирске. Стало важно выстроить единую систему обучения дежурных, при этом сохранить гибкость и учесть особенности подготовки на местах.

Расскажу, как мы решаем эту задачу в центре подготовки инженеров ЦОД, как и почему сделали его распределенным, и какие изменения произошли в системе обучения в компании.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 1.2K
Комментарии 3

Красивое дерево PATRICIA (Реализация на C++)

C++ *Визуализация данных Хранение данных *Хранилища данных *Учебный процесс в IT
Из песочницы
Tutorial

Забытое, сложное, изумительное, красивое дерево со звуком ломающихся коленок.

Прострелить колени о патрицию
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 4.6K
Комментарии 7

Как NAS защитить от программ-вымогателей?

Блог компании ITSOFT Информационная безопасность *Хранение данных *Хранилища данных *
Перевод

Программы-вымогатели и другие угрозы всё чаще нацелены на NAS – Network Attached Storage – сетевые файловые накопители. Поэтому важно убедиться в том, что устройства настроены в соответствии с уже отработанными практиками безопасности. 

Что NAS защитит?
Всего голосов 6: ↑3 и ↓3 0
Просмотры 6.8K
Комментарии 10
Со стороны кажется, что новый дата-центр, построенный с нуля за полгода — это тривиальный проект. Но, во-первых, в дело вкрались всем известные события 2020-го. А во-вторых, Утконос ОНЛАЙН не нужен был просто дата-центр; им нужно было решение, на котором можно основать будущее компании. Эта статья о том, как мы создавали такое решение и почему в процессе создания вдруг почувствовали себя настоящими зодчими.
Читать далее
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 17K
Комментарии 37

Единая система мониторинга и оповещений BI: правда или вымысел?

Блог компании Delivery Club Tech Мессенджеры *Алгоритмы *Хранение данных *Хранилища данных *


Привет, Хабр! Мы, Юлия Лузганова HiJulia и Наталия Прудникова balzaant, аналитики в команде Business Intelligence Delivery Club. Наш департамент аналитики стремительно вырос за последние полтора года, сейчас в нем 50 человек и десятки различных проектов. Мы в группе BI-аналитики помогаем пользователям получать чистые и актуальные данные. Например, количество заказов, работающие рестораны и время доставки заказов — одни из главных сущностей. Наша основная задача — своевременная и бесперебойная поставка данных в аналитическое хранилище и их подготовка к дальнейшему использованию. Для этого нам необходимо оперативно выявлять проблемы с загрузкой и обработкой информации.

В этой статье мы хотели бы рассказать о создании мониторинга и системы “near real-time” оповещений. С технической точки зрения реализация простая, а вот нервных клеток разработчиков DWH, BI и пользователей после внедрения сохранено бесконечно много.

Почему мы вообще потратили время на создание системы оповещений для команды аналитики? Все просто: нам хотелось меньше заниматься поддержкой, а точнее, мы стремились минимизировать ручной мониторинг загрузки данных, состояния базы и отправки отчетов, чтобы автоматически оповещать пользователей базы данных об изменениях, неоптимальных запросах или активно растущих в объемах таблицах.

В статье вы найдете заметки, которые помогут вам реализовать подобную систему, а также идеи для автоматических оповещений. Также расскажем, как используя логи задач и немного статистики, мы выявляем аномалии в работе процессов.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 3.9K
Комментарии 1

Подчищаем за собой: учимся удалять данные с HDD и SSD

Блог компании Western Digital Информационная безопасность *Хранение данных *Хранилища данных *Накопители

Благодаря научно-техническому прогрессу контролировать данные с каждым годом становится все сложнее. И дело отнюдь не только в развитии сетевых технологий. Если раньше чтобы быть уверенным в собственной безопасности достаточно было сжечь несколько писем пикантного содержания, то сегодня удаляя компрометирующие вас документы с жесткого диска или SSD вы не можете быть на 100% уверены, что их не удастся восстановить. О том, почему так происходит и какие существуют способы гарантированного уничтожения информации, мы и поговорим в сегодняшнем материале.

Читать далее
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 32K
Комментарии 79

Облачные и локальные вычисления: различий всё меньше

Блог компании ITSOFT Облачные вычисления *Хранение данных *Хранилища данных *Облачные сервисы
Перевод

Вопрос об облачных вычислениях и локальных решениях больше не стоит так остро, как раньше. Это может показаться смелым заявлением для специалистов, которые привыкли думать об облаке и о внутренней среде как о двух разных вселенных. Но я думаю, что пора изменить эту точку зрения.

Облако или локальный сервер?
Всего голосов 6: ↑3 и ↓3 0
Просмотры 1.4K
Комментарии 0

Как подружить ClickHouse и Power Bi

Визуализация данных Хранилища данных *
Из песочницы

Однажды на работе мне потребовалось построить дашборд в Power BI, но данные хранились в ClickHouse. В Power BI есть много различных конекторов, но специального для ClickHouse нет. В этой статье мы разберемся с данной проблемой!

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 2.5K
Комментарии 3

Защита от кибер-атак

Блог компании Synology Настройка Linux *Информационная безопасность *Хранилища данных *Сетевое оборудование

Компания Synology предупреждает своих клиентов о новой кибер-атаке. Ботнет StealthWorker нацелен на сетевые устройства хранения данных и выполняет атаки “brute force”, которые могут привести к заражению вымогательским ПО.

По данным Synology PSIRT (Product Security Incident Response Team), взломанные устройства Synology NASвпоследствии используются в попытках взлома других Linux-систем.

Synology предупреждает об этих атаках в пресс-релизе:

Тайбэй, Тайвань — 4 августа 2021 — Группа реагирования на инциденты безопасности продуктов Synology(PSIRT) недавно получила данные о возрастании числа атак методом подбора на устройства Synology. Эксперты по безопасности Synology считают, что ботнет управляется главным образом семейством вредоносных программ StealthWorker. На данный момент Synology PSIRT не нашла свидетельств того, что вредоносные программы используют какие-либо уязвимости в программном обеспечении. 

Эти атаки воздействуют на уже зараженные устройства, заставляя их компрометировать общие учетные записи администратора в чистых системах. В случае успеха они получают доступ к системам, чтобы установить вредоносное наполнение, которое может включать программы-вымогатели. Зараженные устройства могут выполнять дополнительные атаки на другие устройства на основе Linux, включая SynologyNAS.

Synology PSIRT сотрудничает с соответствующим организациями CERT (Компьютерные группы по реагированию на чрезвычайные ситуации), чтобы больше узнать об известных C&C-серверах, контролирующих вредоносные программы, и отключить их. Одновременно с этим Synology уведомляет клиентов, которые могли быть затронуты атаками. 

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.1K
Комментарии 0

Нужно ли готовить ЦОДы для размещения квантовых компьютеров?

Блог компании ITSOFT Хостинг Хранилища данных *Научно-популярное Инженерные системы
Перевод

Автор: Кристина Холл (Christine Hall)

Прежде чем ответить на вопрос, вынесенный в заголовок статьи о переносе квантовых вычислений в центры обработки данных, нужно понимать: в настоящее время трудно предсказать, какую физическую форму квантовые компьютеры примут в будущем. Но не исключено, что квантовые вычисления могут стать довольно обычным явлением лет через пять-десять.

Но уже сейчас вы уже можете попробовать моделировать с помощью квантовых компьютеров и испытать некоторые из первых реальных квантовых машин с помощью облачных провайдеров, таких как AWS, Microsoft Azure, Google Cloud Platform и IBM Cloud. У них уже есть пилотные проекты квантовых компьютеров, которые находятся на разных стадиях разработки.

Означает ли это, что операторы центров обработки данных должны начать планирование машинных залов и телекоммуникационных стоек с учетом размещения квантовых компьютеров? 

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 4.4K
Комментарии 2

Как Apache Flink хранит стейт: взгляд изнутри

Блог компании Neoflex Big Data *Хранилища данных *

Привет! В этой статье мы рассмотрим важнейший аспект практически любого потокового приложения – работу со стейтом. Сегодня в роли подопытного выступит фреймворк Apache Flink.

Мы узнаем, как и где можно хранить стейт, какие структуры данных для этого используются, оценим скорость работы каждого подхода и узнаем, что из предложенных вариантов быстрее, а что – надежнее, и можно ли найти компромисс среди множества разноплановых комбинаций.

Небольшой дисклеймер

Подавляющая часть информации, представленной в этой статье, справедлива для всех релизов Apache Flink, начиная с версии 1.8. В версии 1.13 (последняя на момент выхода этой статьи) произошли небольшие правки API, которые в некоторой мере изменили видимую пользователю «оболочку» хранения стейта, но общие принципы остались прежними. Подробнее об этом можно прочитать здесь.

Если вы только начинаете знакомство с Apache Flink, то рекомендую посмотреть наш YouTube-митап по основам этого замечательного фреймворка.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.3K
Комментарии 2

Как мы создаём почтовую систему нового поколения Mailion. Архитектура кластера DOS

Блог компании МойОфис Хранение данных *Хранилища данных *Распределённые системы *

МойОфис продолжает серию статей о корпоративной почтовой системе Mailion (1, 2), разрабатываемой при грантовой поддержке РФРИТ, и входящем в его состав объектном хранилище DOS. Мы уже рассказали об основных оптимизациях DOS, которые позволяют увеличить экономическую эффективность хранения данных, а также коснулись общих принципов построения масштабируемых хранилищ. Сегодня мы поговорим о том, как эти принципы применялись на практике в ходе работ над кластером DOS.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 3.6K
Комментарии 3

Встречаем новые серверы Gen10v2

Серверное администрирование *Хранение данных *Хранилища данных *Накопители

Сегодня речь пойдёт о новых салазках для жёстких дисков SFF формата Gen10 v2.

На первый взгляд.

На первый взгляд они идентичны, но...

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 5.5K
Комментарии 7

Apache Ozone и узлы хранения данных высокой плотности

Блог компании Cloudera Big Data *Хранение данных *Хранилища данных *Hadoop *
Перевод

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.1K
Комментарии 4

Правила жизни дата-центра в дождь, шторм и аномальную жару

Блог компании DataLine IT-инфраструктура *IT-стандарты *Хранилища данных *Инженерные системы

Ливни, грозы, шквалистый ветер и рекордная жара — этим летом много поводов обсудить погоду. В дата-центрах это не только тема для смол-тока. Природные аномалии и катаклизмы могут сильно повлиять на работу оборудования, если не подумать обо всех рисках заранее. Мы с @rbekrenev обобщили наш опыт и рассказываем, как инженеры дата-центров готовятся ко встрече со стихией.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.7K
Комментарии 3

Реализация CI/CD для корпоративных хранилищ данных

Блог компании Accenture Хранение данных *Управление разработкой *Хранилища данных *Управление проектами *

В Сети много рецептов приготовления CI/CD для решения различных проблем и организации процессов под определённые нужды. В этой статье мы опишем ещё один, суть которого - приготовить процесс, максимально близкий к классическому подходу, несмотря на то что предназначен он для разработки КХД, и решить проблему организации работы большой команды.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2.9K
Комментарии 3

Вклад авторов