Как стать автором
Обновить
64.54
Рейтинг

Хранение данных *

Что имеем, то храним

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

ClickHouse: Путь джедая, искавшего дом для своих данных

Блог компании Туту.ру Big Data *Хранение данных *

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

Читать далее
Всего голосов 27: ↑26 и ↓1 +25
Просмотры 5.8K
Комментарии 8

Новости

Красивое дерево PATRICIA (Реализация на C++)

C++ *Визуализация данных Хранение данных *Хранилища данных *Учебный процесс в IT
Из песочницы
Tutorial

Забытое, сложное, изумительное, красивое дерево со звуком ломающихся коленок.

Прострелить колени о патрицию
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 4.8K
Комментарии 7

Защита от хакерских атак на модели глубокого обучения

Блог компании IBM Информационная безопасность *Хранение данных *Машинное обучение *Искусственный интеллект
Как и все остальное в области вычислений, модели глубокого обучения можно взломать.

Команда IBM выявила угрозы и разработала методы защиты моделей ИИ, которые называются глубокими генеративными моделями (DGM). Модели DGM — набирающая обороты технология на базе ИИ, позволяющая синтезировать данные из сложных, высокоразмерных массивов, будь то изображения, текст, музыка или молекулярные структуры.


Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.7K
Комментарии 0

Аудит в CDP Private Cloud Base с использованием внешних систем

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 198
Комментарии 0

Развертывание гиперконвергентной инфраструктуры с помощью Synology NAS

Блог компании Synology Системное администрирование *IT-инфраструктура *Виртуализация *Хранение данных *

Гиперконвергентная инфраструктура

Гиперконвергентная инфраструктура (HCI) - современный подход к инфраструктуре. Это комплексное решение, которое обеспечивает производительность и емкость данных с использованием эффективных инструментов для простого управления и развертывания - универсальное решение "все в одном". Традиционно принципы гиперконвергентной инфраструктуры основывались на виртуализации аппаратного обеспечения, которая упрощает развертывание и последующее управление. Гиперконвергентные платформы покрывают все требования инфраструктуры с помощью единого решения. Все определяется программным обеспечением, единообразно администрируется, масштабируется, сокращая совокупную стоимость владения. Таким образом, централизованное администрирование значительно снижает сложность всей структуры решения. Еще одно преимущество - возможность быстро расширить ИТ-инфраструктуру за счет добавления дополнительных устройств, а не пытаться удовлетворить будущие требования к ЦП, хранилищу или оперативной памяти. И вместо того, чтобы управлять десятками или даже сотнями разрозненных систем, администраторы получают облачный контроль над всем кластером.

Synology Virtual Machine Manager

Virtual Machine Manager позволяет организациям и профессиональным пользователям запускать виртуальные машины на поддерживаемых устройствах Synology NAS.

Пакет VMM поддерживает виртуальные машины Windows (включая Windows Server) и Linux, а также виртуальные DSM. Последняя функция позволяет администраторам создавать виртуальные экземпляры операционной платформы DiskStation Manager (DSM) для использования различными отделами или группами, которые могут использовать соответствующие пакеты DSM, не затрагивая другие виртуальные DSM.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 4.5K
Комментарии 6

Как NAS защитить от программ-вымогателей?

Блог компании ITSOFT Информационная безопасность *Хранение данных *Хранилища данных *
Перевод

Программы-вымогатели и другие угрозы всё чаще нацелены на NAS – Network Attached Storage – сетевые файловые накопители. Поэтому важно убедиться в том, что устройства настроены в соответствии с уже отработанными практиками безопасности. 

Что NAS защитит?
Всего голосов 6: ↑3 и ↓3 0
Просмотры 7K
Комментарии 10

PlanetScale — Serverless SQL база данных для разработчиков

MySQL *SQL *Системы управления версиями *Администрирование баз данных *Хранение данных *
Recovery mode

Этим летом я по уши увяз в serverless-тематике и даже решил переписать один из своих pet-проектов целиком на serverless. Движок для сайта, поддерживающий бессерверные вычисления и вендор для кэширующей прослойки были найдены быстро - NextJS (с деплоем на Vercel) и Upstash с оплатой за каждую отдельную операцию и байт в хранилище. Камнем преткновения стал выбор провайдера для DBaaS. Мне бы хотелось реализовать всё таким образом, чтобы у проекта было две разных базы данных - для разработки и для production, и мне совсем не хотелось запускать базу данных для разработки на локальной машине. Поверхностное ознакомление с DBaaS провайдерами показало, что за дополнительную базу данных пришлось бы платить вдвое больше несмотря на то, что она использовалась бы дай Бог пару раз в неделю. И я ушёл в просмотр докладов и презентаций на YouTube и это именно тот момент когда я открыл для себя PlanetScale. Хочу поделиться своим открытием с вами.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 2.8K
Комментарии 7
Со стороны кажется, что новый дата-центр, построенный с нуля за полгода — это тривиальный проект. Но, во-первых, в дело вкрались всем известные события 2020-го. А во-вторых, Утконос ОНЛАЙН не нужен был просто дата-центр; им нужно было решение, на котором можно основать будущее компании. Эта статья о том, как мы создавали такое решение и почему в процессе создания вдруг почувствовали себя настоящими зодчими.
Читать далее
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 17K
Комментарии 41

Магнитная Одиссея 2020: как Tarantool и Golang опутали всю Россию сетью экспресс-доставки

Блог компании Магнит IT-инфраструктура *Разработка под e-commerce *Хранение данных *Tarantool *

Всем привет, меня зовут Алексей Фельде, я IT архитектор направления Омниканальности в «Магните». Это молодое направление. Основная его цель - сформировать единый опыт офлайн и онлайн взаимодействия с покупателем. 

Омниканальная модель стала популярной, так как любой современный покупатель не расстается с мобильным телефоном и может в любой момент выйти в интернет для поиска товаров и оформления заказа. Такая модель требует от компаний пересмотра своего внутреннего IT ландшафта, обновления технологий и инфраструктуры. 

Сервис экспресс-доставки стал первым в направлении Омни «Магнита». Поначалу мне казалось, что запуск такого онлайн-сервиса – классическая история с не менее классическим подходом к решению. Однако для ритейла, который более 25 лет затачивал свои бизнес-процессы под офлайн, запуск обернулся настоящей инженерной головоломкой.

В этой статье я расскажу, как в режиме speedrun небольшая инженерная команда запустила онлайн-сервис экспресс-доставки на Golang с помощью Tarantool Data Grid, gRPC и облака Mail.ru Cloud Solutions.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 3.1K
Комментарии 7

Единая система мониторинга и оповещений BI: правда или вымысел?

Блог компании Delivery Club Tech Мессенджеры *Алгоритмы *Хранение данных *Хранилища данных *


Привет, Хабр! Мы, Юлия Лузганова HiJulia и Наталия Прудникова balzaant, аналитики в команде Business Intelligence Delivery Club. Наш департамент аналитики стремительно вырос за последние полтора года, сейчас в нем 50 человек и десятки различных проектов. Мы в группе BI-аналитики помогаем пользователям получать чистые и актуальные данные. Например, количество заказов, работающие рестораны и время доставки заказов — одни из главных сущностей. Наша основная задача — своевременная и бесперебойная поставка данных в аналитическое хранилище и их подготовка к дальнейшему использованию. Для этого нам необходимо оперативно выявлять проблемы с загрузкой и обработкой информации.

В этой статье мы хотели бы рассказать о создании мониторинга и системы “near real-time” оповещений. С технической точки зрения реализация простая, а вот нервных клеток разработчиков DWH, BI и пользователей после внедрения сохранено бесконечно много.

Почему мы вообще потратили время на создание системы оповещений для команды аналитики? Все просто: нам хотелось меньше заниматься поддержкой, а точнее, мы стремились минимизировать ручной мониторинг загрузки данных, состояния базы и отправки отчетов, чтобы автоматически оповещать пользователей базы данных об изменениях, неоптимальных запросах или активно растущих в объемах таблицах.

В статье вы найдете заметки, которые помогут вам реализовать подобную систему, а также идеи для автоматических оповещений. Также расскажем, как используя логи задач и немного статистики, мы выявляем аномалии в работе процессов.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 4.2K
Комментарии 1

Зеркало здесь, зеркало там: сетевая репликация дисков под Windows

Блог компании RUVDS.com Системное администрирование *IT-инфраструктура *Резервное копирование *Хранение данных *
Tutorial
Однажды на моём компьютере сгорел блок питания. С дымом, шумом, и прочими спецэффектами. Жёсткий диск тоже не выжил.

К счастью, там не было ничего ценного. Но я в очередной раз убедился, что RAID-массив не всегда помогает, т.к. может погибнуть вместе с компьютером.

Поэтому лучше, если копия данных будет находиться на другом компьютере. И хорошо, если она будет максимально свежей, чтобы в случае аварии продолжить работу с прерванного места.

Такие решения есть для Linux и FreeBSD — DRBD и HAST. Они позволяют реплицировать блочные устройства хранения по сети. То есть, создать что-то вроде RAID-1, где «половинки» дискового массива находятся на разных компьютерах. Теперь такое решение есть и для Windows.


Читать дальше →
Всего голосов 43: ↑42 и ↓1 +41
Просмотры 7.7K
Комментарии 54

Подчищаем за собой: учимся удалять данные с HDD и SSD

Блог компании Western Digital Информационная безопасность *Хранение данных *Хранилища данных *Накопители

Благодаря научно-техническому прогрессу контролировать данные с каждым годом становится все сложнее. И дело отнюдь не только в развитии сетевых технологий. Если раньше чтобы быть уверенным в собственной безопасности достаточно было сжечь несколько писем пикантного содержания, то сегодня удаляя компрометирующие вас документы с жесткого диска или SSD вы не можете быть на 100% уверены, что их не удастся восстановить. О том, почему так происходит и какие существуют способы гарантированного уничтожения информации, мы и поговорим в сегодняшнем материале.

Читать далее
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 34K
Комментарии 79

Облачные и локальные вычисления: различий всё меньше

Блог компании ITSOFT Облачные вычисления *Хранение данных *Хранилища данных *Облачные сервисы
Перевод

Вопрос об облачных вычислениях и локальных решениях больше не стоит так остро, как раньше. Это может показаться смелым заявлением для специалистов, которые привыкли думать об облаке и о внутренней среде как о двух разных вселенных. Но я думаю, что пора изменить эту точку зрения.

Облако или локальный сервер?
Всего голосов 6: ↑3 и ↓3 0
Просмотры 1.5K
Комментарии 0

Защита данных пользователя: как добавить поддержку правил CCPA и GDPR в мобильное приложение

Блог компании FUNCORP Информационная безопасность *IT-стандарты *Хранение данных *Законодательство в IT

Значительная часть жизни уже давно перетекла в гаджеты, онлайн-сервисы, соцсети и мессенджеры, которые ежедневно собирают тонны персональных данных. А ими часто обмениваются компании, например, в сфере рекламы или финансового бизнеса. 

Поэтому приватность и безопасность данных сейчас сложно переоценить. В большинстве IT-компаний это понимают и работают над собственными инструментами защиты (Apple, например, на каждой презентации делает особый акцент). Страны, в свою очередь, регулируют всё это специальными законами.

Основными из них являются Европейский General Data Protection Regulation (GDPR) и, принятый в Калифорнии, California Consumer Privacy Act (CCPA). Сегодня подробно разберёмся, что это за законы, чего требуют и как внедрить их поддержку в свой сервис, сайт или мобильное приложение.

Это первая статья из цикла про приватность на iOS, где поговорим не только про законы, но и про изменения в политике App Store, AppTracking Transparency и IDFA.

Читать далее
Всего голосов 45: ↑44 и ↓1 +43
Просмотры 3K
Комментарии 10

Что там в Университете ИТМО: новые технологии, разработки, приложения и проекты ученых — подборка материалов

Блог компании Университет ИТМО Хранение данных *Машинное обучение *Учебный процесс в IT Робототехника

На днях мы продолжили делиться на Хабре нашими открытыми проектами, поговорили о проблемах, связанных с продвижением технологических продуктов, и начали обсуждать исследование «публичного образа» Санкт-Петербурга. Сегодня мы подобрали дополнительные материалы о достижениях и работе ученых, специалистов, аспирантов, магистров и других представителей Университета ИТМО.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 3.3K
Комментарии 1

Как мы создаём почтовую систему нового поколения Mailion. Архитектура кластера DOS

Блог компании МойОфис Хранение данных *Хранилища данных *Распределённые системы *

МойОфис продолжает серию статей о корпоративной почтовой системе Mailion (1, 2), разрабатываемой при грантовой поддержке РФРИТ, и входящем в его состав объектном хранилище DOS. Мы уже рассказали об основных оптимизациях DOS, которые позволяют увеличить экономическую эффективность хранения данных, а также коснулись общих принципов построения масштабируемых хранилищ. Сегодня мы поговорим о том, как эти принципы применялись на практике в ходе работ над кластером DOS.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 3.7K
Комментарии 3

Как не утонуть в озере данных: инструкция от РСХБ

Блог компании Россельхозбанк Big Data *Хранение данных *

Привет, Хабр! Не так давно мы в РСХБ запустили озеро данных. И подумали, что наш опыт может кому-нибудь пригодиться. В первую очередь тем, кто ещё только думает о создании своего озера, но не знает, с чего начать, с чем предстоит столкнуться, о чём подумать заранее и т. д. Потому что озеро — это, конечно, прекрасно, но как бы не получить вместо него заросшее болото, в котором небезопасно плавать и откуда толком ничего не достать.

Так что мы собрались и небольшой командой специалистов — в лице Алексея Новикова (заместитель директора, ДИТ), Руслана Ибрагимова (исполнительный директор, ДКР), Николая Кудачкина (управляющий директор, ДРК) и Юрия Колошеина (исполнительный директор, ДИТ) — написали своего рода инструкцию по созданию озера данных на собственном примере.

Читать далее
Всего голосов 13: ↑10 и ↓3 +7
Просмотры 2.4K
Комментарии 0

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

Блог компании Cloudera Big Data *Хранение данных *Hadoop *

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 459
Комментарии 0

Такого еще не было: опыт построения Veritas HA Cluster поверх VMware vSAN

Блог компании Инфосистемы Джет Oracle *IT-инфраструктура *Виртуализация *Хранение данных *

В одном проекте мы строили новую ИТ-инфраструктуру и консолидировали на нее базы данных Oracle. Базы были разных объемов и степени критичности (вплоть до Business Critical). Казалось бы, штатная задача. Но в ней таилась одна особенность, о которую мы поломали немало копий, — развертывание на VMware кластера Veritas HA.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.6K
Комментарии 5

Встречаем новые серверы Gen10v2

Серверное администрирование *Хранение данных *Хранилища данных *Накопители

Сегодня речь пойдёт о новых салазках для жёстких дисков SFF формата Gen10 v2.

На первый взгляд.

На первый взгляд они идентичны, но...

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 5.5K
Комментарии 7

Вклад авторов