Рассматриваем возможные решения, считаем производительность и прикидываем, как правильно настроить систему.
Хранение данных *
Что имеем, то храним
- Новые
- Лучшие
- Все
- ≥0
- ≥10
- ≥25
- ≥50
- ≥100
Релиз InterSystems IRIS 2021.1
Этим летом вышел новый релиз платформы данных InterSystems IRIS Data Platform 2021.1.
Основные «темы» в этом релизе связаны с расширением доступности платформы для разработчиков на различных технологиях и новыми возможностями по анализу данных.
Расширяется выбор доступных языков разработки, как серверных, так и клиентских, а также новые компоненты для аналитики больших объемов данных. Но, обо всём по порядку.
Jellyfish: Экономически целесообразная стратификация данных для крупнейшего хранилища Uber
Задача
В Uber применяется несколько технологий хранения информации, причем, хранение бизнес-данных зависит от того, какова модель приложения, в которой они применяются. Одна из таких технологий называется Schemaless и обеспечивает моделирование взаимосвязанных записей с представлением в виде одной строки из множества столбцов, а также версионирование для каждого столбца отдельно.
Schemaless в ходу уже пару лет, и там накапливаются данные Uber. Притом, что Uber консолидирует все практические кейсы в Docstore, Schemaless остается источником истины для различных клиентских конвейеров задач, тех, что существуют уже давно. Schemaless как таковая использует быструю (но дорогую) базовую технологию хранения данных, которая позволяет обходиться задержкой порядка нескольких миллисекунд при высоком показателе QPS (запросы в секунду). Кроме того, Schemaless развертывает для каждого региона несколько реплик, чтобы обеспечить сохранность и доступность данных при различных моделях отказов.
Поскольку Schemaless – дорогостоящее хранилище, а данных в нем накапливается все больше, она превратилась в ключевую статью расходов и поэтому требует внимания. Чтобы разобраться в этой ситуации, были проведены замеры, помогающие лучше понять паттерны обращения к данным. Было обнаружено, что в течение некоторого периода времени обращения к данным происходили часто, а после этого – не столь часто. Точная длительность такого периода варьируется от кейса к кейсу, но при любом запросе старые данные все равно должны безусловно предоставляться по запросу.
Как мы работу с корреспонденцией оптимизировали
Мы в АльфаСтрахование стремимся к сквозной обработке информации (STP) и для этого постоянно производим анализ наших процессов на предмет исключения из них ручной обработки, а также осуществляем мониторинг появления новых «фич» как внутри нашей Компании, так и среди Партнёров, открывающих нам возможности для автоматизации.
Хотим рассказать об одном из автоматизированных процессов для бек-офиса, который как раз позволил нам сделать ещё один небольшой шаг на пути к сквозной обработке данных.
СХД и серверы Lenovo помогают компании «Здоровье» повышать качество жизни пациентов
Компания должна быть готова решать поставленные задачи в любое время, потому что ее деятельность непосредственно влияет на здоровье пациента и качество его дальнейшей жизни. Расширяя свое географическое присутствие, она получает возможность более оперативно принимать решения и быстрее решать проблемы людей.
Растущие в связи с развитием бизнеса объемы данных привели компанию к необходимости внедрения масштабируемой и управляемой СХД. Выбор пал на систему хранения Lenovo DE4000H.
All Flash NVMe от QSAN с поддержкой NVMe SSD сторонних производителей
Еще, казалось бы, недавно для всех нас деревья были выше, трава зеленее, а в качестве накопителей в серверах и СХД применялись только жесткие диски. Однако сейчас уже привычные SATA/SAS SSD считаются вполне заурядными компонентами систем хранения данных. Более того, все чаще начинают применяться NVMe SSD. Они используются не только для задач кэширования, но и для хранения оперативных данных. Поэтому на рынке растет число предлагаемых All Flash NVMe решений.
Робо-пёс пока не кусается, но уже предупреждает о несанкционированном доступе в дата-центр
Дата-центры компании Novva запустят в ЦОДы робота Boston Dynamics. Компания сотрудничает с инженерным факультетом университета Бригама Янга, который “натаскивает” робо-собак в целях мониторинга и безопасности.
Компания Novva, специализирующаяся на строительстве центров обработки данных в сотрудничестве с Университетом Бригама Янга (Brigham Young University – BYU) в рамках тестирования разместила в студенческом кампусе собак-роботов. Университет адаптировал роботов Boston Dynamics Spot специально для мониторинга объектов.
История HDD, часть II
Жесткие диски знакомы всем пользователям, без них сложно представить современный компьютер. Конечно, SSD вытеснили жесткие диски в сценариях, где требуется максимальная производительность, например, для загрузочного раздела ОС. Но если нужна максимальная емкость, то без HDD не обойтись.
Сегодня жесткие диски достигли емкости 18 Тбайт, а скоро выйдут и более емкие модели, в том числе и благодаря технологии термомагнитной записи (HAMR). 3,5" форм-фактор жестких дисков сегодня утвердился, однако они не всегда были такими. В нашем цикле статей мы проведем небольшой экскурс в историю жестких дисков.
В первой части мы начали с 50-х годов прошлого века. Сейчас же мы перейдем к эпохе миникомпьютеров, которые появились в 1980-е годы.
Приглашение на новую серию технических вебинаров Dell Technologies Tech Diving
Присоединяйтесь к любой интересной вам сессии на платформе Zoom. Заранее можно зарегистрироваться на все актуальные для вас мероприятия, и мы советуем это сделать – мы пришлём вам напоминание. По возможности просим вас указывать корпоративные e-mail адреса.
Ниже представлен список осенних мероприятий «Tech Diving»: время проведения, ссылки на регистрацию – под катом. Участие для вас совершенно бесплатно, но это еще не всё: набирайте баллы и участвуйте в Tech Diving турнире, победители которого получат ценные призы!
ClickHouse: Путь джедая, искавшего дом для своих данных
В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.
Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.
С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.
Красивое дерево PATRICIA (Реализация на C++)
Забытое, сложное, изумительное, красивое дерево со звуком ломающихся коленок.
Защита от хакерских атак на модели глубокого обучения
Команда IBM выявила угрозы и разработала методы защиты моделей ИИ, которые называются глубокими генеративными моделями (DGM). Модели DGM — набирающая обороты технология на базе ИИ, позволяющая синтезировать данные из сложных, высокоразмерных массивов, будь то изображения, текст, музыка или молекулярные структуры.
Аудит в CDP Private Cloud Base с использованием внешних систем
Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.
Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).
В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.
Развертывание гиперконвергентной инфраструктуры с помощью Synology NAS
Гиперконвергентная инфраструктура
Гиперконвергентная инфраструктура (HCI) - современный подход к инфраструктуре. Это комплексное решение, которое обеспечивает производительность и емкость данных с использованием эффективных инструментов для простого управления и развертывания - универсальное решение "все в одном". Традиционно принципы гиперконвергентной инфраструктуры основывались на виртуализации аппаратного обеспечения, которая упрощает развертывание и последующее управление. Гиперконвергентные платформы покрывают все требования инфраструктуры с помощью единого решения. Все определяется программным обеспечением, единообразно администрируется, масштабируется, сокращая совокупную стоимость владения. Таким образом, централизованное администрирование значительно снижает сложность всей структуры решения. Еще одно преимущество - возможность быстро расширить ИТ-инфраструктуру за счет добавления дополнительных устройств, а не пытаться удовлетворить будущие требования к ЦП, хранилищу или оперативной памяти. И вместо того, чтобы управлять десятками или даже сотнями разрозненных систем, администраторы получают облачный контроль над всем кластером.
Synology Virtual Machine Manager
Virtual Machine Manager позволяет организациям и профессиональным пользователям запускать виртуальные машины на поддерживаемых устройствах Synology NAS.
Пакет VMM поддерживает виртуальные машины Windows (включая Windows Server) и Linux, а также виртуальные DSM. Последняя функция позволяет администраторам создавать виртуальные экземпляры операционной платформы DiskStation Manager (DSM) для использования различными отделами или группами, которые могут использовать соответствующие пакеты DSM, не затрагивая другие виртуальные DSM.
Как NAS защитить от программ-вымогателей?
Программы-вымогатели и другие угрозы всё чаще нацелены на NAS – Network Attached Storage – сетевые файловые накопители. Поэтому важно убедиться в том, что устройства настроены в соответствии с уже отработанными практиками безопасности.
PlanetScale — Serverless SQL база данных для разработчиков
Этим летом я по уши увяз в serverless-тематике и даже решил переписать один из своих pet-проектов целиком на serverless. Движок для сайта, поддерживающий бессерверные вычисления и вендор для кэширующей прослойки были найдены быстро - NextJS (с деплоем на Vercel) и Upstash с оплатой за каждую отдельную операцию и байт в хранилище. Камнем преткновения стал выбор провайдера для DBaaS. Мне бы хотелось реализовать всё таким образом, чтобы у проекта было две разных базы данных - для разработки и для production, и мне совсем не хотелось запускать базу данных для разработки на локальной машине. Поверхностное ознакомление с DBaaS провайдерами показало, что за дополнительную базу данных пришлось бы платить вдвое больше несмотря на то, что она использовалась бы дай Бог пару раз в неделю. И я ушёл в просмотр докладов и презентаций на YouTube и это именно тот момент когда я открыл для себя PlanetScale. Хочу поделиться своим открытием с вами.
Магнитная Одиссея 2020: как Tarantool и Golang опутали всю Россию сетью экспресс-доставки
Всем привет, меня зовут Алексей Фельде, я IT архитектор направления Омниканальности в «Магните». Это молодое направление. Основная его цель - сформировать единый опыт офлайн и онлайн взаимодействия с покупателем.
Омниканальная модель стала популярной, так как любой современный покупатель не расстается с мобильным телефоном и может в любой момент выйти в интернет для поиска товаров и оформления заказа. Такая модель требует от компаний пересмотра своего внутреннего IT ландшафта, обновления технологий и инфраструктуры.
Сервис экспресс-доставки стал первым в направлении Омни «Магнита». Поначалу мне казалось, что запуск такого онлайн-сервиса – классическая история с не менее классическим подходом к решению. Однако для ритейла, который более 25 лет затачивал свои бизнес-процессы под офлайн, запуск обернулся настоящей инженерной головоломкой.
В этой статье я расскажу, как в режиме speedrun небольшая инженерная команда запустила онлайн-сервис экспресс-доставки на Golang с помощью Tarantool Data Grid, gRPC и облака Mail.ru Cloud Solutions.
Единая система мониторинга и оповещений BI: правда или вымысел?
Привет, Хабр! Мы, Юлия Лузганова HiJulia и Наталия Прудникова balzaant, аналитики в команде Business Intelligence Delivery Club. Наш департамент аналитики стремительно вырос за последние полтора года, сейчас в нем 50 человек и десятки различных проектов. Мы в группе BI-аналитики помогаем пользователям получать чистые и актуальные данные. Например, количество заказов, работающие рестораны и время доставки заказов — одни из главных сущностей. Наша основная задача — своевременная и бесперебойная поставка данных в аналитическое хранилище и их подготовка к дальнейшему использованию. Для этого нам необходимо оперативно выявлять проблемы с загрузкой и обработкой информации.
В этой статье мы хотели бы рассказать о создании мониторинга и системы “near real-time” оповещений. С технической точки зрения реализация простая, а вот нервных клеток разработчиков DWH, BI и пользователей после внедрения сохранено бесконечно много.
Почему мы вообще потратили время на создание системы оповещений для команды аналитики? Все просто: нам хотелось меньше заниматься поддержкой, а точнее, мы стремились минимизировать ручной мониторинг загрузки данных, состояния базы и отправки отчетов, чтобы автоматически оповещать пользователей базы данных об изменениях, неоптимальных запросах или активно растущих в объемах таблицах.
В статье вы найдете заметки, которые помогут вам реализовать подобную систему, а также идеи для автоматических оповещений. Также расскажем, как используя логи задач и немного статистики, мы выявляем аномалии в работе процессов.
Зеркало здесь, зеркало там: сетевая репликация дисков под Windows
К счастью, там не было ничего ценного. Но я в очередной раз убедился, что RAID-массив не всегда помогает, т.к. может погибнуть вместе с компьютером.
Поэтому лучше, если копия данных будет находиться на другом компьютере. И хорошо, если она будет максимально свежей, чтобы в случае аварии продолжить работу с прерванного места.
Такие решения есть для Linux и FreeBSD — DRBD и HAST. Они позволяют реплицировать блочные устройства хранения по сети. То есть, создать что-то вроде RAID-1, где «половинки» дискового массива находятся на разных компьютерах. Теперь такое решение есть и для Windows.
Вклад авторов
-
it_man 747.0 -
hddmasters 665.0 -
Drebin893 612.0 -
alizar 363.3 -
olegbunin 355.0 -
WesternDigital 340.0 -
Kingston_Technology 291.8 -
KorP 261.0 -
SeagateRu 259.0 -
inetstar 255.0