Как стать автором

Хранение данных *

Что имеем, то храним

Статьи Авторы Компании

rbekrenev вчера в 12:08

Почему «падают» серверные стойки

Блог компании DataLine IT-инфраструктура *Хранение данных *Хранилища данных *Инженерные системы

Из песочницы

Любое отключение питания в стойке — это инцидент, который инженер дата-центра должен решить в минимальные сроки. Чаще всего критически важное оборудование в ЦОДе запитано от двух лучей, и после сбоя одного луча устройства нормально работают от второго. Но бывают банальные ошибки подключения и нестандартные случаи, из-за которых "падает" вся стойка.

Каждый сбой в питании мы фиксируем в системных журналах и отчетах смены и затем анализируем причины падений. За годы у нас накопилась статистика удивительных, а иногда просто глупых ситуаций падения стойки. Заодно мы собрали несколько таких историй от коллег в нашем чате Салатовой телеги.

Сегодня расскажем, как учесть этот опыт и снизить вероятность "падения" серверной стойки.

Читать далее

+16

2.6K

Skilline 25 октября в 10:58

Оптимальный выбор SSD для СХД Qsan

Блог компании Skilline IT-инфраструктура *Виртуализация *SAN *Хранение данных *

Ни для кого не секрет, что большинство вендоров СХД привязывают своих пользователей к накопителям собственной торговой марки. Так что типичный подбор, например, SSD подразумевает определение парт-номера накопителя в соответствии с характером нагрузки (read, mixed, write) и его емкостью. В целом, данный подход призван облегчить жизнь IT отделу, но при этом создать повышенную нагрузку на бюджет компании. А бюджеты, как известно, не резиновые. Поэтому всегда существовали и будут существовать вендоры, производящие решения из области хранения данных, которые позволяют использовать накопители сторонних производителей. В этом случае у пользователей имеется гораздо больше возможностей по выбору тех или иных накопителей, поскольку листы совместимости СХД содержат в себе большое количество позиций.

Читать далее

0

1K

Zaido 21 октября в 12:45

Храним данные в JSONB, как это влияет на скорость запросов?

PostgreSQL *Программирование *SQL *Администрирование баз данных *Хранение данных *

Добрый день, меня зовут Павел Поляков, я Principal Engineer в каршеринг компании SHARE NOW, в Гамбурге в 🇩🇪 Германии. А еще я автор Telegram-канала Хороший разработчик знает, где рассказываю обо всем, что должен знать хороший разработчик.

Сегодня хочу поговорить о том стоит ли хранить данные в JSONB полях в PostgreSQL. Как это влияет на производительность?

Читать далее

+5

6.5K

HPE_Russia_Admin 21 октября в 12:00

Гиперконвергентная инфраструктура, для периферийных вычислений. Отказоустойчивость и высокая доступность

Блог компании Hewlett Packard Enterprise Хранение данных *

Удаленные площадки, как правило, ограничены в пространстве, и часто, когда необходимо обеспечить максимальную доступность для критически важных служб, ограниченное пространство этого не позволяет. Для бизнеса, который зависит от этих служб, перебои в их работе могут быть очень дорогостоящими, а в более критичных случаях, приводящими к отключению служб, которые контролируют системы безопасности, защищающие жизнь людей.

Одна из известных компаний, применяющих HPE SimpliVity, купила решение как раз для последнего сценария. Развертывание осуществляется на морских нефтяных вышках, на которых размещены сделанные на заказ системы мониторинга безопасности. Эти системы очень важны для работы в сфере нефтяной промышленности, так как они предназначены для обеспечения безопасности людей. Поскольку ближайшие ИТ-ресурсы находятся довольно далеко, в случае отказа оборудования требуют доставки компонентов и технического персонала на вертолете, что ведет за собой дополнительные затраты и риск для бизнеса и жизни людей. Крайне важно, чтобы решение по хранению данных обладало высокой отказоустойчивостью на нескольких уровнях и занимало минимально возможную площадь. Это одна из основных причин, по которой компании выбирают HPE SimpliVity.

HPE SimpliVity уделяет основное внимание обеспечению высокой отказоустойчивости при минимальной площади, занимаемой узлом. Архитектура RAIN + RAID (обеспечивает доступности 99.999%.

Читать далее

-2

543

Data_center_MIRAN 20 октября в 09:23

ZFS таинственным образом поедает мой CPU

Блог компании Дата-центр «Миран» Настройка Linux *Системное администрирование *Хранение данных *Облачные сервисы

Перевод

Отдел микросервисов Netflix обратился ко мне за помощью с загадочной проблемой. Они заявили, что у них на сервере файловая система ZFS потребляет 30% CPU. Я рассказывал об этом на конференции Kernel Recipes 2017 — да, это старая история… но её стоит рассказать ещё раз.

Постановка задачи

Этот микросервис предназначен для сбора метрик. Недавно ребята обновились на новый образ ОС (BaseAMI) — и после этого заявили, что ZFS начала потреблять более 30% ресурса CPU. Первым делом я подумал, что они ошиблись: я лично разрабатывал системные компоненты ZFS в компании Sun Microsystems — и файловая система ну никак не могла настолько загружать процессор.

Читать дальше →

+33

13K

SeagateRussia 19 октября в 17:34

Тест Seagate FireCuda 530 — самый производительный SSD Seagate

Блог компании Seagate Хранение данных *Хранилища данных *Компьютерное железо Накопители

Ранее компания Seagate представила один из первых NVMe SSD с поддержкой интерфейса PCIe 4.0, а именно FireCuda 520. Он показал достойный уровень производительности в синтетических тестах, и теперь Seagate представила преемника FireCuda 530. Посмотрим, как новый SSD покажет себя. Сможем ли мы назвать его идеальным накопителем для энтузиастов? Предлагаем ознакомиться с результатами тестов, которые мы проводили совместно с лабораторией Hardwareluxx.

Читать далее

+1

2.7K

yooteam 14 октября в 13:33

Как управлять большими объемами данных: доклады с митапа High SQL

Блог компании ЮMoney SQL *Microsoft SQL Server *Хранение данных *Конференции

7 октября мы провели второй митап о нюансах работы с большими объёмами данных. Под катом видео докладов наших разработчиков и приглашенного эксперта Microsoft Data Platform. Кейсы будут полезны тем, кто администрирует и разрабатывает DWH, создает аналитические запросы и работает c Microsoft SQL Server.

Смотреть доклады

0

2.2K

muxa_ru 13 октября в 03:10

Цифровой мир с несуществующим прошлым

Хранение данных *Исследования и прогнозы в IT Научно-популярное

На дворе 2021 год и рассказы про безопасные гавани, сетевые нейтралитеты и "ничего личного, просто бизнес" уже мало кого впечатляют. Информационные посредники, поисковые сервисы и т.п.наперегонки бросились занимать позиции в разных конфликтах.

Многие рассуждают о том, какое будущее нас ждёт, но меня, как историка, больше беспокоит вопрос о том, какое же нас ждёт ПРОШЛОЕ. Причём, в основе этого беспокойства лежат общепринятые плюсы цифровых технологий: быстрый доступ к контенту из любой точки мира, и простота улучшения и обновления любых материалов.

Читать далее

+95

13K

Zextras 12 октября в 15:00

Как нам удалось увеличить скорость восстановления резервной копии в 20 раз

Блог компании Zextras Системное администрирование *Сетевые технологии *Резервное копирование *Хранение данных *

Перевод

Как и всегда, сохраняя обратную совместимость мы увеличили скорость восстановления в 20 раз! Благодаря этому мы сделали внешнее восстановление очень надежным и быстрым процессом, на который вы можете рассчитывать. О том, как этого удалось добиться, рассказывает Product Owner & Solution Advisor Zextras Luca Arcara.

Читать далее

+3

2.9K

Unidata 12 октября в 12:20

5 трендов баз данных. Идеи с конференции VLDB’21

Блог компании Юнидата Хранение данных *Хранилища данных *Конференции

В середине августа мы приняли участие в международной научной конференции VLDB (Very Large Data Bases), и хотим поделиться актуальными идеями о работе с базами данных.

Если вы специалист по базам данных, или так или иначе связаны с ними, то приглашаем к чтению.

Читать далее

+17

2.8K

MKostsov 12 октября в 10:05

Нотариусы, которые хранят кучу сканов 50 лет: выбираем хранилище на следующие лет 20–30

Блог компании КРОК Серверное администрирование *Хранение данных *Управление проектами *

Приходят к нам нотариусы (в штате больше восьми тысяч человек). У них буквально каждый пользователь ежедневно грузит в корпоративный архив множество сканов и файлов, из-за чего этот самый архив стремительно разрастается. Все хранимые документы по требованиям регуляторов должны храниться не менее 50 лет, а некоторые — и дольше. Хотят новое хранилище для этого. Вводных совсем мало: для старта нужны два маленьких инстанса по 500 ТБ в двух разных ЦОДах и безлимитное масштабирование — в общем, всё выглядит хорошо. Вопрос только один: какое, собственно, хранилище выбрать?

Нам нужно было решить, что же им подойдёт лучше всего, то есть провести подбор решений и сравнить их. Начали мы с методологии — очень подробно собрали требования:

Масштабируемое неограниченно (главная особенность — количество «холодных» данных будет постоянно нелинейно расти).
Нечувствительное к потере частей, то есть катастрофоустойчивое и устойчивое к поломкам. Почти как хранилище на космический корабль.
Способность экономически оправданно эволюционировать вместе с частями информационной системы, то есть в идеале — замена железа и обновление софта, а не переход к другим архитектурам и переносы в другие форматы хранения.
Единообразный доступ к данным независимо от платформы исполнения.

Текущая инфраструктура развёрнута на двух площадках на расстоянии 10 км друг от друга. Стоят по две ленточные библиотеки, два драйва LTO 7, хранилище Oracle ZFS-2, дисковая полка. Дисковые хранилища используются для работы БД, ленточные хранилища — для хранения резервных копий. Для уменьшения объёмов БД необходимо редко запрашиваемые данные перемещать на более дешёвые и медленные устройства хранения с возможностью автоматического извлечения с доступом по API. Плюс централизованное управление конфигами и мониторинг.

В общем, пришлось немного почесать голову. Но выбор мы сделали, и сейчас это всё уже переходит в продакшн. Так что заходите в пост, обстоятельно расскажу, что и как.

Читать дальше →

+33

9.2K

LanSaid 12 октября в 09:42

Apache Airflow и будущее инжиниринга данных: вопрос и ответы

Big Data *Хранение данных *Data Engineering *

Перевод

Иногда мне попадаются статьи о будущем технологий, в которых это будущее выглядит ясно и непротиворечиво.

Недавно это была статья восход дата инжиниринга от Maxime Beauchemin – инженера данных из Airbnb и создателя фреймворка Apache Airflow. В Astronomer Apache Airflow - основа технического стека: наши интеграционные потоки построены как пайплайны данных на направленных ациклических графов (DAG) в Airflow. Такие статьи как эта позволяют понять, почему именно сейчас лучшее время для компаний, таких как Astronomer.

После прочтения статьи я связался с Максом и попросил его об интервью, и к моей огромной радости, он согласился и дал полные ответы на вопросы про Apache Airflow и будущее дата инжиниринга.

Читать далее

+4

2.2K

Bee_brightside 5 октября в 17:00

Нам нужны не дата-саентисты, а дата-инженеры

Блог компании билайн бизнес Data Mining *Big Data *Хранение данных *Data Engineering *

Перевод

Данные. Они повсюду и их становится только больше. За последние 5-10 лет data science привлекла множество новичков, пытающихся ощутить вкус этого запретного плода.

Но как сегодня выглядит ситуация с наймом в data science?

Вот краткое изложение статьи в двух предложениях.

TLDR: в компаниях на 70% больше вакансий на должности дата-инженеров, чем на должности дата-саентистов. Так как мы обучаем новое поколение практиков в сфере обработки данных и машинного обучения, давайте сделаем больший упор на инженерные навыки.

Так как моя работа заключается в разработке обучающей платформы для профессионалов в области данных, я много думаю о том, как эволюционирует рынок вакансий, связанных с данными (машинное обучение и data science).

Общаясь с десятками перспективных новичков в сфере данных, в том числе и со студентами лучших вузов мира, я увидел серьёзное недопонимание того, какие навыки являются наиболее важными, помогают выделиться из толпы и подготовиться к карьере.

Дата-саентист может работать в любом сегменте следующих сфер: моделирование машинного обучения, визуализация, очистка и обработка данных (например, преобразование данных для SQL), проектирование и развёртывание на производстве.

С чего вообще начинать рекомендации курса обучения для новичков?

Данные говорят громче слов. Поэтому я решил провести анализ должностей в сфере данных, на которые есть вакансии у компаний, выходивших из Y-Combinator с 2012 года. Вопросы, которыми я руководствовался в своих исследованиях:

Читать далее

+13

5.5K

eaton_ru 4 октября в 11:04

Продленная гарантия на ИБП и дополнительное оборудование

Блог компании Eaton Информационная безопасность *Хранение данных *Хранилища данных *Инженерные системы

Источники бесперебойного питания (ИБП) и модули распределения питания в стойке (Enclosure Power Distribution Units — ePDU) предназначены для защиты оборудования организаций от аварий и поломок, связанных с проблемами электроснабжения. В случае неисправности этих приборов в период действия гарантии ремонт и замена не представляют трудности и практически полностью ложатся на плечи производителя или его представителей.

Eaton предлагает новую услугу — возможность продления гарантийного срока обслуживания ИБП и дополнительного оборудования на 1 или 3 года. Максимальный общий срок основной и дополнительной гарантии при этом достигает 7 лет с момента покупки.

Читать далее

-6

713

val6852 3 октября в 14:08

Посмотрите, как Google отслеживает ваше местоположение. С Python, Jupyter, Pandas, Geopandas и Matplotlib

Python *Глобальные системы позиционирования *Виртуализация *Геоинформационные сервисы *Хранение данных *

Перевод

В отделе продаж можно услышать аббревиатуру ABC: Always Be Closing, что означает заключение сделки с покупателем. Последнее десятилетие породило еще одну аббревиатуру ABCD: Always Be Collecting Data.

Мы используем Google для почты, карт, фотографий, хранилищ, видео и многого другого. Мы используем Twitter, чтобы читать поток сознания одного президента. Мы используем Facebook для обмена сообщениями и… ну, почти все. Но наши родители пользуются им. Мы используем TikTok… Понятия не имею, зачем.

На самом деле, оказывается, что большинство из вышеперечисленного бесполезно… Ничего подобного, суть в том, что мы их используем. Мы их используем, и они бесплатны. В экономике XXI века, если вы не платите за товар, вы являетесь товаром.

Итак, короче говоря, я хотел выяснить, насколько корпорация Alphabet, владелец Google, обо мне знает. Крошечная доля, я посмотрел на историю геолокации. Я никогда не отключал службы определения местоположения, потому что ценил комфорт выше конфиденциальности. Плохая идея.

Читать далее

+58

41K

kucev 28 сентября в 10:55

Аннотирование текста для машинного обучения

Data Mining *Big Data *Хранение данных *Машинное обучение *Искусственный интеллект

Перевод

Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: «They nailed it!». Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово «nail» с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.

Читать дальше →

+3

1.4K

KorP 28 сентября в 10:01

Обзор Huawei OceanStor BCManager: реплицируют все

Блог компании ГК ЛАНИТ Системное администрирование *Хранение данных *Хранилища данных *

В наше время всё больше заказчиков задумываются о строительстве различных DR-решений для повышения отказоустойчивости их служб и сервисов. Это хорошая тенденция, и различных продуктов для решения этой задачи большое количество. Их условно можно разделить на несколько групп в зависимости от того, на каком уровне инфраструктуры они работают. Какие-то - на уровне приложений, другие - на уровне виртуальных машин, а какие-то - могут работать на уровне СХД. Многие из продуктов удачно сочетают возможность работы на разных уровнях. Этот обзор посвящен Huawei OceanStor BCManager, который позволяет управлять DR-решениями, используя при этом возможности систем хранения Huawei.

Эксперты облачного направления OnCloud компании «Онланта» постоянно совершенствуют сервисы для наших заказчиков. Не так давно в нашей публичной части облака появились новые массивы Huawei Dorado V6, о которых я рассказывал в предыдущей статье «Обзор и тестирование Huawei Dorado 5000V6». Мы решили рассмотреть, какие возможности для гранулярной репликации виртуальных машин предлагает OceanStor BCManager, который работает в связке с системами хранения Huawei.

Читать далее

+25

952

raidixteam 24 сентября в 15:35

NVMe-накопители: чем они хороши и как на них переходить. Часть первая

Блог компании RAIDIX Тестирование IT-систем *Системное администрирование *Хранение данных *

Рассматриваем возможные решения, считаем производительность и прикидываем, как правильно настроить систему.

Читать далее

+12

17K

v23ent 23 сентября в 18:25

Релиз InterSystems IRIS 2021.1

Блог компании InterSystems Администрирование баз данных *Хранение данных *

Этим летом вышел новый релиз платформы данных InterSystems IRIS Data Platform 2021.1.

Основные «темы» в этом релизе связаны с расширением доступности платформы для разработчиков на различных технологиях и новыми возможностями по анализу данных.

Расширяется выбор доступных языков разработки, как серверных, так и клиентских, а также новые компоненты для аналитики больших объемов данных. Но, обо всём по порядку.

Читать далее

+2

334

Sterhel 23 сентября в 12:49

Jellyfish: Экономически целесообразная стратификация данных для крупнейшего хранилища Uber

Высокая производительность *Хранение данных *Хранилища данных *IT-компании

Перевод

Задача

В Uber применяется несколько технологий хранения информации, причем, хранение бизнес-данных зависит от того, какова модель приложения, в которой они применяются. Одна из таких технологий называется Schemaless и обеспечивает моделирование взаимосвязанных записей с представлением в виде одной строки из множества столбцов, а также версионирование для каждого столбца отдельно.

Schemaless в ходу уже пару лет, и там накапливаются данные Uber. Притом, что Uber консолидирует все практические кейсы в Docstore, Schemaless остается источником истины для различных клиентских конвейеров задач, тех, что существуют уже давно. Schemaless как таковая использует быструю (но дорогую) базовую технологию хранения данных, которая позволяет обходиться задержкой порядка нескольких миллисекунд при высоком показателе QPS (запросы в секунду). Кроме того, Schemaless развертывает для каждого региона несколько реплик, чтобы обеспечить сохранность и доступность данных при различных моделях отказов.

Поскольку Schemaless – дорогостоящее хранилище, а данных в нем накапливается все больше, она превратилась в ключевую статью расходов и поэтому требует внимания. Чтобы разобраться в этой ситуации, были проведены замеры, помогающие лучше понять паттерны обращения к данным. Было обнаружено, что в течение некоторого периода времени обращения к данным происходили часто, а после этого – не столь часто. Точная длительность такого периода варьируется от кейса к кейсу, но при любом запросе старые данные все равно должны безусловно предоставляться по запросу.

Читать далее

+2

429

1