Хранение данных *

Что имеем, то храним

Статьи Посты Новости Авторы Компании

PatientZero 21 час назад

Почему B-деревья быстрые?

Простой

7 мин

11K

Алгоритмы *Администрирование баз данных *Хранение данных *

Обзор

Перевод

B-дерево — это структура, помогающая выполнять поиск в больших объёмах данных. Она была изобретена более сорока лет назад, однако по-прежнему используется в большинстве современных баз данных. Хотя существуют и более новые структуры индексов, например, LSM-деревья, B-дерево пока никто не победил в обработке большинства запросов баз данных.

После прочтения этого поста вы будете знать, как B-дерево упорядочивает данные и выполняет поисковые запросы.

+92

olegbunin 25 дек в 12:01

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году

10 мин

6.5K

Блог компании Конференции Олега Бунина (Онтико) Блог компании Yandex Cloud & Yandex Infrastructure Администрирование баз данных *Хранение данных *Хранилища данных *

За последние пару десятилетий с ростом объёма данных на рынке СУБД сложился интересный ландшафт. Появились новые СУБД, при этом старые продолжали развиваться — и сориентироваться среди них становилось всё сложнее.

В этой статье предлагаем рассмотреть эволюцию разных СУБД и сравнить их между собой. Поможет нам в этом Олег Бондарь, директор по продукту в Yandex Cloud, который отвечает за развитие YDB — это транзакционная реляционная база данных с открытым исходным кодом. Статья написана по материалам его доклада на Saint Highload++.

+13

for_serg 24 дек в 19:36

Основные проблемы с цифровыми данными в HR и опыт их решения

3 мин

517

Хранение данных *Управление персоналом *

Из песочницы

Идея принимать решения о людях на основе анализа данных обсуждается давно, написаны десятки книг. Многие зарубежные (а теперь и отечественные) компании всерьёз начали применять данные не только в виде простых отчетов и индикаторов, но и более изощренным способом — через предиктивные модели (регрессионные или нейронки). Но, по моему мнению, до 70% всех усилий лежит именно в подготовке и поиске данных, чтобы затем их использовать для принятия решений. Конечно, есть ещё вопрос «зачем?» — но оставим его пока за скобками.

В статье я расскажу про мои топ-5 проблем с данными из опыта работы в больших корпорациях, и их возможные причины, а также поделюсь наработанными подходами к решению этих проблем.

-1

Sber 22 дек в 12:11

Разгоняем Ignite в облачной инфраструктуре. Часть 2

Средний

7 мин

454

Блог компании Сбер Хранение данных *Хранилища данных *Облачные сервисы *

Кейс

Привет! С вами Дмитрий Пшевский и Семён Попов, технические лидеры юнита Data в Сбере. Это вторая часть нашего материала о производительности сервисов при работе с Ignite.

В первой части мы рассказали, как перешли от монолита к микросервисной архитектуре, попробовали поработать с толстым клиентом и переключились на тонкого. Расскажем, какие сложности у нас возникли в процессе эксплуатации нашего решения в облачной инфраструктуре, почему пришлось минимизировать транзакционную логику на клиенте и к чему мы пришли в итоге. Статья написана на основе нашего доклада на JPoint 2023.

Поехали!

CloudMTS 21 дек в 13:22

Big Data в облаке: строим доступное хранилище

Простой

4 мин

Блог компании CloudMTS Блог компании МТС Хранение данных *Хранилища данных *Облачные сервисы *

Обзор

За последние годы «большие данные» стали восприниматься более гибко и могут включать в себя объемы, которые ранее не рассматривались как «большие». При этом снизились затраты на хранение и обработку информации. Теперь инструменты работы с данными подобных масштабов доступны даже небольшим компаниям.

Важно помнить, что работа в этом направлении включает в себя разнообразные вызовы, связанные с ограничениями оборудования, типами источников данных, сложностью анализа. Данные нужно правильно собирать, хранить и обрабатывать, а для этого нужно выстроить правильную инфраструктуру.

Сегодня расскажем про решение, которое уменьшит неопределенность при работе с крупными данными и поможет максимально быстро построить с нуля удобную и недорогую систему для аналитических задач в вашей компании.

+11

ShteDy 20 дек в 11:48

Прыжок по облакам: кейс миграции MS SQL Server из Azure в VK Cloud

9 мин

1.4K

Блог компании VK Администрирование баз данных *Хранение данных *

Миграция ИТ-инфраструктуры из облака в облако — квест, с которым сейчас сталкиваются многие компании и на своих шишках понимают сложность всего процесса. И чем больше инфраструктура, тем выше уровень сложности этого квеста. Особенно если перенести надо работающий сервис с крупной базой данных и целым зоопарком технологий.

Меня зовут Дмитрий Штегельман, я системный инженер в VK Tech. В этой статье я расскажу об опыте миграции PaaS MS SQL Server с гигабайтами данных из Azure в VK Cloud — выстроенном процессе, подводных камнях и полученном результате.

Читать дальше →

+20

randall 20 дек в 11:30

Почему работа с данными так популярна: Data Scientist, Big Data и объектное хранение

Простой

9 мин

4.9K

Блог компании CloudMTS Блог компании МТС Администрирование баз данных *Хранение данных *Хранилища данных *

Обзор

По оценкам Cybersecurity Ventures, к 2025 году общий объем данных в облаках достигнет 100 зеттабайт, или 50% всех мировых данных на тот момент. Ландшафт хранения этой информации разнообразен: от недорогих обычных серверов до огромных хранилищ на сотни петабайт.

При экспоненциальном росте информации возможности работы с данными расширяются. Отчет LinkedIn о новых вакансиях показывает, что мировой рынок работы в области науки о данных вырастет до 230,80 млрд долларов к 2026 году.

Наука о данных является востребованной, интересной, и, казалось бы, очень сложной областью знаний. Однако хорошая новость заключается в том, что она доступна для новичков. В статье мы разберемся, с какими базовыми основами нужно познакомиться при работе с данными.

ITSumma 14 дек в 15:57

Переход с ETL на ELT

Средний

6 мин

5.5K

Блог компании ITSumma Программирование *Анализ и проектирование систем *Хранение данных *DevOps *

Перевод

ETL (Извлечение-Трансформация-Загрузка) и ELT (Извлечение-Загрузка-Трансформация) — два термина, которые часто используются в области дата-инжиниринга, особенно в контексте захвата и преобразования данных. Хотя эти термины часто используются как взаимозаменяемые, они относятся к немного разным концепциям и имеют различные последствия для проектирования конвейера данных.

В этом посте мы проясним определения процессов ETL и ELT, обозначим различия между ними и обсудим преимущества и недостатки, которые они предлагают инженерам и командам по работе с данными в целом. И самое главное, я опишу, как недавние изменения в формировании современных команд по работе с данными повлияли на ландшафт борьбы ETL против ELT.

Понимание Извлечения (Extract), Загрузки (Load) и Трансформации (Transform) независимо друг от друга

Главный вопрос при сравнении ETL и ELT, очевидно, последовательность выполнения шагов Извлечения, Загрузки и Трансформации в рамках данных.

Читать дальше →

+22

cleverdata_team 12 дек в 10:01

MDM и CDP: различия систем. Как сделать выбор

Простой

7 мин

2.4K

Блог компании ГК ЛАНИТ Big Data *Терминология IT Хранение данных *Интернет-маркетинг *

Любой компании, которая стремится сохранить конкурентоспособность на рынке, необходимо создание «золотой записи» (профиля) клиента во внутренних базах. Для этого многие используют системы управления мастер-данными (MDM, master data management), но сталкиваются с рядом проблем, другие – применяют CDP-платформы (Customer Data Platform), которые также имеют свои недостатки. А теперь представьте, если от каждого из решений можно было взять лишь лучшее, оставив за бортом все слабые стороны. Как это сделать – в новой статье CleverData под катом.

+31

YanaPerova 11 дек в 16:29

Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

5 мин

2.2K

Блог компании X5 Tech Big Data *Хранение данных *Data Engineering *

Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей, менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды.

На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.

Doctor_IT 11 дек в 16:05

Что такое LUN-СХД, или как мы виртуализировали хранилище

5 мин

5.3K

Блог компании Selectel IT-инфраструктура *Серверная оптимизация *Хранение данных *Распределённые системы *

Обзор

Источник: Huawei.

Вся жизнь — это выбор. Между Apple и Android, MySQL и PostgreSQL, здоровым питанием и тортом после 18:00. Но как быть, если его хочется, а отрабатывать калории в зале — не очень? Обычно весь торт есть не заставляют, поэтому его можно нарезать небольшими частями и использовать по необходимости.

С данными в СХД такая же ситуация: можно использовать все пространство, а можно ограничиться LUN и оптимизировать бюджет. О том, что такое LUN, когда и где лучше использовать технологию — читайте в материале.

Читать дальше →

+27

harmakit 11 дек в 14:03

Obsidian: Мой опыт с LYT/Ideaverse и его русификация

Простой

6 мин

8.3K

Хранение данных *Софт Лайфхаки для гиков Мозг Текстовые редакторы и IDE *

Из песочницы

В этой статье я расскажу о том, как организовал себе единое место для заметок, документов и проектной документации с помощью Obsidian и шаблона LYT, а также дам ссылку на русифицированный шаблон для создания своей такой системы.

+16

skovalev 8 дек в 13:40

Вендоры сговорились? Новые СХД, видеокарты для китайского рынка, SSD-диски и другое железо

5 мин

7.8K

Блог компании Selectel IT-инфраструктура *Хранение данных *Компьютерное железо Процессоры

Дайджест

Начинается последний месяц года, а я рассказываю про феерию СХД, случившуюся в ноябре. Иначе не могу назвать то количество новинок, которые были представлены в этом сегменте. Selectel также не отстает от тренда и представляет IaaS-решение на базе СХД. Подробности под катом.

Читать дальше →

+38

alzotov 8 дек в 10:58

Тестируем СХД ExaGrid EX18: получилось ли заменить Dell DataDomain и HPE StoreOnce?

Средний

6 мин

3.8K

Блог компании К2Тех Тестирование IT-систем *IT-инфраструктура *Хранение данных *Компьютерное железо

Обзор

Привет, Хабр! На связи Алексей Зотов из К2Тех, и у меня для вас свежий обзор на железо. Сегодня пришла очередь СХД для бэкапов от ExaGrid — это продукт с продвинутым функционалом дедупликации на хранилище и отдельной фишкой в виде удивительно большого кэша. Под катом вас ждут первое впечатление, результаты тестирования и выводы об этой системе.

+21

Avanti 8 дек в 09:28

Выбор BI системы для селф-сервис

Простой

8 мин

4.3K

Big Data *Визуализация данных *Хранение данных *Хранилища данных *

Мнение

Всем привет! Я — Никита Колганов из группы компаний «АСНА». Группа компаний «АСНА» — это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI‑систему?

В компании ежедневно делается множество отчетов, значительная часть которых — средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации — в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки — расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности — непросто ограничить доступ к Excel‑файлу для определенного круга лиц

Отсутствие автоматизации алертов — на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI‑системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self‑service.

-2

oldadmin 7 дек в 16:00

Будни техпода. Как перенести данные с одного виртуального хостинга на другой

Простой

7 мин

3.6K

Блог компании RUVDS.com Хостинг Системное администрирование *Серверное администрирование *Хранение данных *

Туториал

В последние недели специалистам нашей техподдержки поступает много обращений с просьбой помочь перенести данные, размещённые на виртуальном выделенном сервере (VDS) другого хостинга. Особенно число таких запросов выросло после появления новости о закрытии с 25 декабря 2023 года проекта CloudLITE.

В целом, необходимость перенести свой виртуальный сервер возникает довольно часто. Это может быть связано с желанием повысить производительность, уровень обслуживания или с изменением потребностей бизнеса. Как правило, для владельцев онлайн-проектов перенос VDS с одного хостинга на другой выглядит как вызов.

В статье мы подробно расскажем, как перенести VDS на операционной системе Windows или Linux.

Читать дальше →

+34

nornickel 7 дек в 14:25

Общая информация о фоновых заданиях в SAP ERP

5 мин

1.6K

Блог компании «Норникель» ERP-системы *Хранение данных *1С *

Туториал

Всем привет!

Меня зовут Юрий, я консультант SAP ERP. Как любой IT‑специалист, я постоянно ищу пути автоматизировать рабочие дела.

Один из подходящих инструментов — фоновое задание. Оно позволяет не наблюдать на мониторе за выполнением программы, а откладывать запуск, например, до ночи, чтобы не нагружать систему тяжёлой операцией днём, планировать регулярные операции… В общем, преимуществ много для любого специалиста, который регулярно ставит задания в SAP ERP.

Далее расскажу, как создавать задания двумя способами и как их отслеживать. А если вы только начинаете разбираться в SAP ERP, дам несколько полезных советов, которые сильно упростят работу и помогут использовать весь потенциал фоновых заданий.

Digital_League 7 дек в 11:49

Как работать со словарями данных и оптимизировать запросы в ClickHouse

11 мин

3.7K

Блог компании Лига Цифровой Экономики IT-инфраструктура *Хранение данных *Распределённые системы *

Приветствуем! На связи вновь Глеб Кононенко и Алексей Диков — разработчики из Лиги Цифровой Экономики. Ранее мы уже немного рассказывали про наш опыт работы с распределенными таблицами в ClickHouse в этой статье.

Сегодня хотим поделиться опытом оптимизации запросов и работы со словарями данных. Используемая версия ClickHouse: 23.8.7.24

alexandrsnytko 5 дек в 10:07

FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Сложный

7 мин

Блог компании Tele2 Big Data *Визуализация данных *Хранение данных *Хранилища данных *

Туториал

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.