Как стать автором
Обновить
99.3

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Почему B-деревья быстрые?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 11K

B-дерево — это структура, помогающая выполнять поиск в больших объёмах данных. Она была изобретена более сорока лет назад, однако по-прежнему используется в большинстве современных баз данных. Хотя существуют и более новые структуры индексов, например, LSM-деревья, B-дерево пока никто не победил в обработке большинства запросов баз данных.

После прочтения этого поста вы будете знать, как B-дерево упорядочивает данные и выполняет поисковые запросы.

Читать далее
Всего голосов 92: ↑92 и ↓0 +92
Комментарии 2

Новости

БД — это скальпель или мультитул? Куда привела эволюция СУБД в 2023 году

Время на прочтение 10 мин
Количество просмотров 6.5K

За последние пару десятилетий с ростом объёма данных на рынке СУБД сложился интересный ландшафт. Появились новые СУБД, при этом старые продолжали развиваться — и сориентироваться среди них становилось всё сложнее. 

В этой статье предлагаем рассмотреть эволюцию разных СУБД и сравнить их между собой. Поможет нам в этом Олег Бондарь, директор по продукту в Yandex Cloud, который отвечает за развитие YDB — это транзакционная реляционная база данных с открытым исходным кодом. Статья написана по материалам его доклада на Saint Highload++.

Читать далее
Всего голосов 21: ↑17 и ↓4 +13
Комментарии 14

Основные проблемы с цифровыми данными в HR и опыт их решения

Время на прочтение 3 мин
Количество просмотров 517

Идея принимать решения о людях на основе анализа данных обсуждается давно, написаны десятки книг. Многие зарубежные (а теперь и отечественные) компании всерьёз начали применять данные не только в виде простых отчетов и индикаторов, но и более изощренным способом — через предиктивные модели (регрессионные или нейронки). Но, по моему мнению, до 70% всех усилий лежит именно в подготовке и поиске данных, чтобы затем их использовать для принятия решений. Конечно, есть ещё вопрос «зачем?» — но оставим его пока за скобками.

В статье я расскажу про мои топ-5 проблем с данными из опыта работы в больших корпорациях, и их возможные причины, а также поделюсь наработанными подходами к решению этих проблем.

Читать далее
Всего голосов 3: ↑1 и ↓2 -1
Комментарии 0

Разгоняем Ignite в облачной инфраструктуре. Часть 2

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 454

Привет! С вами Дмитрий Пшевский и Семён Попов, технические лидеры юнита Data в Сбере. Это вторая часть нашего материала о производительности сервисов при работе с Ignite.

В первой части мы рассказали, как перешли от монолита к микросервисной архитектуре, попробовали поработать с толстым клиентом и переключились на тонкого. Расскажем, какие сложности у нас возникли в процессе эксплуатации нашего решения в облачной инфраструктуре, почему пришлось минимизировать транзакционную логику на клиенте и к чему мы пришли в итоге. Статья написана на основе нашего доклада на JPoint 2023.

Поехали!

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Истории

Big Data в облаке: строим доступное хранилище

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 2K

За последние годы «большие данные» стали восприниматься более гибко и могут включать в себя объемы, которые ранее не рассматривались как «большие». При этом снизились затраты на хранение и обработку информации. Теперь инструменты работы с данными подобных масштабов доступны даже небольшим компаниям.

Важно помнить, что работа в этом направлении включает в себя разнообразные вызовы, связанные с ограничениями оборудования, типами источников данных, сложностью анализа. Данные нужно правильно собирать, хранить и обрабатывать, а для этого нужно выстроить правильную инфраструктуру.

Сегодня расскажем про решение, которое уменьшит неопределенность при работе с крупными данными и поможет максимально быстро построить с нуля удобную и недорогую систему для аналитических задач в вашей компании.

Читать далее
Всего голосов 17: ↑14 и ↓3 +11
Комментарии 0

Прыжок по облакам: кейс миграции MS SQL Server из Azure в VK Cloud

Время на прочтение 9 мин
Количество просмотров 1.4K


Миграция ИТ-инфраструктуры из облака в облако — квест, с которым сейчас сталкиваются многие компании и на своих шишках понимают сложность всего процесса. И чем больше инфраструктура, тем выше уровень сложности этого квеста. Особенно если перенести надо работающий сервис с крупной базой данных и целым зоопарком технологий.

Меня зовут Дмитрий Штегельман, я системный инженер в VK Tech. В этой статье я расскажу об опыте миграции PaaS MS SQL Server с гигабайтами данных из Azure в VK Cloud — выстроенном процессе, подводных камнях и полученном результате.
Читать дальше →
Всего голосов 30: ↑25 и ↓5 +20
Комментарии 5

Почему работа с данными так популярна: Data Scientist, Big Data и объектное хранение

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 4.9K

По оценкам Cybersecurity Ventures, к 2025 году общий объем данных в облаках достигнет 100 зеттабайт, или 50% всех мировых данных на тот момент. Ландшафт хранения этой информации разнообразен: от недорогих обычных серверов до огромных хранилищ на сотни петабайт. 

При экспоненциальном росте информации возможности работы с данными расширяются. Отчет LinkedIn о новых вакансиях показывает, что мировой рынок работы в области науки о данных вырастет до 230,80 млрд долларов к 2026 году. 

Наука о данных является востребованной, интересной, и, казалось бы, очень сложной областью знаний. Однако хорошая новость заключается в том, что она доступна для новичков. В статье мы разберемся, с какими базовыми основами нужно познакомиться при работе с данными.

Читать далее
Всего голосов 17: ↑13 и ↓4 +9
Комментарии 1

Переход с ETL на ELT

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 5.5K


ETL (Извлечение-Трансформация-Загрузка) и ELT (Извлечение-Загрузка-Трансформация) — два термина, которые часто используются в области дата-инжиниринга, особенно в контексте захвата и преобразования данных. Хотя эти термины часто используются как взаимозаменяемые, они относятся к немного разным концепциям и имеют различные последствия для проектирования конвейера данных.

В этом посте мы проясним определения процессов ETL и ELT, обозначим различия между ними и обсудим преимущества и недостатки, которые они предлагают инженерам и командам по работе с данными в целом. И самое главное, я опишу, как недавние изменения в формировании современных команд по работе с данными повлияли на ландшафт борьбы ETL против ELT.

Понимание Извлечения (Extract), Загрузки (Load) и Трансформации (Transform) независимо друг от друга


Главный вопрос при сравнении ETL и ELT, очевидно, последовательность выполнения шагов Извлечения, Загрузки и Трансформации в рамках данных.
Читать дальше →
Всего голосов 26: ↑24 и ↓2 +22
Комментарии 9

MDM и CDP: различия систем. Как сделать выбор

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 2.4K

Любой компании, которая стремится сохранить конкурентоспособность на рынке, необходимо создание «золотой записи» (профиля) клиента во внутренних базах. Для этого многие используют системы управления мастер-данными (MDM, master data management), но сталкиваются с рядом проблем, другие – применяют CDP-платформы (Customer Data Platform), которые также имеют свои недостатки. А теперь представьте, если от каждого из решений можно было взять лишь лучшее, оставив за бортом все слабые стороны. Как это сделать – в новой статье CleverData под катом.

Читать далее
Всего голосов 33: ↑32 и ↓1 +31
Комментарии 1

Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных

Время на прочтение 5 мин
Количество просмотров 2.2K

Привет, Хабр! Меня зовут Яна и я работаю Data Quality в департаменте развития аналитики "Цепочки поставок и поддерживающие функции" X5 Tech. В этой статье мы с моей коллегой Наташей, менеджером по качеству данных, решили рассказать о мониторинге качества данных большинства отчётов нашей команды.

На первый взгляд может показаться, что проверять таблицы – задача рутинная и однотипная, но это не так, ведь все данные имеют свои особенности, а значит и проверки для них зачастую создаются уникальные. Статья, как нам кажется, будет полезна тем, кто интересуется качеством данных, ищет подходы к мониторингу или хочет больше узнать о работе DQ в целом.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 13

Что такое LUN-СХД, или как мы виртуализировали хранилище

Время на прочтение 5 мин
Количество просмотров 5.3K

Источник: Huawei.

Вся жизнь — это выбор. Между Apple и Android, MySQL и PostgreSQL, здоровым питанием и тортом после 18:00. Но как быть, если его хочется, а отрабатывать калории в зале — не очень? Обычно весь торт есть не заставляют, поэтому его можно нарезать небольшими частями и использовать по необходимости.

С данными в СХД такая же ситуация: можно использовать все пространство, а можно ограничиться LUN и оптимизировать бюджет. О том, что такое LUN, когда и где лучше использовать технологию — читайте в материале.
Читать дальше →
Всего голосов 35: ↑31 и ↓4 +27
Комментарии 7

Obsidian: Мой опыт с LYT/Ideaverse и его русификация

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 8.3K

В этой статье я расскажу о том, как организовал себе единое место для заметок, документов и проектной документации с помощью Obsidian и шаблона LYT, а также дам ссылку на русифицированный шаблон для создания своей такой системы.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 40

Вендоры сговорились? Новые СХД, видеокарты для китайского рынка, SSD-диски и другое железо

Время на прочтение 5 мин
Количество просмотров 7.8K

Начинается последний месяц года, а я рассказываю про феерию СХД, случившуюся в ноябре. Иначе не могу назвать то количество новинок, которые были представлены в этом сегменте. Selectel также не отстает от тренда и представляет IaaS-решение на базе СХД. Подробности под катом.
Читать дальше →
Всего голосов 38: ↑38 и ↓0 +38
Комментарии 7

Ближайшие события

Тестируем СХД ExaGrid EX18: получилось ли заменить Dell DataDomain и HPE StoreOnce?

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 3.8K

Привет, Хабр! На связи Алексей Зотов из К2Тех, и у меня для вас свежий обзор на железо. Сегодня пришла очередь СХД для бэкапов от ExaGrid — это продукт с продвинутым функционалом дедупликации на хранилище и отдельной фишкой в виде удивительно большого кэша. Под катом вас ждут первое впечатление, результаты тестирования и выводы об этой системе.

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 4

Выбор BI системы для селф-сервис

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 4.3K

Всем привет! Я — Никита Колганов из группы компаний «АСНА». Группа компаний «АСНА» — это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI‑систему?

В компании ежедневно делается множество отчетов, значительная часть которых — средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации — в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки — расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности — непросто ограничить доступ к Excel‑файлу для определенного круга лиц

Отсутствие автоматизации алертов — на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI‑системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self‑service.

Читать далее
Всего голосов 8: ↑3 и ↓5 -2
Комментарии 3

Будни техпода. Как перенести данные с одного виртуального хостинга на другой

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 3.6K
image

В последние недели специалистам нашей техподдержки поступает много обращений с просьбой помочь перенести данные, размещённые на виртуальном выделенном сервере (VDS) другого хостинга. Особенно число таких запросов выросло после появления новости о закрытии с 25 декабря 2023 года проекта CloudLITE.

В целом, необходимость перенести свой виртуальный сервер возникает довольно часто. Это может быть связано с желанием повысить производительность, уровень обслуживания или с изменением потребностей бизнеса. Как правило, для владельцев онлайн-проектов перенос VDS с одного хостинга на другой выглядит как вызов.

В статье мы подробно расскажем, как перенести VDS на операционной системе Windows или Linux.
Читать дальше →
Всего голосов 34: ↑34 и ↓0 +34
Комментарии 4

Общая информация о фоновых заданиях в SAP ERP

Время на прочтение 5 мин
Количество просмотров 1.6K

Всем привет!

Меня зовут Юрий, я консультант SAP ERP. Как любой IT‑специалист, я постоянно ищу пути автоматизировать рабочие дела.

Один из подходящих инструментов — фоновое задание. Оно позволяет не наблюдать на мониторе за выполнением программы, а откладывать запуск, например, до ночи, чтобы не нагружать систему тяжёлой операцией днём, планировать регулярные операции… В общем, преимуществ много для любого специалиста, который регулярно ставит задания в SAP ERP.

Далее расскажу, как создавать задания двумя способами и как их отслеживать. А если вы только начинаете разбираться в SAP ERP, дам несколько полезных советов, которые сильно упростят работу и помогут использовать весь потенциал фоновых заданий.

 

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 1

Как работать со словарями данных и оптимизировать запросы в ClickHouse

Время на прочтение 11 мин
Количество просмотров 3.7K

Приветствуем! На связи вновь Глеб Кононенко и Алексей Диков — разработчики из Лиги Цифровой Экономики. Ранее мы уже немного рассказывали про наш опыт работы с распределенными таблицами в ClickHouse в этой статье.

Сегодня хотим поделиться опытом оптимизации запросов и работы со словарями данных. Используемая версия ClickHouse: 23.8.7.24

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 3

FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Уровень сложности Сложный
Время на прочтение 7 мин
Количество просмотров 1K

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 2

Где связь? Как управление данными, информацией и знаниями позволило ловить серийных преступников

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 1.6K

От метода профилирования ФБР и баз данных ДНК до искусственного интеллекта: основные этапы работы работы с данными по преступлениям.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 2

Вклад авторов