Как стать автором
Обновить
69.11
Рейтинг

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга

Сколько нужно времени, чтобы перенести дашборд из PowerBI на Visiology 3.0?

Блог компании Visiology Визуализация данных *Хранение данных *
Туториал

Привет, друзья! После нового года на нас обрушилась очередная лавина запросов о возможности миграции на Visiology 3 c Microsoft PowerBI. Конечно, это связано с тем что уже закупленные лицензии на PBI подходят к концу, а приобретение новых не стало со временем проще. Поэтому сегодня я хочу наглядно показать, как будет происходить перенос несложного дашборда из Power BI в Visiology 3.0.

Почему так быстро?
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.7K
Комментарии 1

Новости

Как я участвовал в создании информационных систем для медицины

Java *XML *Проектирование и рефакторинг *Хранение данных *Data Engineering *
Из песочницы

В 1987-м году я окончил с красным дипломом приборостроительный факультет челябинского политехнического института по специальности "Автоматика и телемеханика", хотя планировал стать физиком-теоретиком и школу заканчивал в специализированной школе-интернате №18 при МГУ. По распределению попал в специализированное конструкторское бюро и до 1991-го года разрабатывал электронные блоки для бронетанковой техники. До сих пор считаю что полученная при этом инженерная школа является чем-то недостижимым в современных реалиях. В частности, мы с коллегами создали комбинированный аналого-цифровой программируемый комплекс, который в реальном времени проводил расчеты по математической модели объекта, описываемой системой дифференциальных уравнений 4-го порядка с 14-ью нелинейными элементами и принимал решения более 10 тысяч раз в секунду. На современных вычислителях это наверное и можно было бы сделать, но в то время мы решали задачу имея в распоряжении только набор интегральных микросхем, самой крутой из которых была ПЗУ на 2 килобайта и всё наше творчество должно было уместиться в 9 литров объёма и работать в диапазоне температур от -40 до +85.

После того как в 1991-м году страна развалилась я выбрал стезю программирования и с тех пор так или иначе связан с разработкой ПО и построением крупных информационных систем. Начинал с создания комплексного ПО и "умной кассы" для торгового центра, потом была информационная система учёта аренды муниципального имущества. Потом я вернулся в конструкторское бюро на считавшийся безнадёжным проект по созданию комплекса диагностических стендов для автоматизированного поиска неисправностей в электронных блоках в интересах иностранного заказчика. После окончания разработки я возглавлял группу разработчиков, которая сдавала эти стенды заказчику, и мы с этой задачей справились.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 2.6K
Комментарии 12

Neo4j. Вместо тысячи join-ов…

NoSQL *Хранение данных *
Из песочницы

Если вы столкнулись с задачей хранения сильно связанных данных, то отличным вариантом будет использовать графовую модель данных. Мы в Текфорс сделали именно так. Почему - разберем в этой статье. 

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 6.3K
Комментарии 9

Глобальный кризис хранения данных. Почему места в хранилищах на всех не хватит

Блог компании FirstVDS Хранение данных *Хранилища данных *Статистика в IT

Ученые предупреждают, что мир движется к глобальному кризису хранения данных. Ожидается, что к 2025 году объем данных в мире увеличится на 300 процентов, и для всей этой информации уже начнет не хватать места. Несмотря на быстрое расширение AWS, GCP и Azure, облака не смогут разместить весь этот «умопомрачительный объем». Кому-то придется ужаться.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 4.3K
Комментарии 32

Лучший формат данных для хранения pandas.DataFrame

Блог компании Страховой Дом ВСК Python *Хранение данных *Data Engineering *

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.

На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?

Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.

В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.

Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 3.6K
Комментарии 13

Obsidian + Dataview: Таблицы

Хранение данных *Управление проектами *GTD *Софт Лайфхаки для гиков
Из песочницы

На статью меня вдохновил этот комментарий .

Dataview - это мощный плагин для Obsidian позволяющий отбирать данные (теги, даты, числа и любые другие пользовательские параметры) markdown-заметок, а затем их фильтровать и отбирать как пожелаешь.

Это такой своеобразный аналог Notion-таблиц, где можно создать таблицу с бесконечной вложенностью (таблица, внутри одной ячейки, а внутри еще таблица и еще и еще).

На КДПВ как раз собраны четыре кейса реализации функционала плагина Dataview.

Как всё это работает

1. Dataview работает на встроенном языке запросов

2. Все запросы должны писаться внутри подобного блока кода:

А разбирать каждый кейс будем под катом.
Всего голосов 22: ↑22 и ↓0 +22
Просмотры 5K
Комментарии 34

Жарим TOAST в PostgreSQL

Блог компании Postgres Professional Open source *PostgreSQL *Хранение данных *Хранилища данных *
Обзор

У нас не подгорит!

Как PostgreSQL хранит большие значения столбцов? Какие явные и неявные ограничения есть у существующего механизма хранения? Что за проблемы вызваны этими ограничениями? И как можно решить эти проблемы, и расширить возможности PostgreSQL? Об этом, и чуть больше - данная статья.

Читать далее
Всего голосов 48: ↑48 и ↓0 +48
Просмотры 7.1K
Комментарии 10

Куда летит бизнес виртуального каршеринга или хостинг в России и Беларуси

Блог компании AdminVPS Хостинг IT-инфраструктура *Хранение данных *Исследования и прогнозы в IT *
Обзор

Продавать хостинг - дело замысловатое, это не пирожки горячие, которые разлетаются в миг, тут период принятия решения от 0 до 30 дней, а длина последовательности от 12+ касаний перед покупкой. Разберемся в процессе. Что вы делаете перед выбором? Смотрите характеристики, изучаете отзывы, рейтинги, думаете, сопоставляете, спрашиваете знакомых, каким они доверяет сервисам, услугам, где живут их сайты. И это понятно, хостинг не перчатки, переход порой дается с трудом. 

Кроме всего прочего, рынок хостинга - очень высококонкурентный, вот прочтете вы эту статью и увидите десяток новых предложений, рекламные технологии не спят, анализируют не только ваши запросы, но и контент, который вы изучаете. От этого никуда не деться, а паранойя - штука неприятная, порой можно и позволить системам заглянуть чем вы увлекаетесь, что уж тут, ведь без патогенной микрофлоры - никуда, надо смириться, что она существует здесь и сейчас.  

Очевидно, что чем более развитый рынок, тем выше конкуренция, тем больше предложений, скидок, акций, программ лояльности, это говорит о зрелости маркета: цены снижаются, качество растет - все счастливы. Есть правда, партизанский маркетинг, незаконные методы покупки отзывов, управление репутацией, когда конкуренты специально пишут негатив друг на друга и прочее и прочее, такое тоже имеет место быть в период роста и падения конкретных компаний. И это тоже свидетельствует о высокой конкуренции. Итак, попробуем разобраться, на каком этапе своего развития находится рынок России и для сравнения, рынок Беларуси, посмотрим общедоступные косвенные и прямые метрики, указывающие на данный процесс. А также на какие услуги спрос растет, на какие падает и спрогнозируем ближайшее будущее в мире хранения данных. Проанализируем цены в РБ и почему они такие разные.

Аренда виртуального сервера VPS/VDSв России

Тенденции
Всего голосов 13: ↑8 и ↓5 +3
Просмотры 2.2K
Комментарии 8

Почему компании продолжают звонить и писать отказавшимся от коммуникаций клиентам

Блог компании HFLabs Спам и антиспам Анализ и проектирование систем *Хранение данных *Data Engineering *
Мнение

Заказчики все чаще спрашивают нас, как работать с клиентскими согласиями так, чтобы блюсти законы и не злить клиентов. «Красный флаг» для компании — клиенту продолжают писать и звонить, когда тот просил прекратить.

Чтобы ответить точнее, сначала мы расспросили компании, что болит:
как хотят, где не получается. Затем разобрались, почему не выходит и нашли, как починить.
Ответ разделили на два текста. В один не поместился — уж очень объемный.

В этой статье рассказываем, из-за каких ошибок со сбором, обработкой и хранением согласий происходят факапы. И чем рискует бизнес — а то, может, и нет смысла наводить порядок.

В следующем тексте опубликуем удачные организационные и технические практики работы с согласиями для маленьких, средних и больших компаний.

Поехали
Всего голосов 20: ↑17 и ↓3 +14
Просмотры 3.5K
Комментарии 19

Резервное копирование репозиториев с github, gitlab

Python *Git *GitHub *Хранение данных *
main

Резервное копирование репозиториев с git серверов на основе github и gitlab по токену. Скрипт скачивает все Ваши репозитории доступные по токену и архивирует их. Давно хотел написать такой инструмент т.к. использую и те и те сервера в работе и личных целях. У меня полно старых проектов которые хранятся только на git, если с ним что-то случится, то их уже не будет.

Читать дальше →
Всего голосов 14: ↑10 и ↓4 +6
Просмотры 5.7K
Комментарии 17

Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков

Big Data *Хранение данных *Машинное обучение *Искусственный интеллект Здоровье
Перевод

Существует множество опенсорсного ПО и инструментов для проектов компьютерного зрения и машинного обучения в сфере медицинских визуализаций.

Иногда может быть выгодно использовать опенсорсные инструменты при тестировании и обучении модели ML на массивах данных медицинских снимков. Вы можете экономить деньги, а многие инструменты, например, 3DSlicer и ITK-Snap, предназначены специально для аннотирования медицинских снимков и обучения моделей ML на массивах данных из сферы здравоохранения.

В здравоохранении критически важны качество массива данных и эффективность инструментов, используемых для аннотирования и обучения моделей ML. Это может стать вопросом жизни и смерти для пациентов, ведь для их диагностирования медицинским специалистам и врачам нужны максимально точные результаты моделей компьютерного зрения и машинного обучения.

Как известно командам клиницистов и обработки данных, слои данных в медицинских снимках сложны и детализированы. Для выполнения работы вам нужны подходящие инструменты. Применение неверного инструмента, например, опенсорсного приложения для аннотирования, может негативно повлиять на разработку модели.

В этой статье мы расскажем об основных опенсорсных инструментах для аннотирования медицинских снимков, сценариях применения таких инструментов и о том, как они препятствуют развитию вашего проекта. Мы перечислим те возможности инструмента аннотирования, которые помогут вам преодолеть эти трудности, в том числе и функции, которые обеспечат нужные вам результаты.
Читать дальше →
Всего голосов 40: ↑7 и ↓33 -26
Просмотры 4.2K
Комментарии 12

Boson — разработка СУБД «с нуля» (часть I)

C++ *Системное программирование *Алгоритмы *Хранение данных *

После разработки виртуальной машины и компилятора в рамках хобби прошел год и захотелось попробовать реализовать ёмкий по алгоритмам проект по системному программированию.

Каждый разработчик "кровавого" enterprise в своей работе использует СУБД (SQL/NoSQL) и меня всегда искренне интересовало как они устроены в самом сердце, на самом низком уровне. Почитав документацию и исходный код SQLite и MongoDB, про используемые в индексах и интерпретаторах запросов алгоритмы, осознал, что несмотря на широкую распространенность и некую привычность, системы управления базами данных (СУБД) - это сложные программные продукты, реализация которых не всем под силу. Отлично - как раз то, что мне надо. С мотивацией разобрались, перейдем к делу.

Итак, для начала хорошо бы сформулировать высокоуровневую спецификацию требований. Boson - это легкая, встраиваемая документоориентированная база данных на С/С++

Читать далее
Всего голосов 86: ↑83 и ↓3 +80
Просмотры 13K
Комментарии 60

TrueNas: когда Nas реально ТРУ

Системное администрирование *Виртуализация *Хранение данных *Хранилища данных *Компьютерное железо
Кейс

Вы слышали о TrueNas, но не знаете, стоит ли с ним связываться?

Представляю реальный случай применения TrueNas в качестве основного файлового хранилища в компании. Как на практике и из старого сервера и домашних дисков мы получили достаточно неплохой NAS с SMB, NFS, iSCSI, black jack, сжатием на лету, достаточной отказоустойчивостью и более чем приличной скоростью. Как ZFS позволяет экономить место на дисках при этом повышая надёжность хранения.

Читать далее
Всего голосов 13: ↑11 и ↓2 +9
Просмотры 7.3K
Комментарии 57

SSD, CD, HDD, OptiNAND… DNA — выбираем перспективные накопители для резервного копирования

Блог компании CloudMTS Резервное копирование *Хранение данных *Хранилища данных *Облачные сервисы *
Обзор
image

Потеря бэкапов — проблема как для обычных пользователей, так и для организаций. Ситуации, когда данные пропадают из-за программного сбоя, не редкость, но так же часто причиной потери становится сбой аппаратный — в 42% случаев (по данным StorageCraft).

В ЦОДах для хранения резервных копий флеш-память постепенно занимает доминирующее положение. У SSD есть множество плюсов и очень мало минусов. Можно предположить, что через несколько SSD накопители победят окончательно и бесповоротно. На самом деле все обстоит несколько иначе.

Посмотрим на статистику облачных провайдеров и опыт энтузиастов, предпочитающих нестандартные подходы к хранению резервных копий.

Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 6.7K
Комментарии 19

Истории

Как выбрать NewSQL-СУБД для вашей компании

Блог компании QIWI SQL *Хранение данных *Распределённые системы *

Привет! Меня зовут Пётр, я менеджер по отказоустойчивости в QIWI. В этом посте мы поговорим про выбор новых классов продуктов. Как-то раз мы с одним разработчиком из другой компании стали обсуждать, почему бы не выбрать для работы какую-то распределенную СУБД, поддерживающую SQL? Из этой дискуссии родился мой доклад для нашей QIWI Server Party. Представляю вам его текстовую версию.

Читать далее
Всего голосов 35: ↑33 и ↓2 +31
Просмотры 5.4K
Комментарии 10

Как мы в Slack используем Terraform

Блог компании RUVDS.com Хранение данных *Облачные сервисы *
Перевод

В Slack всей своей инфраструктурой, опирающейся на AWS, DigitalOcean, NS1 и GCP, мы управляем с помощью Terraform. И хотя большая её часть работает на AWS, мы выбрали Terraform в противоположность их нативному сервису CloudFormation, чтобы использовать единый инструмент среди всех провайдеров сервисов. Это позволяет сохранить модель «инфраструктура как код» и механизм развёртывания универсальными. В статье мы разберём процесс развёртывания нашей инфраструктуры с помощью Terraform.
Читать дальше →
Всего голосов 37: ↑36 и ↓1 +35
Просмотры 4.5K
Комментарии 4

«Утечка данных»: в чем опасность и как с этим бороться?

Блог компании ГК «Астра» Информационная безопасность *PostgreSQL *Администрирование баз данных *Хранение данных *

Личные данные сегодня становятся все больше публичными, а конфиденциальность информации скорее условна. Махинации с использованием "слитых" баз данных сейчас обрели небывалый масштаб. От "разводов" недобросовестных телефонных мошенников страдаем мы с вами, от взломов и утечки внутренней информации миллионные ущербы несут крупные компании. Как обезопасить себя и своих клиентов? Как бороться с утечкой данных? Об этом — данный материал.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 1.5K
Комментарии 2

Нельзя просто взять и обезличить данные — опыт команды разработки «Сферы»

Блог компании Группа Т1 Информационная безопасность *Хранение данных *

Бизнесу нельзя использовать данные клиентов as is для тестов. Отдел разработки не может просто взять персональные данные (ПДн) и проверить на них новую фичу, обучить Machine Learning-модель. Этот момент регулируют законы и отраслевые стандарты. Чтобы с данными можно было работать, их необходимо обезличить. В крупных компаниях сотни таблиц переплетены идентификаторами, формулами, процедурами. И здесь речь идет уже о формировании обезличенных интеграционных полигонов (комплексов БД). Максим Никитин, тимлид группы разработки, поделится опытом команды разработки платформы производства ПО «Сфера».

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 1.9K
Комментарии 0

Бухгалтеры и юристы хранят документы по 50 лет – как будем организовывать для них хранение?

Блог компании Docsvision ECM/СЭД *Хранение данных *Бизнес-модели *

К нам часто обращаются специалисты из бухгалтерской или юридической службы за консультацией о том, как им уже избавиться от хранения всех документов на бумаге и вступить в мир без бумаги.

Рассказываем, какие технологии помогают решить такие задачи.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2.5K
Комментарии 6

Импортозамещаем Evernote. Obsidian – менеджер заметок и лучший друг менеджеров

Блог компании МТС Хранение данных *Управление проектами *Облачные сервисы *Лайфхаки для гиков
✏️ Технотекст 2022

Привет, Хабр! Меня зовут Николай Суворов. Я – профессиональный менеджер, руководитель направления Delivery Management в МТС Digital. Занимаюсь Enablement Platform – единой платформой для быстрого создания продуктов в экосистеме МТС. Сегодня я расскажу о своем pet-проекте и о том, как я заменил привычный, но такой недоступный Evernote прекрасным менеджером заметок Obsidian. Статья будет интересна прежде всего тем, кто хочет обладать «вторым мозгом» и ни о чем не забывать.

Читать далее
Всего голосов 53: ↑53 и ↓0 +53
Просмотры 17K
Комментарии 91

Вклад авторов