Привет, друзья! После нового года на нас обрушилась очередная лавина запросов о возможности миграции на Visiology 3 c Microsoft PowerBI. Конечно, это связано с тем что уже закупленные лицензии на PBI подходят к концу, а приобретение новых не стало со временем проще. Поэтому сегодня я хочу наглядно показать, как будет происходить перенос несложного дашборда из Power BI в Visiology 3.0.
Хранение данных *
Что имеем, то храним
Новости
Как я участвовал в создании информационных систем для медицины
В 1987-м году я окончил с красным дипломом приборостроительный факультет челябинского политехнического института по специальности "Автоматика и телемеханика", хотя планировал стать физиком-теоретиком и школу заканчивал в специализированной школе-интернате №18 при МГУ. По распределению попал в специализированное конструкторское бюро и до 1991-го года разрабатывал электронные блоки для бронетанковой техники. До сих пор считаю что полученная при этом инженерная школа является чем-то недостижимым в современных реалиях. В частности, мы с коллегами создали комбинированный аналого-цифровой программируемый комплекс, который в реальном времени проводил расчеты по математической модели объекта, описываемой системой дифференциальных уравнений 4-го порядка с 14-ью нелинейными элементами и принимал решения более 10 тысяч раз в секунду. На современных вычислителях это наверное и можно было бы сделать, но в то время мы решали задачу имея в распоряжении только набор интегральных микросхем, самой крутой из которых была ПЗУ на 2 килобайта и всё наше творчество должно было уместиться в 9 литров объёма и работать в диапазоне температур от -40 до +85.
После того как в 1991-м году страна развалилась я выбрал стезю программирования и с тех пор так или иначе связан с разработкой ПО и построением крупных информационных систем. Начинал с создания комплексного ПО и "умной кассы" для торгового центра, потом была информационная система учёта аренды муниципального имущества. Потом я вернулся в конструкторское бюро на считавшийся безнадёжным проект по созданию комплекса диагностических стендов для автоматизированного поиска неисправностей в электронных блоках в интересах иностранного заказчика. После окончания разработки я возглавлял группу разработчиков, которая сдавала эти стенды заказчику, и мы с этой задачей справились.
Neo4j. Вместо тысячи join-ов…
Если вы столкнулись с задачей хранения сильно связанных данных, то отличным вариантом будет использовать графовую модель данных. Мы в Текфорс сделали именно так. Почему - разберем в этой статье.
Глобальный кризис хранения данных. Почему места в хранилищах на всех не хватит
Ученые предупреждают, что мир движется к глобальному кризису хранения данных. Ожидается, что к 2025 году объем данных в мире увеличится на 300 процентов, и для всей этой информации уже начнет не хватать места. Несмотря на быстрое расширение AWS, GCP и Azure, облака не смогут разместить весь этот «умопомрачительный объем». Кому-то придется ужаться.
Лучший формат данных для хранения pandas.DataFrame
Привет, Хабр!
Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье, хочу поделится с вами, информацией в области хранения данных.
На сегодняшний день существует огромное количество форматов для хранения данных, и, используя библиотеку Pandas при обработке большого объёма данных, возникает вопрос – а какой формат, с которыми Pandas работает «из коробки», даст наибольшую производительность, при дальнейшем использовании, обработанного DataFrame?
Ремарка: поиск информации по этой теме, привёл меня к репозиторию, за авторством Devforfu (ссылка), но так как информация в нём датируется 2019 годом, а за этот период вышло множество обновлений, я решил написать «свежий» бенчмарк, основываясь на принципах автора – ссылка на обновленный бенчмарк. Отмечу, что из-за слишком большой разницы в полученных результатах, я склоняюсь к тому, что мог совершить ошибку, поэтому далее в статье будет указана информация по оригиналу.
В качестве тестируемых форматов использовались следующие варианты: CSV (как самый популярный текстовый формат), Pickle, Feather, Parquet, Msgpack, HDF. Для сравнения будем использовать следующие метрики: размер сериализованного файла, время загрузки DataFrame из файла, время сохранения DataFrame в файл, потребление оперативной памяти при сохранении и загрузке DataFrame.
Тестовые данные – сгенерированный DataFrame с 1 миллионом строк, 15 столбцами цифр и 15 столбцами строковых значений. Генерация численных данных проводилась с помощью numpy. random.normal, в качестве строчных данных использовались UUID. С появлением в Pandas, категориального типа данных (Categorical data), который использует гораздо меньше памяти и более производительней в обработке (обширный материал для другой статьи), интересно также сравнить насколько изменится производительность форматов, поэтому ещё одним этапом сравнения в тестовых данных стал перевод формата «object» к формату «category».
Obsidian + Dataview: Таблицы
На статью меня вдохновил этот комментарий .
Dataview - это мощный плагин для Obsidian позволяющий отбирать данные (теги, даты, числа и любые другие пользовательские параметры) markdown-заметок, а затем их фильтровать и отбирать как пожелаешь.
Это такой своеобразный аналог Notion-таблиц, где можно создать таблицу с бесконечной вложенностью (таблица, внутри одной ячейки, а внутри еще таблица и еще и еще).
На КДПВ как раз собраны четыре кейса реализации функционала плагина Dataview.
Как всё это работает
1. Dataview работает на встроенном языке запросов
2. Все запросы должны писаться внутри подобного блока кода:
Жарим TOAST в PostgreSQL
У нас не подгорит!
Как PostgreSQL хранит большие значения столбцов? Какие явные и неявные ограничения есть у существующего механизма хранения? Что за проблемы вызваны этими ограничениями? И как можно решить эти проблемы, и расширить возможности PostgreSQL? Об этом, и чуть больше - данная статья.
Куда летит бизнес виртуального каршеринга или хостинг в России и Беларуси
Продавать хостинг - дело замысловатое, это не пирожки горячие, которые разлетаются в миг, тут период принятия решения от 0 до 30 дней, а длина последовательности от 12+ касаний перед покупкой. Разберемся в процессе. Что вы делаете перед выбором? Смотрите характеристики, изучаете отзывы, рейтинги, думаете, сопоставляете, спрашиваете знакомых, каким они доверяет сервисам, услугам, где живут их сайты. И это понятно, хостинг не перчатки, переход порой дается с трудом.
Кроме всего прочего, рынок хостинга - очень высококонкурентный, вот прочтете вы эту статью и увидите десяток новых предложений, рекламные технологии не спят, анализируют не только ваши запросы, но и контент, который вы изучаете. От этого никуда не деться, а паранойя - штука неприятная, порой можно и позволить системам заглянуть чем вы увлекаетесь, что уж тут, ведь без патогенной микрофлоры - никуда, надо смириться, что она существует здесь и сейчас.
Очевидно, что чем более развитый рынок, тем выше конкуренция, тем больше предложений, скидок, акций, программ лояльности, это говорит о зрелости маркета: цены снижаются, качество растет - все счастливы. Есть правда, партизанский маркетинг, незаконные методы покупки отзывов, управление репутацией, когда конкуренты специально пишут негатив друг на друга и прочее и прочее, такое тоже имеет место быть в период роста и падения конкретных компаний. И это тоже свидетельствует о высокой конкуренции. Итак, попробуем разобраться, на каком этапе своего развития находится рынок России и для сравнения, рынок Беларуси, посмотрим общедоступные косвенные и прямые метрики, указывающие на данный процесс. А также на какие услуги спрос растет, на какие падает и спрогнозируем ближайшее будущее в мире хранения данных. Проанализируем цены в РБ и почему они такие разные.
Почему компании продолжают звонить и писать отказавшимся от коммуникаций клиентам
Заказчики все чаще спрашивают нас, как работать с клиентскими согласиями так, чтобы блюсти законы и не злить клиентов. «Красный флаг» для компании — клиенту продолжают писать и звонить, когда тот просил прекратить.
Чтобы ответить точнее, сначала мы расспросили компании, что болит:
как хотят, где не получается. Затем разобрались, почему не выходит и нашли, как починить.
Ответ разделили на два текста. В один не поместился — уж очень объемный.
В этой статье рассказываем, из-за каких ошибок со сбором, обработкой и хранением согласий происходят факапы. И чем рискует бизнес — а то, может, и нет смысла наводить порядок.
В следующем тексте опубликуем удачные организационные и технические практики работы с согласиями для маленьких, средних и больших компаний.
Резервное копирование репозиториев с github, gitlab
Резервное копирование репозиториев с git серверов на основе github и gitlab по токену. Скрипт скачивает все Ваши репозитории доступные по токену и архивирует их. Давно хотел написать такой инструмент т.к. использую и те и те сервера в работе и личных целях. У меня полно старых проектов которые хранятся только на git, если с ним что-то случится, то их уже не будет.
Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков
Существует множество опенсорсного ПО и инструментов для проектов компьютерного зрения и машинного обучения в сфере медицинских визуализаций.
Иногда может быть выгодно использовать опенсорсные инструменты при тестировании и обучении модели ML на массивах данных медицинских снимков. Вы можете экономить деньги, а многие инструменты, например, 3DSlicer и ITK-Snap, предназначены специально для аннотирования медицинских снимков и обучения моделей ML на массивах данных из сферы здравоохранения.
В здравоохранении критически важны качество массива данных и эффективность инструментов, используемых для аннотирования и обучения моделей ML. Это может стать вопросом жизни и смерти для пациентов, ведь для их диагностирования медицинским специалистам и врачам нужны максимально точные результаты моделей компьютерного зрения и машинного обучения.
Как известно командам клиницистов и обработки данных, слои данных в медицинских снимках сложны и детализированы. Для выполнения работы вам нужны подходящие инструменты. Применение неверного инструмента, например, опенсорсного приложения для аннотирования, может негативно повлиять на разработку модели.
В этой статье мы расскажем об основных опенсорсных инструментах для аннотирования медицинских снимков, сценариях применения таких инструментов и о том, как они препятствуют развитию вашего проекта. Мы перечислим те возможности инструмента аннотирования, которые помогут вам преодолеть эти трудности, в том числе и функции, которые обеспечат нужные вам результаты.
Boson — разработка СУБД «с нуля» (часть I)
После разработки виртуальной машины и компилятора в рамках хобби прошел год и захотелось попробовать реализовать ёмкий по алгоритмам проект по системному программированию.
Каждый разработчик "кровавого" enterprise в своей работе использует СУБД (SQL/NoSQL) и меня всегда искренне интересовало как они устроены в самом сердце, на самом низком уровне. Почитав документацию и исходный код SQLite и MongoDB, про используемые в индексах и интерпретаторах запросов алгоритмы, осознал, что несмотря на широкую распространенность и некую привычность, системы управления базами данных (СУБД) - это сложные программные продукты, реализация которых не всем под силу. Отлично - как раз то, что мне надо. С мотивацией разобрались, перейдем к делу.
Итак, для начала хорошо бы сформулировать высокоуровневую спецификацию требований. Boson - это легкая, встраиваемая документоориентированная база данных на С/С++
TrueNas: когда Nas реально ТРУ
Вы слышали о TrueNas, но не знаете, стоит ли с ним связываться?
Представляю реальный случай применения TrueNas в качестве основного файлового хранилища в компании. Как на практике и из старого сервера и домашних дисков мы получили достаточно неплохой NAS с SMB, NFS, iSCSI, black jack, сжатием на лету, достаточной отказоустойчивостью и более чем приличной скоростью. Как ZFS позволяет экономить место на дисках при этом повышая надёжность хранения.
SSD, CD, HDD, OptiNAND… DNA — выбираем перспективные накопители для резервного копирования
Потеря бэкапов — проблема как для обычных пользователей, так и для организаций. Ситуации, когда данные пропадают из-за программного сбоя, не редкость, но так же часто причиной потери становится сбой аппаратный — в 42% случаев (по данным StorageCraft).
В ЦОДах для хранения резервных копий флеш-память постепенно занимает доминирующее положение. У SSD есть множество плюсов и очень мало минусов. Можно предположить, что через несколько SSD накопители победят окончательно и бесповоротно. На самом деле все обстоит несколько иначе.
Посмотрим на статистику облачных провайдеров и опыт энтузиастов, предпочитающих нестандартные подходы к хранению резервных копий.
Истории
Как выбрать NewSQL-СУБД для вашей компании
Привет! Меня зовут Пётр, я менеджер по отказоустойчивости в QIWI. В этом посте мы поговорим про выбор новых классов продуктов. Как-то раз мы с одним разработчиком из другой компании стали обсуждать, почему бы не выбрать для работы какую-то распределенную СУБД, поддерживающую SQL? Из этой дискуссии родился мой доклад для нашей QIWI Server Party. Представляю вам его текстовую версию.
Как мы в Slack используем Terraform
В Slack всей своей инфраструктурой, опирающейся на AWS, DigitalOcean, NS1 и GCP, мы управляем с помощью Terraform. И хотя большая её часть работает на AWS, мы выбрали Terraform в противоположность их нативному сервису CloudFormation, чтобы использовать единый инструмент среди всех провайдеров сервисов. Это позволяет сохранить модель «инфраструктура как код» и механизм развёртывания универсальными. В статье мы разберём процесс развёртывания нашей инфраструктуры с помощью Terraform.
«Утечка данных»: в чем опасность и как с этим бороться?
Личные данные сегодня становятся все больше публичными, а конфиденциальность информации скорее условна. Махинации с использованием "слитых" баз данных сейчас обрели небывалый масштаб. От "разводов" недобросовестных телефонных мошенников страдаем мы с вами, от взломов и утечки внутренней информации миллионные ущербы несут крупные компании. Как обезопасить себя и своих клиентов? Как бороться с утечкой данных? Об этом — данный материал.
Нельзя просто взять и обезличить данные — опыт команды разработки «Сферы»
Бизнесу нельзя использовать данные клиентов as is для тестов. Отдел разработки не может просто взять персональные данные (ПДн) и проверить на них новую фичу, обучить Machine Learning-модель. Этот момент регулируют законы и отраслевые стандарты. Чтобы с данными можно было работать, их необходимо обезличить. В крупных компаниях сотни таблиц переплетены идентификаторами, формулами, процедурами. И здесь речь идет уже о формировании обезличенных интеграционных полигонов (комплексов БД). Максим Никитин, тимлид группы разработки, поделится опытом команды разработки платформы производства ПО «Сфера».
Бухгалтеры и юристы хранят документы по 50 лет – как будем организовывать для них хранение?
К нам часто обращаются специалисты из бухгалтерской или юридической службы за консультацией о том, как им уже избавиться от хранения всех документов на бумаге и вступить в мир без бумаги.
Рассказываем, какие технологии помогают решить такие задачи.
Импортозамещаем Evernote. Obsidian – менеджер заметок и лучший друг менеджеров
Привет, Хабр! Меня зовут Николай Суворов. Я – профессиональный менеджер, руководитель направления Delivery Management в МТС Digital. Занимаюсь Enablement Platform – единой платформой для быстрого создания продуктов в экосистеме МТС. Сегодня я расскажу о своем pet-проекте и о том, как я заменил привычный, но такой недоступный Evernote прекрасным менеджером заметок Obsidian. Статья будет интересна прежде всего тем, кто хочет обладать «вторым мозгом» и ни о чем не забывать.
Вклад авторов
-
ru_vds 850.6 -
1cloud 849.0 -
it_man 747.0 -
hddmasters 665.0 -
Cloud4Y 462.3 -
alizar 453.3 -
olegbunin 362.0 -
WesternDigital 340.0 -
Kingston_Technology 314.8 -
host_m 308.4