Хранение данных *

Что имеем, то храним

Статьи Посты Авторы Компании

AndrewShmig 12 часов назад

DataHub: организовываем доступ к публичным данным через Predefined Queries

Простой

3 мин

464

API *Big Data *Открытые данные *Хранение данных *Хранилища данных *

Туториал

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.

AndrewShmig вчера в 10:21

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Простой

4 мин

645

Data Mining *Big Data *Открытые данные *Хранение данных *Хранилища данных *

Туториал

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub — Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать имеющиеся у вас структурированные и неструктурированные данные будь вы разработчик, data‑scientist или ML‑специалист.

pankor 20 апр в 16:09

Как создать таблицы в БД ClickHouse на основе CSV

Простой

2 мин

1.6K

Хранение данных *Хранилища данных *Data Engineering *

Туториал

Когда я впервые начал знакомиться с колоночно-ориентированной СУБД ClickHouse, я не смог найти подходящий инструмент (кроме встроенного в веб-интерфейс ClickHouse Cloud) для создания таблиц с нужными столбцами и типами данных на основе CSV файлов или Pandas датафреймов. Ни clickhouse-connect, ни clickhouse-driver не обладали такой функциональностью, как метод to_sql в SQLAlchemy.

Я хотел загрузить свой любимый набор данных о чемпионатах мира по автогонкам класса Формула-1 в ClickHouse, но вручную создавать 15 таблиц было слишком лениво. Хотелось просто скормить нужные CSV файлы скрипту и на выходе получить БД с нужными таблицами и данными внутри.

Когда я ранее знакомился с PySpark, я заметил, что многие data-профессионалы используют Pandas для определения схемы данных перед загрузкой файлов CSV в PySpark. И я подумал, почему бы не использовать Pandas для определения типов данных по столбцам?

Так я создал этот скрипт, которым хочу поделиться. Я надеюсь, что он поможет вам сэкономить немного времени, а мне даст возможность получить от вас пару фидбеков и идей для улучшения.

Я не уверен в полной совместимости типов данных между Pandas и ClickHouse: быстрый поиск дал противоречивые результаты, поэтому поправьте меня, если найдете какие-либо расхождения.

И будьте осторожны с replace_flag - если установлено значение True, то скрипт пересоздаст таблицы с тем же именем, если они уже существуют, поэтому вы можете потерять существующие данные в своей базе данных. Чтобы избежать этого, но также избежать дублирования данных, я рекомендую указать несуществующее имя базы данных в качестве database_name. Если установлено значение False в replace_flag, данные из ваших файлов CSV будут добавляться в существующие таблицы с тем же именем (конечно же, число столбцов и их типы данных должны совпадать).

AndrewShmig 20 апр в 15:03

DataHub: как делиться структурированными данными и получать за них донаты?

Простой

4 мин

857

Data Mining *Big Data *Открытые данные *Хранение данных *Хранилища данных *

Туториал

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.

ntsaplin 20 апр в 10:01

Ещё эпические фейлы при открытии в Казахстане (почему мы так задержались)

Простой

10 мин

5.4K

Блог компании RUVDS.com Хостинг Хранение данных *Хранилища данных *Управление проектами *

Кейс

ЦОД в Астане, где мы встали

В прошлый раз я рассказал про то, как «учёный изнасиловал журналиста». Кратко: мы выпустили релиз, что встаём в ЦОДы «Транстелекома», «Форбс Казахстан» написал, что мы совместно открываем два ЦОДа, дальше наши «новообретённые» партнёры узнали много нового о себе и своих стратегических партнёрствах и очень удивились. Про эти приключения в прошлом посте.

Это не первый опыт наших эпик фейлов в Казахстане.

Оставалось купить железо, настроить оплаты и заехать в ЦОДы.

Естественно, кое-что пошло не так.

Читать дальше →

+47

randall 19 апр в 13:19

DevOps для данных: как ускорить обработку и передачу информации за счет принципов DataOps

Простой

7 мин

740

Блог компании CloudMTS Big Data *Хранение данных *Хранилища данных *DevOps *

Обзор

Перевод

Какой смысл в BIG DATA и аналитических моделях машинного обучения, если информация вовремя не попадает к разработчикам, бизнес-аналитикам и руководителям? Если в вашей компании время передачи информации к специалистам по тестированию, развертыванию и поддержке занимает дни, а не секунды, пришла пора задуматься о внедрении практик DataOps (DATA Operations, датаопс).

Чтобы ближе познакомить вас с современными инструментами обработки и передачи информации, мы подготовили перевод ключевых тезисов из статьи «DataOps — что это такое и почему вам это должно быть интересно?».

Читать дальше →

akhromov 18 апр в 10:01

КПП в кармане: как мы автоматизировали контроль доступа на территорию с нуля

5 мин

2.6K

Блог компании ГК ЛАНИТ Информационная безопасность *Хранение данных *Облачные сервисы *

Кейс

Сегодня в блоге ЛАНИТ я хочу поделиться с вами историей разработки сервиса PASS24.online, который используется в коттеджных посёлках, жилых комплексах и бизнес-центрах для того, чтобы управлять доступом людей и автомобилей на территорию. Фактически за несколько лет мы довели идею полезного и удобного мобильного приложения до функционального сервиса, который уже ищут заказчики. Мой рассказ может быть интересен тем, кто хочет создать свой программный продукт и размышляет о запуске чего-то реально нового. Под катом — некоторые подробности о создании нашего сервиса, а также примеры и критерии выбора дополнительных фич для разработки.

+36

ViAndrey 17 апр в 16:06

Visiology 3.2: вот теперь действительно можно в прод

Средний

5 мин

2.5K

Блог компании Visiology Big Data *Визуализация данных *Хранение данных *

Обзор

Привет, Хабр! Сегодня мы делимся новшествами в нашем релизе Visiology 3.2, а также раскрываем улучшения, которые коснулись второй версии платформы в релизе 2.31. Самым важным событием этого обновления стоит считать отказ от маркировки Preview. Таким образом, начиная с Visiology 3.2 мы готовы предлагать нашу BI-платформу с поддержкой наиболее распространенных операторов DAX, визуальной моделью данных как альтернативу Microsoft Power BI и другим аналитическим системам. Под катом — новое в модели доступа, улучшение скорости на 60+%, подключение CSV, пользовательские виджеты и многое другое, в общем — подробный разбор улучшений в Visiology 3.2 и Visiology 2.31.

+17

dasafyev 17 апр в 13:15

Автоматическая установка платформы TrueNAS

5 мин

1.8K

Блог компании HOSTKEY Хостинг Хранение данных *

Кейс

Команда «ХОСТКЕЙ» добавила новую платформу для хранения и управления данными — TrueNAS. Мы хотим рассказать об этом интересном дистрибутиве тем клиентам, которые ищут простое и удобное решение для управления данными при аренде серверов.

TrueNAS — это быстрое и надежное решение для хранения и управления данными, которое позволяет значительно улучшить качество предоставляемых услуг. TrueNAS предлагает широкий спектр возможностей: создание датасетов, виртуальных машин и контейнеров, использование Windows Shares, Unix Shares, Block Shares, WebDAV Shares. Одно из главных преимуществ TrueNAS — возможность простой установки нескольких десятков полезных приложений: Minio, Nextcloud, Plex, Syncthing, WG Easy и т. д. С полным списком приложений, доступных пользователям TrueNAS SCALE, можно ознакомиться на сайте TrueNAS. Использование TrueNAS SCALE позволит увеличить масштабирование проектов и гарантировать быстрый доступ к данным.

thetka4enko 17 апр в 10:35

Как вы храните свой фотоархив?

Простой

3 мин

13K

Хранение данных *Облачные сервисы *

Кейс

Recovery mode

В своей статье я хочу обсудить плюсы и минусы разных вариантов хранения вашего цифрового семейного архива, описать что использую я, и надеюсь в комментариях узнать новые для себя варианты хранения.

Итак, у вас, как и у меня есть огромное количество фоток на компьютере и телефоне за последние десяток, а то и пару десятков лет. Их как‑то нужно хранить, а еще и желательно иметь быстрый доступ к ним. И для оценки разных вариантов хранения, я выделил 4 параметра:

104

demetr1ss 15 апр в 00:54

REST API Firebase или как не заморачиваться с сервером для пет-проекта

Средний

2 мин

6.2K

API *Хранение данных *ReactJS *

Из песочницы

Хочется простой бэк для хранения данных, которые используются на фронтенде, но не хочется устанавливать зависимости Firebase. И еще хочется все это задеплоить на Vercel.

Появилось вот такое желание при разработке своего пет-проекта (без туториалов на ютубе и тд.).Стек: React, TypeScript, RTK. Первое что вспомнил — это JSON Plaseholder. Но у этого сервиса есть ограничение: вы не можете самостоятельно спроектировать API.

CyberMock 14 апр в 15:03

Obsidian + Tasks — Периодические задачи, запросы, кастомные статусы и прочие удобности

Средний

4 мин

3.6K

Хранение данных *Управление проектами *GTD *Софт Лайфхаки для гиков

Туториал

Очень мощный плагин для работы с задачами в Обсидиане.
Возможности плагина:

+20

alexandrpankratov 14 апр в 11:25

Несите трубы! Как мы строили пайплайн ML-эксперимента

Средний

10 мин

Блог компании Контур IT-инфраструктура *Хранение данных *Машинное обучение *DevOps *

Кейс

Привет! Машинное обучение в наши дни применяется буквально везде, а основа для создания надёжного и эффективного ML-решения - это эксперимент. В статье расскажем о сложностях, связанных с проведением воспроизводимых и интерпретируемых экспериментов и о технологиях, которые нам помогают.

Slipeer 13 апр в 09:05

Лучшие практики при работе с мастер-данными

9 мин

878

Блог компании Магнит Анализ и проектирование систем *Big Data *Хранение данных *Хранилища данных *

Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.

Gi_gi_gi_gi_gi 12 апр в 18:11

FineBI 6.0: 9 полезных обновлений, о которых вы не знали

Простой

3 мин

1.3K

Блог компании GlowByte Big Data *Визуализация данных *Хранение данных *Управление продуктом *

Обзор

💼 Сезон Big Data

Хабр, привет! Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.

+10

ntsaplin 10 апр в 10:00

Как не надо открывать ИТ-бизнес в Казахстане: наш пример

Простой

4 мин

18K

Блог компании RUVDS.com Хостинг Хранение данных *Управление проектами *

Кейс

В Казахстан мы заходили ровно так же, как привыкли в Европах. Выбрали два ЦОДа по спецификациям из списка доступных дата-центров, нашли партнёра с каналами связи и свободными мощностями в выделенных секциях колокации и договорились, что встаём. Дальше мы выпустили стандартный пресс-релиз про то, что вот русская хостинг-компания открывает на территории Казахстана две площадки.

Дальше началась цепочка смешных и не очень совпадений.

«Коммерсант» и другие издания опубликовали наш релиз. Потому что есть дефицит хороших новостей про российский бизнес.

Из «Коммерсанта» про это узнал «Форбс Казахстан» и перепостил новость. Только вот есть нюанс. В релизе у нас было «на мощностях «Транстелекома» (мы вставали в их ЦОДы), но в бумажную газету почему-то попало в формулировке «совместно». А мы, напомню, вставали через их арендатора, условно, в секцию к магистральному провайдеру, брали несколько стоек для начала.

Кто-то из руководства «Транстелекома» пролистал за утренним чаем «Форбс» и узнал много нового. В частности, о своём стратегическом партнёрстве.

А тут надо сказать, что до этого на рынке случилась очень забавная (или не очень) история с газетной уткой. О ней мы тоже не знали, конечно же.

Читать дальше →

+71

NATEsergey 6 апр в 16:03

Sitonica SR403W: “Москвич” в мире серверов

Простой

5 мин

3.7K

Блог компании КРОК Тестирование IT-систем *Хранение данных *Хранилища данных *Компьютерное железо

Обзор

Привет, Хабр! Сегодня мы делимся своими тестами сервера от компании “Ситоника”. Этот 4U-сервер, который может выступать как хранилище данных, так и одним из узлов виртуализации, поставляет российская компания. Практика показала, что его хватает для решения большинства типовых задач. Чем Sitonica SR403W отличается от наводнивших в последнее время отечественный рынок китайских серверов, и почему нам все равно пришлось выяснять нюансы его работы в WeChat, читайте под катом.

+24

ru_vds 3 апр в 16:00

Как мой менеджер потратил миллион долларов на сервер бэкапов, который я ни разу не использовал

Средний

9 мин

24K

Блог компании RUVDS.com Системное администрирование *Хранение данных *Управление проектами *

Кейс

Перевод

Индустрия видеоигр — странное место: она одновременно может отставать от остальной технологической отрасли на полдесятка лет в одних областях, и на годы опережать её в других.

В эту отрасль меня привлекла не возможность работы над развлекательными продуктами или создания продуктов, которые мне понравится использовать (не могу назвать себя геймером): я люблю решать задачи, и особенно задачи, которые нелегко решать.

Когда я пришёл в Ubisoft в 2014 году, меня назначили в отдел программирования онлайна на должность руководителя Ops. Это было ужасно, потому что все работали под Windows.

Kubernetes ещё не было на горизонте, да если бы он и был, сам Docker оставался крайне сырым и пока не мог выполнять нативные двоичные файлы Windows.

Вместо него мы использовали собственную реализацию распределённых систем.

Читать дальше →

+50

PatientZero 3 апр в 15:30

Postgres: графовая база данных, о которой вы не подозревали

4 мин

10K

PostgreSQL *Администрирование баз данных *Хранение данных *

Перевод

PostgreSQL (Postgres) — это мощная реляционная база данных, способная хранить широкий спектр типов и структур данных. Когда нам нужно хранить графовые структуры данных, мы часто обращаемся к базам данных, позиционируемым как подходящее для этого решение, например, к Neo4J или Dgraph. Но не торопитесь! Хотя при работе с графовыми структурами данных о Postgres обычно не вспоминают, она идеально справляется с эффективным хранением графовых данных и запросами к ним.

Читать дальше →

+15

ru_vds 31 мар в 16:00

День бэкапа: полезные советы и статьи из блога RUVDS

Простой

2 мин

2.3K

Блог компании RUVDS.com Информационная безопасность *Резервное копирование *Хранение данных *Хранилища данных *

31 марта по инициативе пользователей Reddit во всём мире отмечают День резервного копирования. Лучший способ отметить этот праздник — создать резервные копии данных, проверить и протестировать свои бэкапы.

Читать дальше →

+33

2 3 ...

49 50

Хранение данных *

DataHub: организовываем доступ к публичным данным через Predefined Queries

Новости

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Как создать таблицы в БД ClickHouse на основе CSV

DataHub: как делиться структурированными данными и получать за них донаты?

Истории

Ещё эпические фейлы при открытии в Казахстане (почему мы так задержались)

DevOps для данных: как ускорить обработку и передачу информации за счет принципов DataOps

КПП в кармане: как мы автоматизировали контроль доступа на территорию с нуля

Visiology 3.2: вот теперь действительно можно в прод

Автоматическая установка платформы TrueNAS

Как вы храните свой фотоархив?

REST API Firebase или как не заморачиваться с сервером для пет-проекта

Obsidian + Tasks — Периодические задачи, запросы, кастомные статусы и прочие удобности

Несите трубы! Как мы строили пайплайн ML-эксперимента

Лучшие практики при работе с мастер-данными

FineBI 6.0: 9 полезных обновлений, о которых вы не знали

Как не надо открывать ИТ-бизнес в Казахстане: наш пример

Sitonica SR403W: “Москвич” в мире серверов

Как мой менеджер потратил миллион долларов на сервер бэкапов, который я ни разу не использовал

Postgres: графовая база данных, о которой вы не подозревали

День бэкапа: полезные советы и статьи из блога RUVDS

Вклад авторов