Как стать автором
Обновить
101.9

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

DataHub: организовываем доступ к публичным данным через Predefined Queries

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 464
API *Big Data *Открытые данные *Хранение данных *Хранилища данных *
Туториал

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.

Читать далее
Рейтинг 0
Комментарии 2

Новости

DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 645
Data Mining *Big Data *Открытые данные *Хранение данных *Хранилища данных *
Туториал

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub — Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать имеющиеся у вас структурированные и неструктурированные данные будь вы разработчик, data‑scientist или ML‑специалист.

Читать далее
Рейтинг 0
Комментарии 15

Как создать таблицы в БД ClickHouse на основе CSV

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 1.6K
Хранение данных *Хранилища данных *Data Engineering *
Туториал

Когда я впервые начал знакомиться с колоночно-ориентированной СУБД ClickHouse, я не смог найти подходящий инструмент (кроме встроенного в веб-интерфейс ClickHouse Cloud) для создания таблиц с нужными столбцами и типами данных на основе CSV файлов или Pandas датафреймов. Ни clickhouse-connect, ни clickhouse-driver не обладали такой функциональностью, как метод to_sql в SQLAlchemy.

Я хотел загрузить свой любимый набор данных о чемпионатах мира по автогонкам класса Формула-1 в ClickHouse, но вручную создавать 15 таблиц было слишком лениво. Хотелось просто скормить нужные CSV файлы скрипту и на выходе получить БД с нужными таблицами и данными внутри.

Когда я ранее знакомился с PySpark, я заметил, что многие data-профессионалы используют Pandas для определения схемы данных перед загрузкой файлов CSV в PySpark. И я подумал, почему бы не использовать Pandas для определения типов данных по столбцам?

Так я создал этот скрипт, которым хочу поделиться. Я надеюсь, что он поможет вам сэкономить немного времени, а мне даст возможность получить от вас пару фидбеков и идей для улучшения.

Я не уверен в полной совместимости типов данных между Pandas и ClickHouse: быстрый поиск дал противоречивые результаты, поэтому поправьте меня, если найдете какие-либо расхождения.

И будьте осторожны с replace_flag - если установлено значение True, то скрипт пересоздаст таблицы с тем же именем, если они уже существуют, поэтому вы можете потерять существующие данные в своей базе данных. Чтобы избежать этого, но также избежать дублирования данных, я рекомендую указать несуществующее имя базы данных в качестве database_name. Если установлено значение False в replace_flag, данные из ваших файлов CSV будут добавляться в существующие таблицы с тем же именем (конечно же, число столбцов и их типы данных должны совпадать).

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 3

DataHub: как делиться структурированными данными и получать за них донаты?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 857
Data Mining *Big Data *Открытые данные *Хранение данных *Хранилища данных *
Туториал

Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Комментарии 0

Истории

Ещё эпические фейлы при открытии в Казахстане (почему мы так задержались)

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 5.4K
Блог компании RUVDS.com Хостинг Хранение данных *Хранилища данных *Управление проектами *
Кейс
ЦОД в Астане, где мы встали

В прошлый раз я рассказал про то, как «учёный изнасиловал журналиста». Кратко: мы выпустили релиз, что встаём в ЦОДы «Транстелекома», «Форбс Казахстан» написал, что мы совместно открываем два ЦОДа, дальше наши «новообретённые» партнёры узнали много нового о себе и своих стратегических партнёрствах и очень удивились. Про эти приключения в прошлом посте.

Это не первый опыт наших эпик фейлов в Казахстане.

Оставалось купить железо, настроить оплаты и заехать в ЦОДы.

Естественно, кое-что пошло не так.
Читать дальше →
Всего голосов 53: ↑50 и ↓3 +47
Комментарии 12

DevOps для данных: как ускорить обработку и передачу информации за счет принципов DataOps

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 740
Блог компании CloudMTS Big Data *Хранение данных *Хранилища данных *DevOps *
Обзор
Перевод
image

Какой смысл в BIG DATA и аналитических моделях машинного обучения, если информация вовремя не попадает к разработчикам, бизнес-аналитикам и руководителям? Если в вашей компании время передачи информации к специалистам по тестированию, развертыванию и поддержке занимает дни, а не секунды, пришла пора задуматься о внедрении практик DataOps (DATA Operations, датаопс).

Чтобы ближе познакомить вас с современными инструментами обработки и передачи информации, мы подготовили перевод ключевых тезисов из статьи «DataOps — что это такое и почему вам это должно быть интересно?».

Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

КПП в кармане: как мы автоматизировали контроль доступа на территорию с нуля

Время на прочтение 5 мин
Количество просмотров 2.6K
Блог компании ГК ЛАНИТ Информационная безопасность *Хранение данных *Облачные сервисы *
Кейс

Сегодня в блоге ЛАНИТ я хочу поделиться с вами историей разработки сервиса PASS24.online, который используется в коттеджных посёлках, жилых комплексах и бизнес-центрах для того, чтобы управлять доступом людей и автомобилей на территорию. Фактически за несколько лет мы довели идею полезного и удобного мобильного приложения до функционального сервиса, который уже ищут заказчики. Мой рассказ может быть интересен тем, кто хочет создать свой программный продукт и размышляет о запуске чего-то реально нового. Под катом — некоторые подробности о создании нашего сервиса, а также примеры и критерии выбора дополнительных фич для разработки. 

Читать далее
Всего голосов 36: ↑36 и ↓0 +36
Комментарии 18

Visiology 3.2: вот теперь действительно можно в прод

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 2.5K
Блог компании Visiology Big Data *Визуализация данных *Хранение данных *
Обзор

Привет, Хабр! Сегодня мы делимся новшествами в нашем релизе Visiology 3.2, а также раскрываем улучшения, которые коснулись второй версии платформы в релизе 2.31. Самым важным событием этого обновления стоит считать отказ от маркировки Preview. Таким образом, начиная с Visiology 3.2 мы готовы предлагать нашу BI-платформу с поддержкой наиболее распространенных операторов DAX, визуальной моделью данных как альтернативу Microsoft Power BI и другим аналитическим системам. Под катом — новое в модели доступа, улучшение скорости на 60+%, подключение CSV, пользовательские виджеты и многое другое, в общем — подробный разбор улучшений в Visiology 3.2 и Visiology 2.31.

Читать далее
Всего голосов 19: ↑18 и ↓1 +17
Комментарии 4

Автоматическая установка платформы TrueNAS

Время на прочтение 5 мин
Количество просмотров 1.8K
Блог компании HOSTKEY Хостинг Хранение данных *
Кейс

Команда «ХОСТКЕЙ» добавила новую платформу для хранения и управления данными — TrueNAS. Мы хотим рассказать об этом интересном дистрибутиве тем клиентам, которые ищут простое и удобное решение для управления данными при аренде серверов.

TrueNAS — это быстрое и надежное решение для хранения и управления данными, которое позволяет значительно улучшить качество предоставляемых услуг. TrueNAS предлагает широкий спектр возможностей: создание датасетов, виртуальных машин и контейнеров, использование Windows Shares, Unix Shares, Block Shares, WebDAV Shares. Одно из главных преимуществ TrueNAS — возможность простой установки нескольких десятков полезных приложений: Minio, Nextcloud, Plex, Syncthing, WG Easy и т. д. С полным списком приложений, доступных пользователям TrueNAS SCALE, можно ознакомиться на сайте TrueNAS. Использование TrueNAS SCALE позволит увеличить масштабирование проектов и гарантировать быстрый доступ к данным.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 6

Как вы храните свой фотоархив?

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 13K
Хранение данных *Облачные сервисы *
Кейс
Recovery mode

В своей статье я хочу обсудить плюсы и минусы разных вариантов хранения вашего цифрового семейного архива, описать что использую я, и надеюсь в комментариях узнать новые для себя варианты хранения.

Итак, у вас, как и у меня есть огромное количество фоток на компьютере и телефоне за последние десяток, а то и пару десятков лет. Их как‑то нужно хранить, а еще и желательно иметь быстрый доступ к ним. И для оценки разных вариантов хранения, я выделил 4 параметра:

Читать далее
Всего голосов 17: ↑11 и ↓6 +5
Комментарии 104

REST API Firebase или как не заморачиваться с сервером для пет-проекта

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 6.2K
API *Хранение данных *ReactJS *
Из песочницы

Хочется простой бэк для хранения данных, которые используются на фронтенде, но не хочется устанавливать зависимости Firebase. И еще хочется все это задеплоить на Vercel.

Появилось вот такое желание при разработке своего пет-проекта (без туториалов на ютубе и тд.).Стек: React, TypeScript, RTK. Первое что вспомнил — это JSON PlaseholderНо у этого сервиса есть ограничение: вы не можете самостоятельно спроектировать API.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 17

Obsidian + Tasks — Периодические задачи, запросы, кастомные статусы и прочие удобности

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 3.6K
Хранение данных *Управление проектами *GTD *Софт Лайфхаки для гиков
Туториал

Очень мощный плагин для работы с задачами в Обсидиане.
Возможности плагина:

Читать далее
Всего голосов 20: ↑20 и ↓0 +20
Комментарии 2

Несите трубы! Как мы строили пайплайн ML-эксперимента

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1K
Блог компании Контур IT-инфраструктура *Хранение данных *Машинное обучение *DevOps *
Кейс

Привет! Машинное обучение в наши дни применяется буквально везде, а основа для создания надёжного и эффективного ML-решения - это эксперимент. В статье расскажем о сложностях, связанных с проведением воспроизводимых и интерпретируемых экспериментов и о технологиях, которые нам помогают.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 5

Лучшие практики при работе с мастер-данными

Время на прочтение 9 мин
Количество просмотров 878
Блог компании Магнит Анализ и проектирование систем *Big Data *Хранение данных *Хранилища данных *

Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 2

FineBI 6.0: 9 полезных обновлений, о которых вы не знали

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 1.3K
Блог компании GlowByte Big Data *Визуализация данных *Хранение данных *Управление продуктом *
Обзор
💼 Сезон Big Data

Хабр, привет! Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.

Читать далее
Всего голосов 14: ↑12 и ↓2 +10
Комментарии 0

Как не надо открывать ИТ-бизнес в Казахстане: наш пример

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 18K
Блог компании RUVDS.com Хостинг Хранение данных *Управление проектами *
Кейс
В Казахстан мы заходили ровно так же, как привыкли в Европах. Выбрали два ЦОДа по спецификациям из списка доступных дата-центров, нашли партнёра с каналами связи и свободными мощностями в выделенных секциях колокации и договорились, что встаём. Дальше мы выпустили стандартный пресс-релиз про то, что вот русская хостинг-компания открывает на территории Казахстана две площадки.

Дальше началась цепочка смешных и не очень совпадений.

«Коммерсант» и другие издания опубликовали наш релиз. Потому что есть дефицит хороших новостей про российский бизнес.

Из «Коммерсанта» про это узнал «Форбс Казахстан» и перепостил новость. Только вот есть нюанс. В релизе у нас было «на мощностях «Транстелекома» (мы вставали в их ЦОДы), но в бумажную газету почему-то попало в формулировке «совместно». А мы, напомню, вставали через их арендатора, условно, в секцию к магистральному провайдеру, брали несколько стоек для начала.

Кто-то из руководства «Транстелекома» пролистал за утренним чаем «Форбс» и узнал много нового. В частности, о своём стратегическом партнёрстве.


А тут надо сказать, что до этого на рынке случилась очень забавная (или не очень) история с газетной уткой. О ней мы тоже не знали, конечно же.
Читать дальше →
Всего голосов 87: ↑79 и ↓8 +71
Комментарии 38

Sitonica SR403W: “Москвич” в мире серверов

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 3.7K
Блог компании КРОК Тестирование IT-систем *Хранение данных *Хранилища данных *Компьютерное железо
Обзор

Привет, Хабр! Сегодня мы делимся своими тестами сервера от компании “Ситоника”. Этот 4U-сервер, который может выступать как хранилище данных, так и одним из узлов виртуализации, поставляет российская компания. Практика показала, что его хватает для решения большинства типовых задач. Чем Sitonica SR403W отличается от наводнивших в последнее время отечественный рынок китайских серверов, и почему нам все равно пришлось выяснять нюансы его работы в WeChat, читайте под катом.

Читать далее
Всего голосов 28: ↑26 и ↓2 +24
Комментарии 12

Как мой менеджер потратил миллион долларов на сервер бэкапов, который я ни разу не использовал

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 24K
Блог компании RUVDS.com Системное администрирование *Хранение данных *Управление проектами *
Кейс
Перевод

Индустрия видеоигр — странное место: она одновременно может отставать от остальной технологической отрасли на полдесятка лет в одних областях, и на годы опережать её в других.

В эту отрасль меня привлекла не возможность работы над развлекательными продуктами или создания продуктов, которые мне понравится использовать (не могу назвать себя геймером): я люблю решать задачи, и особенно задачи, которые нелегко решать.

Когда я пришёл в Ubisoft в 2014 году, меня назначили в отдел программирования онлайна на должность руководителя Ops. Это было ужасно, потому что все работали под Windows.

Kubernetes ещё не было на горизонте, да если бы он и был, сам Docker оставался крайне сырым и пока не мог выполнять нативные двоичные файлы Windows.

Вместо него мы использовали собственную реализацию распределённых систем.
Читать дальше →
Всего голосов 50: ↑50 и ↓0 +50
Комментарии 22

Postgres: графовая база данных, о которой вы не подозревали

Время на прочтение 4 мин
Количество просмотров 10K
PostgreSQL *Администрирование баз данных *Хранение данных *
Перевод

PostgreSQL (Postgres) — это мощная реляционная база данных, способная хранить широкий спектр типов и структур данных. Когда нам нужно хранить графовые структуры данных, мы часто обращаемся к базам данных, позиционируемым как подходящее для этого решение, например, к Neo4J или Dgraph. Но не торопитесь! Хотя при работе с графовыми структурами данных о Postgres обычно не вспоминают, она идеально справляется с эффективным хранением графовых данных и запросами к ним.
Читать дальше →
Всего голосов 31: ↑23 и ↓8 +15
Комментарии 20

День бэкапа: полезные советы и статьи из блога RUVDS

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 2.3K
Блог компании RUVDS.com Информационная безопасность *Резервное копирование *Хранение данных *Хранилища данных *


31 марта по инициативе пользователей Reddit во всём мире отмечают День резервного копирования. Лучший способ отметить этот праздник — создать резервные копии данных, проверить и протестировать свои бэкапы.
Читать дальше →
Всего голосов 37: ↑35 и ↓2 +33
Комментарии 22

Вклад авторов