Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу, каким образом можно организовать доступ для внешних пользователей к репозиториям данных через Predefined Queries.
Хранение данных *
Что имеем, то храним
Новости
DataHub: репозитории данных коммерческого типа. Как зарабатывать на доступе к данным?
Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub — Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье покажу, каким образом можно монетизировать имеющиеся у вас структурированные и неструктурированные данные будь вы разработчик, data‑scientist или ML‑специалист.
Как создать таблицы в БД ClickHouse на основе CSV
Когда я впервые начал знакомиться с колоночно-ориентированной СУБД ClickHouse, я не смог найти подходящий инструмент (кроме встроенного в веб-интерфейс ClickHouse Cloud) для создания таблиц с нужными столбцами и типами данных на основе CSV файлов или Pandas датафреймов. Ни clickhouse-connect, ни clickhouse-driver не обладали такой функциональностью, как метод to_sql
в SQLAlchemy.
Я хотел загрузить свой любимый набор данных о чемпионатах мира по автогонкам класса Формула-1 в ClickHouse, но вручную создавать 15 таблиц было слишком лениво. Хотелось просто скормить нужные CSV файлы скрипту и на выходе получить БД с нужными таблицами и данными внутри.
Когда я ранее знакомился с PySpark, я заметил, что многие data-профессионалы используют Pandas для определения схемы данных перед загрузкой файлов CSV в PySpark. И я подумал, почему бы не использовать Pandas для определения типов данных по столбцам?
Так я создал этот скрипт, которым хочу поделиться. Я надеюсь, что он поможет вам сэкономить немного времени, а мне даст возможность получить от вас пару фидбеков и идей для улучшения.
Я не уверен в полной совместимости типов данных между Pandas и ClickHouse: быстрый поиск дал противоречивые результаты, поэтому поправьте меня, если найдете какие-либо расхождения.
И будьте осторожны с replace_flag
- если установлено значение True, то скрипт пересоздаст таблицы с тем же именем, если они уже существуют, поэтому вы можете потерять существующие данные в своей базе данных. Чтобы избежать этого, но также избежать дублирования данных, я рекомендую указать несуществующее имя базы данных в качестве database_name
. Если установлено значение False в replace_flag
, данные из ваших файлов CSV будут добавляться в существующие таблицы с тем же именем (конечно же, число столбцов и их типы данных должны совпадать).
DataHub: как делиться структурированными данными и получать за них донаты?
Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.
Истории
Ещё эпические фейлы при открытии в Казахстане (почему мы так задержались)
В прошлый раз я рассказал про то, как «учёный изнасиловал журналиста». Кратко: мы выпустили релиз, что встаём в ЦОДы «Транстелекома», «Форбс Казахстан» написал, что мы совместно открываем два ЦОДа, дальше наши «новообретённые» партнёры узнали много нового о себе и своих стратегических партнёрствах и очень удивились. Про эти приключения в прошлом посте.
Это не первый опыт наших эпик фейлов в Казахстане.
Оставалось купить железо, настроить оплаты и заехать в ЦОДы.
Естественно, кое-что пошло не так.
DevOps для данных: как ускорить обработку и передачу информации за счет принципов DataOps
Какой смысл в BIG DATA и аналитических моделях машинного обучения, если информация вовремя не попадает к разработчикам, бизнес-аналитикам и руководителям? Если в вашей компании время передачи информации к специалистам по тестированию, развертыванию и поддержке занимает дни, а не секунды, пришла пора задуматься о внедрении практик DataOps (DATA Operations, датаопс).
Чтобы ближе познакомить вас с современными инструментами обработки и передачи информации, мы подготовили перевод ключевых тезисов из статьи «DataOps — что это такое и почему вам это должно быть интересно?».
КПП в кармане: как мы автоматизировали контроль доступа на территорию с нуля
Сегодня в блоге ЛАНИТ я хочу поделиться с вами историей разработки сервиса PASS24.online, который используется в коттеджных посёлках, жилых комплексах и бизнес-центрах для того, чтобы управлять доступом людей и автомобилей на территорию. Фактически за несколько лет мы довели идею полезного и удобного мобильного приложения до функционального сервиса, который уже ищут заказчики. Мой рассказ может быть интересен тем, кто хочет создать свой программный продукт и размышляет о запуске чего-то реально нового. Под катом — некоторые подробности о создании нашего сервиса, а также примеры и критерии выбора дополнительных фич для разработки.
Visiology 3.2: вот теперь действительно можно в прод
Привет, Хабр! Сегодня мы делимся новшествами в нашем релизе Visiology 3.2, а также раскрываем улучшения, которые коснулись второй версии платформы в релизе 2.31. Самым важным событием этого обновления стоит считать отказ от маркировки Preview. Таким образом, начиная с Visiology 3.2 мы готовы предлагать нашу BI-платформу с поддержкой наиболее распространенных операторов DAX, визуальной моделью данных как альтернативу Microsoft Power BI и другим аналитическим системам. Под катом — новое в модели доступа, улучшение скорости на 60+%, подключение CSV, пользовательские виджеты и многое другое, в общем — подробный разбор улучшений в Visiology 3.2 и Visiology 2.31.
Автоматическая установка платформы TrueNAS
Команда «ХОСТКЕЙ» добавила новую платформу для хранения и управления данными — TrueNAS. Мы хотим рассказать об этом интересном дистрибутиве тем клиентам, которые ищут простое и удобное решение для управления данными при аренде серверов.
TrueNAS — это быстрое и надежное решение для хранения и управления данными, которое позволяет значительно улучшить качество предоставляемых услуг. TrueNAS предлагает широкий спектр возможностей: создание датасетов, виртуальных машин и контейнеров, использование Windows Shares, Unix Shares, Block Shares, WebDAV Shares. Одно из главных преимуществ TrueNAS — возможность простой установки нескольких десятков полезных приложений: Minio, Nextcloud, Plex, Syncthing, WG Easy и т. д. С полным списком приложений, доступных пользователям TrueNAS SCALE, можно ознакомиться на сайте TrueNAS. Использование TrueNAS SCALE позволит увеличить масштабирование проектов и гарантировать быстрый доступ к данным.
Как вы храните свой фотоархив?
В своей статье я хочу обсудить плюсы и минусы разных вариантов хранения вашего цифрового семейного архива, описать что использую я, и надеюсь в комментариях узнать новые для себя варианты хранения.
Итак, у вас, как и у меня есть огромное количество фоток на компьютере и телефоне за последние десяток, а то и пару десятков лет. Их как‑то нужно хранить, а еще и желательно иметь быстрый доступ к ним. И для оценки разных вариантов хранения, я выделил 4 параметра:
REST API Firebase или как не заморачиваться с сервером для пет-проекта
Хочется простой бэк для хранения данных, которые используются на фронтенде, но не хочется устанавливать зависимости Firebase. И еще хочется все это задеплоить на Vercel.
Появилось вот такое желание при разработке своего пет-проекта (без туториалов на ютубе и тд.).Стек: React, TypeScript, RTK. Первое что вспомнил — это JSON Plaseholder. Но у этого сервиса есть ограничение: вы не можете самостоятельно спроектировать API.
Obsidian + Tasks — Периодические задачи, запросы, кастомные статусы и прочие удобности
Очень мощный плагин для работы с задачами в Обсидиане.
Возможности плагина:
Несите трубы! Как мы строили пайплайн ML-эксперимента
Привет! Машинное обучение в наши дни применяется буквально везде, а основа для создания надёжного и эффективного ML-решения - это эксперимент. В статье расскажем о сложностях, связанных с проведением воспроизводимых и интерпретируемых экспериментов и о технологиях, которые нам помогают.
Лучшие практики при работе с мастер-данными
Привет, меня зовут Павел Кардаш, я IT архитектор в «Магните». В этой статье хочу поделиться лучшими практиками в управлении мастер‑данными.
FineBI 6.0: 9 полезных обновлений, о которых вы не знали
Хабр, привет! Меня зовут Регина Камалова, проджект-менеджер в Business Intelligence GlowByte. С того момента, как GlowByte представила российскому рынку вендора FanRuan и его инструмент для бизнес-аналитики FineBI, прошло уже больше года. Наши китайские партнеры не стоят на месте, активно развивают свои продукты и не так давно презентовали новую версию – FineBI 6.0. О полезных обновлениях и хочу рассказать сегодня.
Как не надо открывать ИТ-бизнес в Казахстане: наш пример
Дальше началась цепочка смешных и не очень совпадений.
«Коммерсант» и другие издания опубликовали наш релиз. Потому что есть дефицит хороших новостей про российский бизнес.
Из «Коммерсанта» про это узнал «Форбс Казахстан» и перепостил новость. Только вот есть нюанс. В релизе у нас было «на мощностях «Транстелекома» (мы вставали в их ЦОДы), но в бумажную газету почему-то попало в формулировке «совместно». А мы, напомню, вставали через их арендатора, условно, в секцию к магистральному провайдеру, брали несколько стоек для начала.
Кто-то из руководства «Транстелекома» пролистал за утренним чаем «Форбс» и узнал много нового. В частности, о своём стратегическом партнёрстве.
А тут надо сказать, что до этого на рынке случилась очень забавная (или не очень) история с газетной уткой. О ней мы тоже не знали, конечно же.
Sitonica SR403W: “Москвич” в мире серверов
Привет, Хабр! Сегодня мы делимся своими тестами сервера от компании “Ситоника”. Этот 4U-сервер, который может выступать как хранилище данных, так и одним из узлов виртуализации, поставляет российская компания. Практика показала, что его хватает для решения большинства типовых задач. Чем Sitonica SR403W отличается от наводнивших в последнее время отечественный рынок китайских серверов, и почему нам все равно пришлось выяснять нюансы его работы в WeChat, читайте под катом.
Как мой менеджер потратил миллион долларов на сервер бэкапов, который я ни разу не использовал
Индустрия видеоигр — странное место: она одновременно может отставать от остальной технологической отрасли на полдесятка лет в одних областях, и на годы опережать её в других.
В эту отрасль меня привлекла не возможность работы над развлекательными продуктами или создания продуктов, которые мне понравится использовать (не могу назвать себя геймером): я люблю решать задачи, и особенно задачи, которые нелегко решать.
Когда я пришёл в Ubisoft в 2014 году, меня назначили в отдел программирования онлайна на должность руководителя Ops. Это было ужасно, потому что все работали под Windows.
Kubernetes ещё не было на горизонте, да если бы он и был, сам Docker оставался крайне сырым и пока не мог выполнять нативные двоичные файлы Windows.
Вместо него мы использовали собственную реализацию распределённых систем.
Postgres: графовая база данных, о которой вы не подозревали
PostgreSQL (Postgres) — это мощная реляционная база данных, способная хранить широкий спектр типов и структур данных. Когда нам нужно хранить графовые структуры данных, мы часто обращаемся к базам данных, позиционируемым как подходящее для этого решение, например, к Neo4J или Dgraph. Но не торопитесь! Хотя при работе с графовыми структурами данных о Postgres обычно не вспоминают, она идеально справляется с эффективным хранением графовых данных и запросами к ним.
Вклад авторов
-
ru_vds 959.2 -
1cloud 849.0 -
it_man 747.0 -
hddmasters 665.0 -
Cloud4Y 466.7 -
alizar 453.3 -
olegbunin 362.0 -
WesternDigital 340.0 -
Kingston_Technology 314.8 -
host_m 308.4