Как стать автором
Обновить
127.19

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

20 практических советов для разработчиков использующих базы данных SQL

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 8.4K
SQL *Data Mining *Администрирование баз данных *Big Data *Data Engineering *
Туториал

Практически все разрабатываемые системы включают использование баз данных, часто база данных, ее проектирование и обработка являются ключевыми аспектами системы в отношении добавления стоимости бизнесу, безопасности, производительности, организационной политики и других факторов, которые делают этот слой наших приложений чрезвычайно важным и заслуживающим особого внимания со стороны нас в роли разработчиков.

Я всегда сторонник мнения, что для разработчика рекомендуется иметь некоторое понимание о том, как работают базы данных.

Учитывая огромное количество различных рекомендаций и советов по использованию баз данных, этот простой список, содержащийся в данной статье, представляет лишь часть того, что может быть рассмотрено.

Читать далее
Всего голосов 20: ↑11 и ↓9 +2
Комментарии 17

Новости

Как упростить анализ данных? Запуск и сценарии использования готовой виртуальной машины для аналитики

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1K
Блог компании Selectel Big Data *Машинное обучение *Data Engineering *

Походы — вещь непредсказуемая. Обычно полезная нагрузка распределяется между всеми участниками, но всегда вмешивается элемент случайности или забывчивости. В таких ситуациях выручает швейцарский нож, который гарантирует, что минимальные потребности группы будут удовлетворены. С помощью такого ножа можно и консервы открыть, и бинт разрезать, но главное — он экономит место в рюкзаке.

Небольшой команде, которая работает с ML-моделями и анализом данных, тоже хочется иметь готовое решение базовых задач. Собирать его самостоятельно из отдельных компонентов не всегда удобно, а еще это бывает дорого. Вот бы существовало какое-то компактное решение, в котором сразу был бы весь набор инструментов и настроек. Что ж, усаживайтесь у костра поудобнее, пришло время рассказать про Data Analytics Virtual Machine (DAVM).
Читать дальше →
Всего голосов 34: ↑34 и ↓0 +34
Комментарии 0

Партицирование в Greenplum 7: что нового

Время на прочтение 10 мин
Количество просмотров 651
Блог компании Southbridge PostgreSQL *Big Data *DevOps *Распределённые системы *
Обзор
Перевод

Greenplum 7 — первая версия СУБД, совместимая с секционированными таблицами из PostgreSQL: World DB. 

Небольшая предыстория: до PostgreSQL 10 партицирование в PostgreSQL выполнялось в очень ограниченной форме и по сути, было просто вариантом наследования таблиц. Начиная с PostgreSQL 10, мы можем использовать декларативный синтаксис для определения парадигмы разделов. 

В рамках слияния с PostgreSQL 12 Greenplum 7 вобрал в себя весь синтаксис PostgreSQL для разбиения таблиц, сохранив при этом синтаксис Greenplum. В результате у Greenplum 7 есть шанс взять лучшее из обоих миров — что именно, обсудим в этой статье. 

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 0

Как я из специалиста по защите информации стал аналитиком данных. Моя история

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 1.2K
Data Mining *Big Data *Карьера в IT-индустрии

Привет, хабр! Меня зовут Алексей, я работаю аналитиком данных в компании "Мегапьютер", но я не сразу стал им. Чтобы понять, кем я действительно хочу работать, потребовалось время.

В 2017 я закончил ЧГУ (Чебоксарский Государственный Университет) по специальности защита информации, но и начал свой трудовой путь в телекоммуникационной компании специалистом по защите информации.

И пошло-поехало первое, что я делал, приходя на работу изо дня в день - проверял свой почтовый ящик на наличие уведомлений о событиях информационной безопасности (ИБ). Данные уведомления поступали из различных источников, включая системы обнаружения вторжений, брандмауэры и антивирусное программное обеспечение. Специалист по ИТ-безопасности, то есть я, должен знать эти предупреждения, чтобы определить, представляют ли они реальную угрозу или ложное срабатывание.

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Комментарии 4

Истории

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 6.5K
SQL *Data Mining *Big Data *Учебный процесс в IT Data Engineering *
Роадмэп

Roadmap, который поможет вам научиться работать с SQL. Чтобы стать настоящим экспертом в SQL, нужно много практиковаться и изучать различные аспекты языка на протяжении многих лет. Мой Roadmap предлагает отличный старт для начала изучения SQL, поэтому я рекомендую вам приступить к обучению согласно плану.

Читать далее
Всего голосов 15: ↑12 и ↓3 +9
Комментарии 12

NULL в SQL: Что это такое и почему его знание необходимо каждому разработчику

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 4.4K
Анализ и проектирование систем *SQL *Администрирование баз данных *Big Data *Data Engineering *
Туториал

NULL - это специальное значение, которое используется в SQL для обозначения отсутствия данных. Оно отличается от пустой строки или нулевого значения, так как NULL означает отсутствие какого-либо значения в ячейке таблицы.

История появления NULL в SQL довольно интересна и длинна. В начале 1970-х годов Д. Камерер (D. Chamberlin) и Р. Бойд (R. Boyce) предложили использовать реляционную модель для полной замены иерархических и сетевых моделей данных, которые были актуальны в то время. Полная замена предполагала возможность хранения значений NULL в таблицах структуры базы данных.

Первоначально, NULL был создан как интегральный элемент реляционной модели данных. Это означало, что NULL мог быть использован в качестве значения для любого типа данных (целого числа, строки и т.д.) или даже целой строки (например, таких значений как "неизвестно" или "нет данных").

Когда была разработана SQL, NULL был реализован как специальное значение или маркер, который указывает на отсутствие значения в столбце. Таким образом, в SQL NULL означает отсутствие значения или неопределенное значение.

Однако, NULL создал некоторые проблемы при работе с данными в SQL. Например, если вы выполняете операцию на столбце, содержащем NULL значение, результат операции также будет NULL. Это означает, что использование NULL может приводить к нежелательным результатам, таким как непредсказуемое поведение.

Однако, важно понимать, что NULL не обязательно означает отсутствие информации или отсутствие значения в столбце. NULL может быть использован для разных целей, таких как указание на неопределенный результат для вычислений или как маркер для отметки отсутствия значения в таблице.

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Комментарии 5

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

Время на прочтение 10 мин
Количество просмотров 4.1K
Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.
Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 10

Не цель важна, а важен путь. Как определить оптимальную подпоследовательность тем при автоматизации чатов

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 437
Блог компании Garage Eight Анализ и проектирование систем *Data Mining *Big Data *Искусственный интеллект
Кейс

При разработке чат-бота мы столкнулись с задачей планирования этапов автоматизации. Эта задача возникает, когда охватить все темы невозможно из-за их многочисленности и постоянного изменения их содержания. Поэтому перед реализацией сценариев важно понимать, какое множество тем чатов необходимо покрыть в первую очередь, чтобы за фиксированный период времени и с ограниченным количеством ресурсов достичь максимального эффекта. В статье разберем постановку задачи, ее формализацию и одно из решений.

Читать далее
Всего голосов 13: ↑11 и ↓2 +9
Комментарии 0

Почему Data Science не для вас?

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 5.8K
Big Data *Data Engineering *
Мнение

Data Science сейчас во многом благодаря активному маркетингу становится очень популярной темой. Быть датасаентистом – модно и, как говорят многие рекламки, которые часто попадаются на глаза, не так уж и сложно. Ходят слухи, что работодатели стоят в очереди за возможность взять человека с курсов. Получить оффер на работу крайне легко, ведь в ваши обязанности будет входить требование данных от заказчика (как обычно говорят, чем больше данных – тем лучше) и закидывать их в искусственный интеллект, который работает по принципу черного ящика. Кстати, еще и платят немереное количество денег за всё это. 

Спойлер: это не так.

В этой душераздирающей статье решили попробовать отговорить людей, которые готовы оставить кучу денег за курсы по Data Science, браться за это дело, а может быть и помочь определиться с тем, что на самом деле стоит сделать, чтобы встать на путь истинный.

Читать далее
Всего голосов 15: ↑10 и ↓5 +5
Комментарии 15

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

Время на прочтение 14 мин
Количество просмотров 33K
Блог компании Яндекс Open source *C++ *Big Data *

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT,  ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

Читать далее
Всего голосов 217: ↑216 и ↓1 +215
Комментарии 31

Работа с научными данными в рамках data-driven подхода

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.3K
Data Mining *Big Data *GitHub *Искусственный интеллект Data Engineering *
Из песочницы

В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.

В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 2

Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут

Уровень сложности Средний
Время на прочтение 14 мин
Количество просмотров 2K
Блог компании Банк «Открытие» Python *Big Data *DevOps *
Кейс

Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.

В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.

Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.

Далее про наш кейс
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 1

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

Время на прочтение 6 мин
Количество просмотров 3.2K
Блог компании Selectel IT-инфраструктура *Big Data *Машинное обучение *Data Engineering *


Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать дальше →
Всего голосов 42: ↑42 и ↓0 +42
Комментарии 1

Синтетические данные для машинного обучения: их природа, типы и способы генерации

Время на прочтение 14 мин
Количество просмотров 1.4K
Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 1

Генерация DAG в Apache Airflow

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 1.4K
Python *Big Data *Хранилища данных *Data Engineering *
Туториал

Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.

Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 1

Процесс ELT: основные компоненты, преимущества и инструменты создания

Время на прочтение 11 мин
Количество просмотров 2.4K
Data Mining *Big Data *Хранение данных *Хранилища данных *
Перевод

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать дальше →
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 1

Медицинские датасеты для машинного обучения: цели, типы и способы применения

Время на прочтение 11 мин
Количество просмотров 1.2K
Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект Здоровье
Перевод

Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.

В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Какие профессии выбирают женщины в столице и регионе

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 2K
Python *Data Mining *Big Data *Машинное обучение *Статистика в IT

Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.

В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.

Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.

Читать далее
Всего голосов 12: ↑5 и ↓7 -2
Комментарии 14

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Уровень сложности Простой
Время на прочтение 18 мин
Количество просмотров 16K
Блог компании Яндекс Практикум Анализ и проектирование систем *Big Data *История IT Data Engineering *
Мегапроект

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

Читать далее
Всего голосов 25: ↑23 и ↓2 +21
Комментарии 6

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

Время на прочтение 8 мин
Количество просмотров 1K
Блог компании Инфосистемы Джет Анализ и проектирование систем *Big Data *Хранилища данных *Data Engineering *

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.

Узнать всё!
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 0

Вклад авторов

Работа

Data Scientist
152 вакансии