Как стать автором
Обновить
76.68

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 3.2K
SQL *Data Mining *Big Data *Учебный процесс в IT Data Engineering *
Роадмэп

Roadmap, который поможет вам научиться работать с SQL. Чтобы стать настоящим экспертом в SQL, нужно много практиковаться и изучать различные аспекты языка на протяжении многих лет. Мой Roadmap предлагает отличный старт для начала изучения SQL, поэтому я рекомендую вам приступить к обучению согласно плану.

Читать далее
Всего голосов 14: ↑11 и ↓3 +8
Комментарии 9

Новости

Как мы катили roBERT'у в прод по полю граблей

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 649
Блог компании Домклик Машинное обучение *Data Engineering *
Кейс

Во многих компаниях задумываются о внедрении больших больших языковых моделей для векторизации и в качестве классификатора. Однако здесь есть несколько моментов, которые обычно отпугивают. Во-первых, непрогнозируемость улучшения результатов по сравнению с уже имеющимися решениями. Во-вторых, сложности по внедрению этих моделей в промышленную среду. Мы постарались раскрыть весь путь от идеи до ввода в эксплуатацию, описали проблемы, с которыми столкнулись, и их решение.

Читать далее
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 0

NULL в SQL: Что это такое и почему его знание необходимо каждому разработчику

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 1.8K
Анализ и проектирование систем *SQL *Администрирование баз данных *Big Data *Data Engineering *
Туториал

NULL - это специальное значение, которое используется в SQL для обозначения отсутствия данных. Оно отличается от пустой строки или нулевого значения, так как NULL означает отсутствие какого-либо значения в ячейке таблицы.

История появления NULL в SQL довольно интересна и длинна. В начале 1970-х годов Д. Камерер (D. Chamberlin) и Р. Бойд (R. Boyce) предложили использовать реляционную модель для полной замены иерархических и сетевых моделей данных, которые были актуальны в то время. Полная замена предполагала возможность хранения значений NULL в таблицах структуры базы данных.

Первоначально, NULL был создан как интегральный элемент реляционной модели данных. Это означало, что NULL мог быть использован в качестве значения для любого типа данных (целого числа, строки и т.д.) или даже целой строки (например, таких значений как "неизвестно" или "нет данных").

Когда была разработана SQL, NULL был реализован как специальное значение или маркер, который указывает на отсутствие значения в столбце. Таким образом, в SQL NULL означает отсутствие значения или неопределенное значение.

Однако, NULL создал некоторые проблемы при работе с данными в SQL. Например, если вы выполняете операцию на столбце, содержащем NULL значение, результат операции также будет NULL. Это означает, что использование NULL может приводить к нежелательным результатам, таким как непредсказуемое поведение.

Однако, важно понимать, что NULL не обязательно означает отсутствие информации или отсутствие значения в столбце. NULL может быть использован для разных целей, таких как указание на неопределенный результат для вычислений или как маркер для отметки отсутствия значения в таблице.

Читать далее
Всего голосов 8: ↑4 и ↓4 0
Комментарии 5

SQRT.app или о том как, сократить затраты в автоматизации тестирования

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 590
Тестирование IT-систем *Node.JS *GitHub *Data Engineering *
Из песочницы

Всем привет, меня зовут Виталий, я являюсь Test automation engineer и по совместительству один из создателей библиотеки который называется sqrt.app. В IT-сфере я около 6 лет и успел повидать много говна решений но сегодня я бы хотел рассказать про то - зачем любому инженеру будет полезно использовать данный тул.

узнать про sqrt.app
Рейтинг 0
Комментарии 4

Истории

«Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 8.7K
Блог компании Selectel Машинное обучение *Искусственный интеллект Будущее здесь Data Engineering *
Туториал

Построить свою конвейерную ленту по разработке нейронок не так сложно. Нужен «всего лишь» сервер с GPU и настроенное окружение с библиотекой Diffusers. Если вам интересно, что это такое, как создать свою «Midjourney на коленке» и генерировать вайф в режиме 24/7, добро пожаловать под кат!
Читать дальше →
Всего голосов 62: ↑59 и ↓3 +56
Комментарии 16

Чем ChatGPT похож на человека и почему к этому надо относиться серьезно

Время на прочтение 7 мин
Количество просмотров 4.1K
Программирование *Data Mining *Искусственный интеллект Natural Language Processing *Data Engineering *
Мнение

Про ChatGPT уже рассказано много, поэтому я не не буду сильно заострять внимание на его возможностях. Его возможности действительно впечатляют, поэтому вокруг него и поднялся такой хайп. Он настолько хорош, что миллионы людей захотели с ним пообщаться и узнать насколько он крут. После его выхода прошло достаточно времени чтобы можно было сказать что этот бот достаточно крут, так как продолжает привлекать к себе внимание. Он не настолько хорош чтобы в текущей версии действительно заменять собой людей, но его способностей вполне хватает чтобы люди не теряли к нему интерес. А это уже кое что значит.

Я соглашусь с вами в том, что ChatGPT — это всего лишь виртуальный собеседник. Это чисто программный продукт, и поэтому пообщаться с ним можно только в интернете. Не идет никакой речи о том, чтобы он управлял роботом, наподобие тех, которые разрабатывает Boston Dynamics. В реальном мире такие системы еще долго не будут составлять нам конкуренции. На роль дворника способного убирать улицу эта разработка точно не претендует. А вот в виртуальной сфере все не так однозначно. Уже сейчас, на текущей стадии развития ChatGPT способен создавать несложные части программного кода, но на этом его возможности не ограничиваются. Этот бот может придумывать интересные тексты и эссе. Так что со временем он вполне cможет вписаться в нишу квалифицированного интеллектуального труда, в котором на данный момент находится достаточное количество высокооплачиваемых людей. Поэтому я надеюсь что вы начинаете понимать каким людям в будущем этот бот будет составлять настоящую конкуренцию.

Читать далее
Всего голосов 20: ↑5 и ↓15 -10
Комментарии 34

PowerShell и LiveJournal (ЖЖ): скачивание постов журнала

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 1K
CMS *PowerShell *API *Хранение данных *Data Engineering *
Туториал

У блог-платформы «LiveJournal» есть набор удалённых функций и протокол их вызова для сторонних веб-клиентов. В этой статье я описываю, какие из этих функций удобно использовать для загрузки к себе на компьютер всех постов своего журнала (блога). Также я даю пояснения к алгоритму загрузки всех постов, показанному в виде псевдокода в документации к клиент-серверному протоколу «LiveJournal», и привожу его перевод на русский язык с некоторыми изменениями.

В конце статьи я описываю свою практическую реализацию алгоритма загрузки постов на языке PowerShell. В статье есть иллюстрация работы полученного скрипта и ссылка на его исходный код на веб-сервисе «GitHub».

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 10

Почему эксель уже не топ. Эволюция от Excel до BI систем

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 6.8K
Визуализация данных *Data Engineering *
Из песочницы

Не нужно много времени, чтобы объяснить, что такое excel, зачем он нужен и чем он полезен. Этот, если можно так сказать, All-on-one инструмент вошел в обиход уже очень давно и применяется не только в рамках аналитической работы. Компания Microsoft проделала большую работу и подарила нам tool неописуемый в своем многообразии. VBA (Visual basic for applications) и возможность интеграции Add-ins только усилила это многообразие, сделав его чуть ли не уникальным.

Но, как и во всем, дьявол кроется в деталях, и когда речь о более, скажем так, «тонкой» аналитической работе или обработке big data, мы сталкиваемся с трудностями.

Читать далее
Всего голосов 8: ↑3 и ↓5 -2
Комментарии 13

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 10K
Блог компании Selectel Математика *Машинное обучение *Искусственный интеллект Data Engineering *
Мнение

Привет, Хабр! Меня зовут Ефим, я MLOps-инженер в Selectel. В прошлом был автоматизатором, ML-инженером, дата-аналитиком и дата-инженером — и уже несколько лет падаю в пропасть машинного обучения и Data Science. Это буквально необъятная сфера, в которой почти нет ориентиров. Основная проблема в том, что разделов математики довольно много и все они, на первый взгляд, нужны в том же машинном обучении.

В этой статье делюсь полезными материалами, которые помогут найти и заполнить теоретические и практические проблемы и основательно подойти к своему профессиональному развитию. Добро пожаловать под кат!
Читать дальше →
Всего голосов 58: ↑58 и ↓0 +58
Комментарии 15

Почему Data Science не для вас?

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 5.7K
Big Data *Data Engineering *
Мнение

Data Science сейчас во многом благодаря активному маркетингу становится очень популярной темой. Быть датасаентистом – модно и, как говорят многие рекламки, которые часто попадаются на глаза, не так уж и сложно. Ходят слухи, что работодатели стоят в очереди за возможность взять человека с курсов. Получить оффер на работу крайне легко, ведь в ваши обязанности будет входить требование данных от заказчика (как обычно говорят, чем больше данных – тем лучше) и закидывать их в искусственный интеллект, который работает по принципу черного ящика. Кстати, еще и платят немереное количество денег за всё это. 

Спойлер: это не так.

В этой душераздирающей статье решили попробовать отговорить людей, которые готовы оставить кучу денег за курсы по Data Science, браться за это дело, а может быть и помочь определиться с тем, что на самом деле стоит сделать, чтобы встать на путь истинный.

Читать далее
Всего голосов 15: ↑10 и ↓5 +5
Комментарии 15

Работа с научными данными в рамках data-driven подхода

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.3K
Data Mining *Big Data *GitHub *Искусственный интеллект Data Engineering *
Из песочницы

В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.

В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 2

ChatGPT-4 попросили написать план захвата Twitter

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 6.4K
Машинное обучение *Искусственный интеллект Будущее здесь Natural Language Processing *Data Engineering *
Обзор

Пользователь Твиттер опубликовал ответ ChatGTP в котором попросил сеть представить что она злой гений и разработать схему захвата Твиттер и перехитрить Илон Маска. Сеть к задаче подошла основательно и даже придумала плану название: операция "TweetStorm".

План включает в себя 4 фазы:

Читать далее
Всего голосов 18: ↑4 и ↓14 -10
Комментарии 11

ETL процесс для миграции процедур с mssql на postgreSQL. Часть 1. Введение

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 2.6K
Python *PostgreSQL *Microsoft SQL Server *Data Engineering *
Из песочницы

Хочется поделиться опытом преображения одного представления кода в другой с помощью ETL процесса и графовой базы данных на актуальном в наши дни примере.

Вкратце есть база на mssql сервере есть хранимые процедуры. Есть база на postgres. Есть ETL процесс на Apache Air Flow. Запускаем процесс, по окончании в базе postgres появляются процедуры и данные.

Скажу сразу данный подход не является полным автоматом, который перенесет любую mssql базу на postgres. Это попытка систематизировать подобный переход, разбить переход на управляемые небольшие части, которые типизируются и над которыми выполняются преобразования с возможностью контроля результата.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 4

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

Время на прочтение 6 мин
Количество просмотров 3.1K
Блог компании Selectel IT-инфраструктура *Big Data *Машинное обучение *Data Engineering *


Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать дальше →
Всего голосов 41: ↑41 и ↓0 +41
Комментарии 1

Генерация DAG в Apache Airflow

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 1.4K
Python *Big Data *Хранилища данных *Data Engineering *
Туториал

Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.

Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 1

Цепочка методов в pandas. Прокачиваем свой код. Минигайд для интересующихся

Уровень сложности Средний
Время на прочтение 17 мин
Количество просмотров 3.9K
Python *Data Engineering *
Из песочницы

Цепочка методов (или цепочка вызовов, method chaining) - это стиль записи кода, который позволяет выполнять несколько операций за один раз, в конечном счете экономя время и энергию.

Для тех, кто не знаком с этой концепцией, это, по сути, способ применения нескольких методов или функций к данным в одной строке кода. Традиционный подход к использованию pandas предполагает использование отдельных функций и команд по одной за раз. Это может стать довольно утомительным и трудным для запоминания. Кроме того, если что-то пойдет не так, может быть трудно устранить неполадки, поскольку было использовано несколько операций. У меня еще была привычка, прыгать с одной ячейке на другую, вот тогда точно можно не вспомнить, что ты делал и проще переписать все заново.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 12

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Уровень сложности Простой
Время на прочтение 18 мин
Количество просмотров 14K
Блог компании Яндекс Практикум Анализ и проектирование систем *Big Data *История IT Data Engineering *
Мегапроект

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

Читать далее
Всего голосов 21: ↑19 и ↓2 +17
Комментарии 6

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

Время на прочтение 8 мин
Количество просмотров 972
Блог компании Инфосистемы Джет Анализ и проектирование систем *Big Data *Хранилища данных *Data Engineering *

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.

Узнать всё!
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 0

Шаблон Строитель в Scala 3

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.3K
Программирование *Scala *Data Engineering *
Мнение

По определению шаблон Строитель (Builder) отделяет конструирование сложного объекта от его представления, что особенно хорошо, когда нужно провести валидацию параметров перед получением итогового экземпляра. Особенно удобно комбинировать шаблон Строитель с уточняющими типами.

Рассмотрим использование Строителя на Scala версии 3.2.2.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 3.7K
Хранилища данных *Data Engineering *
Из песочницы

За созданием хранилища данных и особенно его поддержкой кроются жуткие монстры, пугающие в первую очередь бизнес, а уже потом IT-отдел.

В этой статье рассмотрим наиболее частые проблемы, касающиеся хранилищ данных, с которыми сталкивается менеджмент компании, а также способы их решения.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 14

Вклад авторов