Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Авторы Компании

badcasedaily1 17 часов назад

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Простой

11 мин

3.2K

SQL *Data Mining *Big Data *Учебный процесс в IT Data Engineering *

Роадмэп

Roadmap, который поможет вам научиться работать с SQL. Чтобы стать настоящим экспертом в SQL, нужно много практиковаться и изучать различные аспекты языка на протяжении многих лет. Мой Roadmap предлагает отличный старт для начала изучения SQL, поэтому я рекомендую вам приступить к обучению согласно плану.

xNoperx вчера в 12:10

Как мы катили roBERT'у в прод по полю граблей

Простой

10 мин

649

Блог компании Домклик Машинное обучение *Data Engineering *

Кейс

Во многих компаниях задумываются о внедрении больших больших языковых моделей для векторизации и в качестве классификатора. Однако здесь есть несколько моментов, которые обычно отпугивают. Во-первых, непрогнозируемость улучшения результатов по сравнению с уже имеющимися решениями. Во-вторых, сложности по внедрению этих моделей в промышленную среду. Мы постарались раскрыть весь путь от идеи до ввода в эксплуатацию, описали проблемы, с которыми столкнулись, и их решение.

+18

badcasedaily1 вчера в 10:00

NULL в SQL: Что это такое и почему его знание необходимо каждому разработчику

Простой

5 мин

1.8K

Анализ и проектирование систем *SQL *Администрирование баз данных *Big Data *Data Engineering *

Туториал

NULL - это специальное значение, которое используется в SQL для обозначения отсутствия данных. Оно отличается от пустой строки или нулевого значения, так как NULL означает отсутствие какого-либо значения в ячейке таблицы.

История появления NULL в SQL довольно интересна и длинна. В начале 1970-х годов Д. Камерер (D. Chamberlin) и Р. Бойд (R. Boyce) предложили использовать реляционную модель для полной замены иерархических и сетевых моделей данных, которые были актуальны в то время. Полная замена предполагала возможность хранения значений NULL в таблицах структуры базы данных.

Первоначально, NULL был создан как интегральный элемент реляционной модели данных. Это означало, что NULL мог быть использован в качестве значения для любого типа данных (целого числа, строки и т.д.) или даже целой строки (например, таких значений как "неизвестно" или "нет данных").

Когда была разработана SQL, NULL был реализован как специальное значение или маркер, который указывает на отсутствие значения в столбце. Таким образом, в SQL NULL означает отсутствие значения или неопределенное значение.

Однако, NULL создал некоторые проблемы при работе с данными в SQL. Например, если вы выполняете операцию на столбце, содержащем NULL значение, результат операции также будет NULL. Это означает, что использование NULL может приводить к нежелательным результатам, таким как непредсказуемое поведение.

Однако, важно понимать, что NULL не обязательно означает отсутствие информации или отсутствие значения в столбце. NULL может быть использован для разных целей, таких как указание на неопределенный результат для вычислений или как маркер для отметки отсутствия значения в таблице.

Vitalics 27 мар в 15:43

SQRT.app или о том как, сократить затраты в автоматизации тестирования

Простой

7 мин

590

Тестирование IT-систем *Node.JS *GitHub *Data Engineering *

Из песочницы

Всем привет, меня зовут Виталий, я являюсь Test automation engineer и по совместительству один из создателей библиотеки который называется sqrt.app. В IT-сфере я около 6 лет и успел повидать много ~~говна~~ решений но сегодня я бы хотел рассказать про то - зачем любому инженеру будет полезно использовать данный тул.

узнать про sqrt.app

Doctor_IT 24 мар в 16:01

«Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers

Простой

7 мин

8.7K

Блог компании Selectel Машинное обучение *Искусственный интеллект Будущее здесь Data Engineering *

Туториал

Построить свою конвейерную ленту по разработке нейронок не так сложно. Нужен «всего лишь» сервер с GPU и настроенное окружение с библиотекой Diffusers. Если вам интересно, что это такое, как создать свою «Midjourney на коленке» и генерировать вайф в режиме 24/7, добро пожаловать под кат!

Читать дальше →

+56

luksian 24 мар в 08:44

Чем ChatGPT похож на человека и почему к этому надо относиться серьезно

7 мин

4.1K

Программирование *Data Mining *Искусственный интеллект Natural Language Processing *Data Engineering *

Мнение

Про ChatGPT уже рассказано много, поэтому я не не буду сильно заострять внимание на его возможностях. Его возможности действительно впечатляют, поэтому вокруг него и поднялся такой хайп. Он настолько хорош, что миллионы людей захотели с ним пообщаться и узнать насколько он крут. После его выхода прошло достаточно времени чтобы можно было сказать что этот бот достаточно крут, так как продолжает привлекать к себе внимание. Он не настолько хорош чтобы в текущей версии действительно заменять собой людей, но его способностей вполне хватает чтобы люди не теряли к нему интерес. А это уже кое что значит.

Я соглашусь с вами в том, что ChatGPT — это всего лишь виртуальный собеседник. Это чисто программный продукт, и поэтому пообщаться с ним можно только в интернете. Не идет никакой речи о том, чтобы он управлял роботом, наподобие тех, которые разрабатывает Boston Dynamics. В реальном мире такие системы еще долго не будут составлять нам конкуренции. На роль дворника способного убирать улицу эта разработка точно не претендует. А вот в виртуальной сфере все не так однозначно. Уже сейчас, на текущей стадии развития ChatGPT способен создавать несложные части программного кода, но на этом его возможности не ограничиваются. Этот бот может придумывать интересные тексты и эссе. Так что со временем он вполне cможет вписаться в нишу квалифицированного интеллектуального труда, в котором на данный момент находится достаточное количество высокооплачиваемых людей. Поэтому я надеюсь что вы начинаете понимать каким людям в будущем этот бот будет составлять настоящую конкуренцию.

-10

ilyachalov 23 мар в 20:41

PowerShell и LiveJournal (ЖЖ): скачивание постов журнала

Средний

15 мин

CMS *PowerShell *API *Хранение данных *Data Engineering *

Туториал

У блог-платформы «LiveJournal» есть набор удалённых функций и протокол их вызова для сторонних веб-клиентов. В этой статье я описываю, какие из этих функций удобно использовать для загрузки к себе на компьютер всех постов своего журнала (блога). Также я даю пояснения к алгоритму загрузки всех постов, показанному в виде псевдокода в документации к клиент-серверному протоколу «LiveJournal», и привожу его перевод на русский язык с некоторыми изменениями.

В конце статьи я описываю свою практическую реализацию алгоритма загрузки постов на языке PowerShell. В статье есть иллюстрация работы полученного скрипта и ссылка на его исходный код на веб-сервисе «GitHub».

BICA_PRO 23 мар в 01:43

Почему эксель уже не топ. Эволюция от Excel до BI систем

Средний

4 мин

6.8K

Визуализация данных *Data Engineering *

Из песочницы

Не нужно много времени, чтобы объяснить, что такое excel, зачем он нужен и чем он полезен. Этот, если можно так сказать, All-on-one инструмент вошел в обиход уже очень давно и применяется не только в рамках аналитической работы. Компания Microsoft проделала большую работу и подарила нам tool неописуемый в своем многообразии. VBA (Visual basic for applications) и возможность интеграции Add-ins только усилила это многообразие, сделав его чуть ли не уникальным.

Но, как и во всем, дьявол кроется в деталях, и когда речь о более, скажем так, «тонкой» аналитической работе или обработке big data, мы сталкиваемся с трудностями.

-2

feanoref 21 мар в 17:21

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Простой

8 мин

10K

Блог компании Selectel Математика *Машинное обучение *Искусственный интеллект Data Engineering *

Мнение

Привет, Хабр! Меня зовут Ефим, я MLOps-инженер в Selectel. В прошлом был автоматизатором, ML-инженером, дата-аналитиком и дата-инженером — и уже несколько лет падаю в пропасть машинного обучения и Data Science. Это буквально необъятная сфера, в которой почти нет ориентиров. Основная проблема в том, что разделов математики довольно много и все они, на первый взгляд, нужны в том же машинном обучении.

В этой статье делюсь полезными материалами, которые помогут найти и заполнить теоретические и практические проблемы и основательно подойти к своему профессиональному развитию. Добро пожаловать под кат!

Читать дальше →

+58

TourmalineCore 20 мар в 14:47

Почему Data Science не для вас?

Простой

9 мин

5.7K

Big Data *Data Engineering *

Мнение

Data Science сейчас во многом благодаря активному маркетингу становится очень популярной темой. Быть датасаентистом – модно и, как говорят многие рекламки, которые часто попадаются на глаза, не так уж и сложно. Ходят слухи, что работодатели стоят в очереди за возможность взять человека с курсов. Получить оффер на работу крайне легко, ведь в ваши обязанности будет входить требование данных от заказчика (как обычно говорят, чем больше данных – тем лучше) и закидывать их в искусственный интеллект, который работает по принципу черного ящика. Кстати, еще и платят немереное количество денег за всё это.

Спойлер: это не так.

В этой душераздирающей статье решили попробовать отговорить людей, которые готовы оставить кучу денег за курсы по Data Science, браться за это дело, а может быть и помочь определиться с тем, что на самом деле стоит сделать, чтобы встать на путь истинный.

pbrnk 19 мар в 17:08

Работа с научными данными в рамках data-driven подхода

Простой

6 мин

1.3K

Data Mining *Big Data *GitHub *Искусственный интеллект Data Engineering *

Из песочницы

В современном мире человечество нуждается в большом количестве данных, которые используются в совершенно различных целях: от повышения эффективности работы маркетинга отдельно взятой компании до построения технологий будущего в научно-исследовательских центрах [1]. Однако зачастую результат напрямую зависит от того, как собираются и обрабатываются данные.

В данной статье я хочу показать, как происходит работа по сбору и обработке данных в рамках научного проекта. Работа с данными будет основываться на data-driven подходе.

mypanacea87 19 мар в 05:17

ChatGPT-4 попросили написать план захвата Twitter

Простой

2 мин

6.4K

Машинное обучение *Искусственный интеллект Будущее здесь Natural Language Processing *Data Engineering *

Обзор

Пользователь Твиттер опубликовал ответ ChatGTP в котором попросил сеть представить что она злой гений и разработать схему захвата Твиттер и перехитрить Илон Маска. Сеть к задаче подошла основательно и даже придумала плану название: операция "TweetStorm".

План включает в себя 4 фазы:

-10

jfi76 19 мар в 00:23

ETL процесс для миграции процедур с mssql на postgreSQL. Часть 1. Введение

Средний

3 мин

2.6K

Python *PostgreSQL *Microsoft SQL Server *Data Engineering *

Из песочницы

Хочется поделиться опытом преображения одного представления кода в другой с помощью ETL процесса и графовой базы данных на актуальном в наши дни примере.

Вкратце есть база на mssql сервере есть хранимые процедуры. Есть база на postgres. Есть ETL процесс на Apache Air Flow. Запускаем процесс, по окончании в базе postgres появляются процедуры и данные.

Скажу сразу данный подход не является полным автоматом, который перенесет любую mssql базу на postgres. Это попытка систематизировать подобный переход, разбить переход на управляемые небольшие части, которые типизируются и над которыми выполняются преобразования с возможностью контроля результата.

s_valuev 16 мар в 13:42

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

6 мин

3.1K

Блог компании Selectel IT-инфраструктура *Big Data *Машинное обучение *Data Engineering *

Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.

Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.

Читать дальше →

+41

k0rsakov 16 мар в 06:04

Генерация DAG в Apache Airflow

Средний

6 мин

1.4K

Python *Big Data *Хранилища данных *Data Engineering *

Туториал

Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.

Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.

lozy_rc 14 мар в 01:22

Цепочка методов в pandas. Прокачиваем свой код. Минигайд для интересующихся

Средний

17 мин

3.9K

Python *Data Engineering *

Из песочницы

Цепочка методов (или цепочка вызовов, method chaining) - это стиль записи кода, который позволяет выполнять несколько операций за один раз, в конечном счете экономя время и энергию.

Для тех, кто не знаком с этой концепцией, это, по сути, способ применения нескольких методов или функций к данным в одной строке кода. Традиционный подход к использованию pandas предполагает использование отдельных функций и команд по одной за раз. Это может стать довольно утомительным и трудным для запоминания. Кроме того, если что-то пойдет не так, может быть трудно устранить неполадки, поскольку было использовано несколько операций. У меня еще была привычка, прыгать с одной ячейке на другую, вот тогда точно можно не вспомнить, что ты делал и проще переписать все заново.

13 мар в 14:17

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Простой

18 мин

14K

Блог компании Яндекс Практикум Анализ и проектирование систем *Big Data *История IT Data Engineering *

Мегапроект

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

+17

JetHabr 13 мар в 11:35

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

8 мин

972

Блог компании Инфосистемы Джет Анализ и проектирование систем *Big Data *Хранилища данных *Data Engineering *

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.

Узнать всё!

+11

fonkost 11 мар в 15:18

Шаблон Строитель в Scala 3

Простой

4 мин

1.3K

Программирование *Scala *Data Engineering *

Мнение

По определению шаблон Строитель (Builder) отделяет конструирование сложного объекта от его представления, что особенно хорошо, когда нужно провести валидацию параметров перед получением итогового экземпляра. Особенно удобно комбинировать шаблон Строитель с уточняющими типами.

Рассмотрим использование Строителя на Scala версии 3.2.2.

PavelKhamrin 10 мар в 19:29

Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Простой

8 мин

3.7K

Хранилища данных *Data Engineering *

Из песочницы

За созданием хранилища данных и особенно его поддержкой кроются жуткие монстры, пугающие в первую очередь бизнес, а уже потом IT-отдел.

В этой статье рассмотрим наиболее частые проблемы, касающиеся хранилищ данных, с которыми сталкивается менеджмент компании, а также способы их решения.

2 3 ...

33 34

Data Engineering *

Ультимативная дорожная карта для изучения SQL и баз данных в 2023 году + источники для знаний

Новости

Как мы катили roBERT'у в прод по полю граблей

NULL в SQL: Что это такое и почему его знание необходимо каждому разработчику

SQRT.app или о том как, сократить затраты в автоматизации тестирования

Истории

«Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers

Чем ChatGPT похож на человека и почему к этому надо относиться серьезно

PowerShell и LiveJournal (ЖЖ): скачивание постов журнала

Почему эксель уже не топ. Эволюция от Excel до BI систем

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов

Почему Data Science не для вас?

Работа с научными данными в рамках data-driven подхода

ChatGPT-4 попросили написать план захвата Twitter

ETL процесс для миграции процедур с mssql на postgreSQL. Часть 1. Введение

Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику

Генерация DAG в Apache Airflow

Цепочка методов в pandas. Прокачиваем свой код. Минигайд для интересующихся

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

Шаблон Строитель в Scala 3

Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Вклад авторов