Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

goo-goo-goo-joob 12 часов назад

Почему нельзя сделать прогноз CLTV с помощью одной модели

17 мин

470

Блог компании Альфа-Банк Машинное обучение *Статистика в IT Финансы в IT Data Engineering *

Или как превратить набор продуктовых моделей склонности и оттоков в полноценный инструмент прогнозирования продуктового состояния клиента.

В чём специфика задачи оценки СLTV в банке? К каким математическим задачам она сводится? Как их решить и почему стандартные способы, например, модель регрессии, не работает? И чем здесь поможет комплексный подход?

Привет, меня зовут Мария Самоделкина, я senior Data Scientist в Хабе Юридических Лиц Альфа-Банка - лидирую расчет CLTV в нашей команде. В статье расскажу что это за задача CLTV и для чего ее нужно решать банкам.

+10

KalmykovaNadezhda 8 фев в 17:30

Зачем Data Science специалисту разбираться в коде, контейнеризации и коммуникациях

7 мин

1.5K

Блог компании Первая грузовая компания (ПГК) Учебный процесс в IT Карьера в IT-индустрии Data Engineering *

Привет, Хабр! Я Надежда Калмыкова, главный специалист по анализу данных и машинному обучению Департамента цифрового развития. Я работаю в отделе прототипирования ПГК, где мы проверяем жизнеспособность бизнес-идей. Что на ваш взгляд должен уметь специалист Data Science (DS)в первую очередь? Вы, вероятно, ответите как-то так: обрабатывать огромное количество данных, искать взаимосвязи, строить модели, обучать их, выстраивать предиктивную аналитику. С этим более-менее понятно.

А нужно ли специалисту DS уметь настраивать хранилище данных или вести переговоры с клиентами? Поделюсь своим мнением в статье и расскажу на примерах из опыта работы в ПГК, а ваши примеры жду в комментариях.

cloud_duck 6 фев в 10:41

Требования к данным для систем ИИ по верификации людей

Средний

4 мин

1.3K

Анализ и проектирование систем *Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Из песочницы

Чтобы обеспечить надежную и точную верификацию людей при использовании систем ИИ, необходимо разработать и определить оптимальные требования к наборам данных. Целью данного исследования является определение стандартов формирования наборов данных для повышения качества работы систем верификации людей по изображению.

UtrobinMV 5 фев в 16:33

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Простой

10 мин

2.6K

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *Data Engineering *

Обзор

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше. Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

python_onelove 2 фев в 17:05

Бесплатные курсы по большим языковым моделям для дата-сайентистов

Простой

6 мин

6.1K

Машинное обучение *Data Engineering *

FAQ

Большие языковые модели предоставляют широкий спектр возможностей для различных задач и приложений. Они могут быть использованы для создания чат-ботов, голосовых помощников, автоматического редактирования текста, генерации субтитров и многое другое. Обучение этих моделей в 2024 году позволит расширить их функциональность и применимость.

В этой статье мы рассмотрим лучшие бесплатные курсы по большим языковым моделям в 2024 году, которые помогут вам освоить эту увлекательную область и раскрыть свой потенциал в мире искусственного интеллекта.

Читать

AntonGruzdev 30 янв в 13:35

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

2 мин

312

Блог компании Синимекс Математика *Визуализация данных *Конференции Data Engineering *

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Golangcoder 28 янв в 21:32

Где искать работу Дата Саентисту в 2024 году

4 мин

12K

Машинное обучение *Data Engineering *

В настоящее время профессия дата-саентиста является одной из самых востребованных и перспективных. С развитием технологий и увеличением объема данных, специалисты в области анализа данных становятся незаменимыми для компаний всех отраслей. Однако, в 2024 году сфера науки о данных будет развиваться еще более динамично, что означает, что поиск работы и интересных проектов станет еще более конкурентным и требовательным.

Одной из основных тенденций в 2024 году будет увеличение спроса на специалистов с опытом работы в машинном обучении и искусственном интеллекте. Компании будут стремиться применять эти технологии для оптимизации своих бизнес-процессов и повышения эффективности. Поэтому, для дата-саентистов будет важно иметь глубокие знания в области машинного обучения и умение применять их на практике.

Еще одной важной тенденцией будет рост значимости этического аспекта работы дата-саентистов. В связи с увеличением количества данных и их влиянием на принятие решений, специалисты должны будут учитывать этические и правовые аспекты своей работы. Компании будут искать дата-саентистов, которые могут гарантировать безопасность и конфиденциальность данных, а также соблюдение норм и правил использования.

Кроме того, в 2024 году ожидается развитие новых технологий и инструментов для работы с данными. Дата-саентисты будут сталкиваться с большим объемом информации, поэтому им необходимо будет обладать навыками работы с Big Data и уметь использовать современные инструменты для анализа и визуализации данных.

В целом, в 2024 году дата-саентистам предстоит столкнуться с новыми вызовами и возможностями. Поиск работы и интересных проектов будет требовать от них не только глубоких знаний и навыков, но и гибкости, творческого мышления и способности быстро адаптироваться к изменениям в сфере анализа данных.

t.me/ai_machinelearning_big_data – огромное количество уроков, библиотек и примеров с кодом в моем телеграм канале для Дата саенистов разработчиков.

https://t.me/addlist/_FjtIq8qMhU0NTYy – тут я собрал огромную папку для Дата Саентистов.

В этой статье я собрал 20 ресурсов для поиска работы и фриланс-проектов для специалистов по работе с данными.

konstantin_tyurin 25 янв в 17:12

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

9 мин

3.2K

Блог компании СберМаркет IT-стандарты *Визуализация данных *Хранение данных *Data Engineering *

Кейс

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом.

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

+10

Kaizeriil 18 янв в 15:48

Инженерные данные в 21 веке

Средний

21 мин

1.4K

Блог компании Bimeister Анализ и проектирование систем *Data Engineering *

Мнение

«Инженерные данные в 21 веке»

Привет друзья! Как можно было понять из заголовка статьи, речь пойдёт об управлении инженерными данными. Цель - дать общий взгляд под новым углом. Статья выполнена по канонам постмодерна, пестрит отсылками и будет не только полезной, но и занимательной, коей и стоит быть статье на Хабре. Приведу реальные кейсы, в нужных местах дам определения и сошлюсь на стандарты, где уместно.

Интернет, в лице одного из GPT-ботов даёт следующее определение: Инженерные данные — структурированная цифровая информация в электронном виде, которая используется в процессе проектирования, разработки и производства инженерных систем и изделий...

Объект данных – квант информации, который состоит из идентификатора и значений параметров. Объект данных обозначает реальный или абстрактный объект физического мира, в этом и есть его смысл. Так, на пример, 3D модель – это набор структурированных инженерных данных, содержит уникально идентифицированные объекты, с перечнем свойств, часть из которых передают пространственное расположение и геометрическую форму объектов. Документ (файл) как таковой тоже является объектом данных: у него есть идентификатор и перечень метаданных, описывающих его свойства. Однако сама техническая информация сконцентрирована не в заголовке файла, а в массиве файла. Если этот документ не таблица или база данных (БД) – то техническая информация в нём может быть отнесена к неструктурированным данным, хотя сам документ может при этом оставаться объектом данных.

Ninil 16 янв в 10:36

Spark не для чайников: где?

Простой

5 мин

Big Data *Учебный процесс в IT Карьера в IT-индустрии Data Engineering *

Мнение

Apache Spark уже давно перестал быть просто технологией и превратился в своего рода стандарт для обработки больших данных. Этот фреймворк, сочетающий в себе скорость, надежность и масштабируемость, вышел далеко за пределы простого инструмента, превратившись в надежного партнера для огромного числа проектов. Поэтому, когда речь заходит о масштабных вычислениях и эффективной обработке данных, Spark - первое, что приходит на ум. Отсюда и большой интерес к нему, в том числе со стороны начинающих инженеров.

В мире Apache Spark начинающим точно не пропадешь: статьи, уроки, курсы - на любой вкус. Что хабр, что медиум, а так же другие онлайн-платформы просто завалены статьями, где вам в 100500-ый раз говорят про SparkContext, Driver и Executor, приводят тривиальные примеры кода из официальной документации (ок-ок, поправлюсь - часто все же с небольшими изменениями), читают уже заезженных датасет с поездками такси в Нью-Йорке и делают какие-то тривиальные агрегации, рассуждают с умным видом про разницу coalesce и repartition и т.п. Не отстают и произовдители курсов класса "Войти в ИТ" - как известные онлайн-школы, так и "частники" на порталах типа Udemy, Pluralsight и т.п. Выбор курсов по Spark там очень велик.

А в чем, собственно, проблема то ===>

+11

v1st 14 янв в 16:30

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Средний

9 мин

2.5K

ERP-системы *Открытые данные *Data Engineering *

Из песочницы

Судя по вакансиям на hh.ru, у некоторых компаний в русскоязычном сегменте наступила стадия принятия необходимости введения должности «Эксперт НСИ», хотя бы в виде функциональной роли.

Аббревиатурой «НСИ» (нормативно‑справочная информация) в компаниях может обозначаться достаточно широкий спектр источников информации, как структурированной (например таблицы единиц измерения или кодов операций в учётных системах и другие нетранзакционные данные), так и неструктурированной (тексты государственных или отраслевых стандартов, корпоративных организационно‑распорядительных документов и т. д.).

Нормализация и классификация записей справочников НСИ, в том числе справочника Номенклатур — одна из типовых функциональных обязанностей, входящих в описание роли «Эксперт НСИ».

Технически справочник НСИ в учётных системах может представляться в виде набора связанных таблиц в базе данных учётной системы, за содержание которых должен бы назначаться ответственный от бизнеса или группа таковых.

antipov_dmitry 14 янв в 10:25

Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?

Простой

7 мин

12K

Анализ и проектирование систем *Big Data *Машинное обучение *Искусственный интеллект Data Engineering *

Мнение

Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.

Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.

Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.

appp_master 12 янв в 14:37

Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?

20 мин

4.5K

Блог компании МТС Java *Big Data *Распределённые системы *Data Engineering *

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей части «Как использовать Spring в качестве фреймворка для Flink-приложений» я рассказывал, как реализовать минимальное Flink-приложение с использованием фреймворка Spring. Мы запустили первую Flink-задачу в поднятом в docker-compose кластере, а также проверили корректность результата по соответствующим логам. В этой статье решим реальную бизнес-задачу дедупликации данных в пайплайне Kafka-to-Kafka.

+14

velon 10 янв в 13:58

Геоданные без регистрации и СМС

12 мин

4.1K

OpenStreetMap *Геоинформационные сервисы *Хранение данных *Софт Data Engineering *

Туториал

Здравствуй, дорогой читатель.

Спешу поделиться тем, как на самом деле найти геоданные без регистрации и СМС. По чесноку. Без всяких-яких. И даже “подписывайтесь на телеграмм канал” - не будет, у меня его и нет…

И речь пойдёт про инструмент Osmosis.

Никому не сообщайте код из СМС

+12

Alexey80 10 янв в 09:53

Домашняя революция в 3D-печати металлами: использование SLM и оптоволоконных граверов

Средний

4 мин

41K

3D-принтеры DIY или Сделай сам Лазеры Инженерные системы *Data Engineering *

Из песочницы

Вступление В последнее время мир 3D-печати переживает настоящую революцию благодаря появлению доступных технологий печати металлом. Одно из самых примечательных нововведений - использование технологии Selective Laser Melting (SLM) в сочетании с обычными оптоволоконными настольными граверами, что позволяет осуществлять печать металлом прямо дома.

+46

Machinelearning_Ai 10 янв в 07:52

25 СУБД, которые актуальны в 2024 году

Простой

11 мин

14K

SQL *Администрирование баз данных *Big Data *SQLite *Data Engineering *

Перевод

Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет‑технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.

От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!

В моем телеграм t.me/sqlhub канале можно найти гайды, уроки, лучшие библиотеки и советы по работе с данными.

https://t.me/addlist/_FjtIq8qMhU0NTYy — а здесь я собрал бесплатную папку с каналами по изучению Data Science и работе с базами данных.

-7

Machinelearning_Ai 8 янв в 08:36

NumPy: оттачивайте навыки Data Science на практике

Средний

21 мин

15K

Python *Машинное обучение *Data Engineering *

Перевод

В этой статье мы рассмотрим ряд различных упражнений, используя библиотеку NumPy (и сравним с тем, как мы бы реализовали их без неё). В самом конце статьи я приведу ряд упражнений.

t.me/ai_machinelearning_big_data - моем телеграм канале я публикую актуальные проекты курсы, уроки и примеры с кодом по машинному обучению.

Для этой статьи рекомендуется, чтобы читатель имел средний уровень знаний Python, NumPy, numpy.dtype, numpy.ndarray.strides, и numpy.ndarray.itemsize. Краткое введение в массивы и NumPy см. в разделе 💡 Немного предыстории ниже.

Рекомендуемые бесплатные курсы и гайды:

+18

dvgureev 7 янв в 21:01

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 2/2

Средний

5 мин

23K

Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Обзор

В первой части статьи я рассказывал о создании цифрового юриста, способного отвечать на вопросы на основе 200-страничного регламента. Цель — работа такого юриста в закрытом контуре организации, без использования облачных технологий.

Особенностью эксперимента является в том, что оценку ответов делают обычные люди. Юристы.

Во второй части мы рассмотрим как и зачем делать локальные токензайзеры и попробуем запустить всё полностью на локальной машине с видеокартой 4090.

В конце будет приведена полная сравнительная таблица разных моделей и токензайзеров.

+28

Machinelearning_Ai 7 янв в 15:15

Изучаем SQL в 2024 году

Простой

11 мин

39K

SQL *Big Data *Data Engineering *

Из песочницы

SQL — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.

svtDanny 2 янв в 10:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Простой

5 мин

2.3K

Apache *Big Data *Хранение данных *Data Engineering *

Кейс

Перевод

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

2 3 ...

42 43

Data Engineering *

Почему нельзя сделать прогноз CLTV с помощью одной модели

Новости

Зачем Data Science специалисту разбираться в коде, контейнеризации и коммуникациях

Требования к данным для систем ИИ по верификации людей

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Истории

Бесплатные курсы по большим языковым моделям для дата-сайентистов

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

Где искать работу Дата Саентисту в 2024 году

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Инженерные данные в 21 веке

Spark не для чайников: где?

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?

Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?

Ближайшие события

Геоданные без регистрации и СМС

Домашняя революция в 3D-печати металлами: использование SLM и оптоволоконных граверов

25 СУБД, которые актуальны в 2024 году

NumPy: оттачивайте навыки Data Science на практике

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 2/2

Изучаем SQL в 2024 году

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Вклад авторов