Как стать автором
Обновить
32.53

Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Почему нельзя сделать прогноз CLTV с помощью одной модели

Время на прочтение 17 мин
Количество просмотров 470

Или как превратить набор продуктовых моделей склонности и оттоков в полноценный инструмент прогнозирования продуктового состояния клиента.

В чём специфика задачи оценки СLTV в банке? К каким математическим задачам она сводится? Как их решить и почему стандартные способы, например, модель регрессии, не работает? И чем здесь поможет комплексный подход? 

Привет, меня зовут Мария Самоделкина, я senior Data Scientist в Хабе Юридических Лиц Альфа-Банка - лидирую расчет CLTV в нашей команде. В статье расскажу что это за задача CLTV и для чего ее нужно решать банкам.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 2

Новости

Зачем Data Science специалисту разбираться в коде, контейнеризации и коммуникациях

Время на прочтение 7 мин
Количество просмотров 1.5K

Привет, Хабр! Я Надежда Калмыкова, главный специалист по анализу данных и машинному обучению Департамента цифрового развития. Я работаю в отделе прототипирования ПГК, где мы проверяем жизнеспособность бизнес-идей. Что на ваш взгляд должен уметь специалист Data Science (DS)в первую очередь? Вы, вероятно, ответите как-то так: обрабатывать огромное количество данных, искать взаимосвязи, строить модели, обучать их, выстраивать предиктивную аналитику. С этим более-менее понятно.

А нужно ли специалисту DS уметь настраивать хранилище данных или вести переговоры с клиентами? Поделюсь своим мнением в статье и расскажу на примерах из опыта работы в ПГК, а ваши примеры жду в комментариях.

Читать далее
Всего голосов 6: ↑3 и ↓3 0
Комментарии 1

Требования к данным для систем ИИ по верификации людей

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 1.3K

Чтобы обеспечить надежную и точную верификацию людей при использовании систем ИИ, необходимо разработать и определить оптимальные требования к наборам данных. Целью данного исследования является определение стандартов формирования наборов данных для повышения качества работы систем верификации людей по изображению.

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Комментарии 2

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 2.6K

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше.  Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 4

Истории

Бесплатные курсы по большим языковым моделям для дата-сайентистов

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 6.1K

Большие языковые модели предоставляют широкий спектр возможностей для различных задач и приложений. Они могут быть использованы для создания чат-ботов, голосовых помощников, автоматического редактирования текста, генерации субтитров и многое другое. Обучение этих моделей в 2024 году позволит расширить их функциональность и применимость.

В этой статье мы рассмотрим лучшие бесплатные курсы по большим языковым моделям в 2024 году, которые помогут вам освоить эту увлекательную область и раскрыть свой потенциал в мире искусственного интеллекта.

Читать
Всего голосов 13: ↑11 и ↓2 +9
Комментарии 0

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

Время на прочтение 2 мин
Количество просмотров 312

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Читать далее
Рейтинг 0
Комментарии 0

Где искать работу Дата Саентисту в 2024 году

Время на прочтение 4 мин
Количество просмотров 12K

В настоящее время профессия дата-саентиста является одной из самых востребованных и перспективных. С развитием технологий и увеличением объема данных, специалисты в области анализа данных становятся незаменимыми для компаний всех отраслей. Однако, в 2024 году сфера науки о данных будет развиваться еще более динамично, что означает, что поиск работы и интересных проектов станет еще более конкурентным и требовательным.

Одной из основных тенденций в 2024 году будет увеличение спроса на специалистов с опытом работы в машинном обучении и искусственном интеллекте. Компании будут стремиться применять эти технологии для оптимизации своих бизнес-процессов и повышения эффективности. Поэтому, для дата-саентистов будет важно иметь глубокие знания в области машинного обучения и умение применять их на практике.

Еще одной важной тенденцией будет рост значимости этического аспекта работы дата-саентистов. В связи с увеличением количества данных и их влиянием на принятие решений, специалисты должны будут учитывать этические и правовые аспекты своей работы. Компании будут искать дата-саентистов, которые могут гарантировать безопасность и конфиденциальность данных, а также соблюдение норм и правил использования.

Кроме того, в 2024 году ожидается развитие новых технологий и инструментов для работы с данными. Дата-саентисты будут сталкиваться с большим объемом информации, поэтому им необходимо будет обладать навыками работы с Big Data и уметь использовать современные инструменты для анализа и визуализации данных.

В целом, в 2024 году дата-саентистам предстоит столкнуться с новыми вызовами и возможностями. Поиск работы и интересных проектов будет требовать от них не только глубоких знаний и навыков, но и гибкости, творческого мышления и способности быстро адаптироваться к изменениям в сфере анализа данных.

t.me/ai_machinelearning_big_data – огромное количество уроков, библиотек и примеров с кодом в моем телеграм канале для Дата саенистов разработчиков.

https://t.me/addlist/_FjtIq8qMhU0NTYy – тут я собрал огромную папку для Дата Саентистов.

В этой статье я собрал 20 ресурсов для поиска работы и фриланс-проектов для специалистов по работе с данными.

Читать далее
Всего голосов 10: ↑7 и ↓3 +4
Комментарии 4

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Время на прочтение 9 мин
Количество просмотров 3.2K

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом. 

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 6

Инженерные данные в 21 веке

Уровень сложности Средний
Время на прочтение 21 мин
Количество просмотров 1.4K

«Инженерные данные в 21 веке» 

Привет друзья! Как можно было понять из заголовка статьи, речь пойдёт об управлении инженерными данными.  Цель - дать общий взгляд под новым углом. Статья выполнена по канонам постмодерна, пестрит отсылками и будет не только полезной, но и занимательной, коей и стоит быть статье на Хабре. Приведу реальные кейсы, в нужных местах дам определения и сошлюсь на стандарты, где уместно.

Интернет, в лице одного из GPT-ботов даёт следующее определение: Инженерные данные — структурированная цифровая информация в электронном виде, которая используется в процессе проектирования, разработки и производства инженерных систем и изделий...

Объект данных – квант информации, который состоит из идентификатора и значений параметров. Объект данных обозначает реальный или абстрактный объект физического мира, в этом и есть его смысл. Так, на пример, 3D модель – это набор структурированных инженерных данных, содержит уникально идентифицированные объекты, с перечнем свойств, часть из которых передают пространственное расположение и геометрическую форму объектов. Документ (файл) как таковой тоже является объектом данных: у него есть идентификатор и перечень метаданных, описывающих его свойства. Однако сама техническая информация сконцентрирована не в заголовке файла, а в массиве файла. Если этот документ не таблица или база данных (БД) – то техническая информация в нём может быть отнесена к неструктурированным данным, хотя сам документ может при этом оставаться объектом данных.       

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 0

Spark не для чайников: где?

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 3K

Apache Spark уже давно перестал быть просто технологией и превратился в своего рода стандарт для обработки больших данных. Этот фреймворк, сочетающий в себе скорость, надежность и масштабируемость, вышел далеко за пределы простого инструмента, превратившись в надежного партнера для огромного числа проектов. Поэтому, когда речь заходит о масштабных вычислениях и эффективной обработке данных, Spark - первое, что приходит на ум. Отсюда и большой интерес к нему, в том числе со стороны начинающих инженеров.

В мире Apache Spark начинающим точно не пропадешь: статьи, уроки, курсы - на любой вкус. Что хабр, что медиум, а так же другие онлайн-платформы просто завалены статьями, где вам в 100500-ый раз говорят про SparkContext, Driver и Executor, приводят тривиальные примеры кода из официальной документации (ок-ок, поправлюсь - часто все же с небольшими изменениями), читают уже заезженных датасет с поездками такси в Нью-Йорке и делают какие-то тривиальные агрегации, рассуждают с умным видом про разницу coalesce и repartition и т.п. Не отстают и произовдители курсов класса "Войти в ИТ" - как известные онлайн-школы, так и "частники" на порталах типа Udemy, Pluralsight и т.п. Выбор курсов по Spark там очень велик.

А в чем, собственно, проблема то ===>
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 21

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 2.5K

Судя по вакансиям на hh.ru, у некоторых компаний в русскоязычном сегменте наступила стадия принятия необходимости введения должности «Эксперт НСИ», хотя бы в виде функциональной роли.

Аббревиатурой «НСИ» (нормативно‑справочная информация) в компаниях может обозначаться достаточно широкий спектр источников информации, как структурированной (например таблицы единиц измерения или кодов операций в учётных системах и другие нетранзакционные данные), так и неструктурированной (тексты государственных или отраслевых стандартов, корпоративных организационно‑распорядительных документов и т. д.).

Нормализация и классификация записей справочников НСИ, в том числе справочника Номенклатур — одна из типовых функциональных обязанностей, входящих в описание роли «Эксперт НСИ».

Технически справочник НСИ в учётных системах может представляться в виде набора связанных таблиц в базе данных учётной системы, за содержание которых должен бы назначаться ответственный от бизнеса или группа таковых.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 8

Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 12K

Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.

Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.

Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.

Читать далее
Всего голосов 14: ↑10 и ↓4 +6
Комментарии 13

Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?

Время на прочтение 20 мин
Количество просмотров 4.5K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей части «Как использовать Spring в качестве фреймворка для Flink-приложений» я рассказывал, как реализовать минимальное Flink-приложение с использованием фреймворка Spring. Мы запустили первую Flink-задачу в поднятом в docker-compose кластере, а также проверили корректность результата по соответствующим логам. В этой статье решим реальную бизнес-задачу дедупликации данных в пайплайне Kafka-to-Kafka.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 0

Ближайшие события

One Day Offer от УЦСБ
Дата 17 февраля
Время 10:00
Место
Онлайн

Геоданные без регистрации и СМС

Время на прочтение 12 мин
Количество просмотров 4.1K

Здравствуй, дорогой читатель.

Спешу поделиться тем, как на самом деле найти геоданные без регистрации и СМС. По чесноку. Без всяких-яких. И даже “подписывайтесь на телеграмм канал” - не будет, у меня его и нет…

И речь пойдёт про инструмент Osmosis.

Никому не сообщайте код из СМС
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 23

Домашняя революция в 3D-печати металлами: использование SLM и оптоволоконных граверов

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 41K

Вступление В последнее время мир 3D-печати переживает настоящую революцию благодаря появлению доступных технологий печати металлом. Одно из самых примечательных нововведений - использование технологии Selective Laser Melting (SLM) в сочетании с обычными оптоволоконными настольными граверами, что позволяет осуществлять печать металлом прямо дома.

Читать далее
Всего голосов 48: ↑47 и ↓1 +46
Комментарии 44

25 СУБД, которые актуальны в 2024 году

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 14K

Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет‑технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.

От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!

В моем телеграм t.me/sqlhub канале можно найти гайды, уроки, лучшие библиотеки и советы по работе с данными.

https://t.me/addlist/_FjtIq8qMhU0NTYy — а здесь я собрал бесплатную папку с каналами по изучению Data Science и работе с базами данных.

Читать далее
Всего голосов 23: ↑8 и ↓15 -7
Комментарии 28

NumPy: оттачивайте навыки Data Science на практике

Уровень сложности Средний
Время на прочтение 21 мин
Количество просмотров 15K

В этой статье мы рассмотрим ряд различных упражнений, используя библиотеку NumPy (и сравним с тем, как мы бы реализовали их без неё). В самом конце статьи я приведу ряд упражнений.

t.me/ai_machinelearning_big_data -  моем телеграм канале я публикую актуальные проекты курсы, уроки и примеры с кодом по машинному обучению.

Для этой статьи рекомендуется, чтобы читатель имел средний уровень знаний Python, NumPy, numpy.dtypenumpy.ndarray.strides, и numpy.ndarray.itemsize. Краткое введение в массивы и NumPy см. в разделе 💡 Немного предыстории ниже.

Рекомендуемые бесплатные курсы и гайды:

Читать далее
Всего голосов 18: ↑18 и ↓0 +18
Комментарии 12

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 2/2

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 23K

В первой части статьи я рассказывал о создании цифрового юриста, способного отвечать на вопросы на основе 200-страничного регламента. Цель — работа такого юриста в закрытом контуре организации, без использования облачных технологий.

Особенностью эксперимента является в том, что оценку ответов делают обычные люди. Юристы.

Во второй части мы рассмотрим как и зачем делать локальные токензайзеры и попробуем запустить всё полностью на локальной машине с видеокартой 4090.

В конце будет приведена полная сравнительная таблица разных моделей и токензайзеров.

Читать далее
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 25

Изучаем SQL в 2024 году

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 39K

SQL  — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.

Читать далее
Всего голосов 38: ↑19 и ↓19 0
Комментарии 27

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 2.3K

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

Вклад авторов