Как стать автором
Обновить
97.26
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

«Бесполезные» доклады о том, как кочегарить, инференсить и моделировать LTV: как прошёл Data Science Meet Up #2

Блог компании Альфа-Банк Совершенный код *Big Data *Конференции Киберпанк

11 августа мы провели Data Science Meet Up #2. Повестка митапа — работа с данными кредитных продуктов, а тематическая — киберпанк. Это был второй митап по DS, но первый тематический. Для тех, кто не смог поучаствовать, немного расскажем как прошёл митап и поделимся конспектами докладов и ссылками на записи, если захотите посмотреть какое-то выступление полностью, а не в нашем урезанном виде. Под катом: фотографии, доклады от джунов, которым не верят, что они джуны и жёсткая обратная связь от участника.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 529
Комментарии 4

Новости

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать дальше →
Рейтинг 0
Просмотры 1.6K
Комментарии 0

Как мы взяли бронзу вместо золота на Kaggle или умей верно выбрать сабмит

Python *Big Data *Data Engineering *

Привет, чемпион!

Мы тут недавно потратили месяц на соревнование «UW-Madison GI Tract Image Segmentation» и не взяли золото. Золотую медаль не взяли, но теперь у каждого из нас есть первая бронза. И сейчас мы кратко расскажем про сработавшие подходы в сегментации. А еще расскажем, что можно было сделать, чтоб все-таки забрать золото. (Спойлер: мы были в шаге от золота ...)

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.4K
Комментарии 2

Как переносить данные откуда угодно куда угодно с помощью Meltano

Блог компании AGIMA Data Mining *Big Data *Data Engineering *
Tutorial

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 722
Комментарии 3

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

Блог компании Neoflex Анализ и проектирование систем *Big Data *Хранилища данных *Облачные сервисы *

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.7K
Комментарии 7

От идеи до внедрения: как построить систему анализа данных для промышленного предприятия

Блог компании Factory5 Data Mining *Big Data *Машинное обучение *Управление проектами *

По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.

Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2.1K
Комментарии 0

Руководство по Human Pose Estimation

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать дальше →
Всего голосов 23: ↑21 и ↓2 +19
Просмотры 3.2K
Комментарии 6

Как базы данных «ключ-значение» обеспечивают производительность и масштабируемость без границ

Блог компании VK Администрирование баз данных *Big Data *Хранение данных *
Перевод


Команда VK Cloud перевела статью о базах «ключ-значение». Вы узнаете, в чем их преимущества перед другими БД, какие базы работают по этому принципу и чем они отличаются между собой.

В чем суть баз «ключ-значение»


Суть проста — объекты в них хранятся и извлекаются с помощью ключа. Так мы прощаемся с:

  • таблицами, столбцами и вводом ant data — всем, что можно так или иначе назвать blob-объектом;
  • отношениями между объектами;
  • сложными операциями.

Что же мы получаем взамен, когда отбрасываем все это?
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 7.3K
Комментарии 7

Как обезличить персональные данные

Блог компании Ассоциация больших данных Big Data *

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 3K
Комментарии 0

Как устроена виртуальная машина SQLite

Программирование *SQL *Big Data *SQLite *
Перевод

SQL — концептуально странный язык. Вы пишете ваше приложение на одном языке, скажем, на JavaScript, а затем направляете базе данных команды, написанные на совершенно другом языке — SQL. После этого база данных компилирует и оптимизирует эту команду на SQL, выполняет её и возвращает вам данные. Такой метод кажется ужасно неэффективным, но, всё-таки, ваше приложение может проделывать сотни таких операций в секунду. Просто безумие!

Но на самом деле всё ещё страннее.

Читать далее
Всего голосов 55: ↑54 и ↓1 +53
Просмотры 11K
Комментарии 14

Кто такой дата-аналитик в X5 Tech

Блог компании X5 Tech Big Data *

Привет, Хабр! На связи отдел аналитики данных X5 Tech.

По мере развития технологий больших данных в сфере Data Science продолжает оформляться всё большее количество направлений, а уже существующие становятся более обособленными.

Тем не менее до сих пор многие с трудом могут ответить на вопрос чем занимается дата-аналитик.

В одной компании в его сферу обязанностей входит построение отчётов для бизнеса, в другой — дизайн и проведение АБ-экспериментов, а в третьей — подготовка витрин данных.

Поэтому вопрос "Так кто же такой этот ваш дата-аналитик?" мы слышим часто и хотим сегодня об этом поговорить.

Цель данной статьи — ответить на вопросы:

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 2.6K
Комментарии 4

Предохранители для данных: как автоматические выключатели повышают Data Quality

Блог компании VK Big Data *Машинное обучение *DevOps *
Перевод


Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных? Команда VK Cloud перевела статью о том, как в компании Intuit решают этот вопрос с помощью предохранителей для пайплайнов данных.

В чем суть предохранителя


Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные,  которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности. 

Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.
Читать дальше →
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 1.6K
Комментарии 3

“Один дашборд, чтобы править ими всеми”

Блог компании Цифровой СИБУР Интерфейсы *Big Data *Визуализация данных *Статистика в IT

Привет! Как мы писали в предыдущих постах, наша команда создает удобные дашборды для разных департаментов СИБУРа, от хозяйственной деятельности до продаж. 

Но всегда есть кто-то уровнем повыше, которому нужно как-то централизованно и быстро получать самую верхнеуровневую информацию по всем департаментам сразу (читай - по всем дашбордам).

Для этого мы создаем так называемый Царь-Дашборд. Control Tower. Мета-дашборд. Он содержит информацию о самых важных дашбордах, которые есть в компании, по сквозным процессам (это такие процессы, которые касаются нескольких разных функций, нескольких различных исполнителей в одной компании). Целевая аудитория такого дашборда — первые лица компании: CEO и, что называется, “минус 1” от его должности. Также данные с дашборда могут пригодиться и операционным специалистам, если им удобно воспринимать данные в таком формате.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2.2K
Комментарии 3

Smart Forms: Наш опыт автоматизации сбора данных

Блог компании Visiology Big Data *Визуализация данных *Хранение данных *

Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.

Читать далее
Всего голосов 22: ↑22 и ↓0 +22
Просмотры 1.2K
Комментарии 3

Как мы сделали матчер: тайтлы, БЕРТы и две сестры

Блог компании AliExpress Россия Big Data *Машинное обучение *

Всем привет! Меня зовут Андрей Русланцев, я — Senior Machine Learning Engineer в команде матчера в AliExpress Россия. Я расскажу о том, как мы сделали матчер: какие проблемы нам пришлось решить, какие модели мы использовали, как выглядит наш текущий пайплайн, и почему наш матчинг действительно супер.

Читать далее
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 1.9K
Комментарии 11

Кто такой Data Product Manager и почему без него не обойтись в 2022 году, если вы работаете с Big Data

Блог компании VK Системное администрирование *Big Data *DevOps *


В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.

Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.

Главные проблемы и вызовы для индустрии работы с данными в 2022 году


  • Инфраструктура и инструменты. Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?
  • Поддержка и развитие решений на базе зарубежного ПО. Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?
  • Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.

Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач. 
Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 1.4K
Комментарии 1

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

Блог компании Группа НЛМК Высокая производительность *Системное администрирование *Big Data *
Tutorial

Привет! Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.

Читать далее
Всего голосов 22: ↑22 и ↓0 +22
Просмотры 3K
Комментарии 2

Введение в базы данных

SQL *Big Data *Терминология IT

Я решила написать эту статью, потому что именно такой статьи мне очень не хватало несколько лет назад, когда я только начала карьеру в аналитике данных. Тогда я часто слышала слова «база данных», «реляционная база», «primary key», примерно понимала, что они означают, но единую картину в голове у меня сложить не получалось.

Читать далее
Всего голосов 15: ↑11 и ↓4 +7
Просмотры 14K
Комментарии 21

Как убрать посторонние шумы с фото документов с помощью PyTorch

Обработка изображений *Big Data *Машинное обучение *
Tutorial

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 4.3K
Комментарии 3

Вклад авторов

Работа

Data Scientist
133 вакансии