Как стать автором
Обновить
65.59
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

5 трендов в аннотировании данных в 2021 году

Data Mining*Big Data*Машинное обучение*Управление персоналом*Софт
Перевод

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →
Рейтинг0
Просмотры744
Комментарии 0

Новости

Показать еще

Оценка коммерческой недвижимости с точки зрения технологий: Machine Learning, методика и другие нюансы

Блог компании РайффайзенбанкBig Data*ХакатоныМашинное обучение*Конференции

Привет, Хабр! Меня зовут Дмитрий Раевский, я дата-сайентист в Райффайзенбанке, занимаюсь цифровизацией кредитов и кредитного контроля. Сегодня я хочу рассказать про оценку коммерческой недвижимости — объектов, которые используются для извлечения прибыли. Поскольку мы на Хабре, то разговор пойдет не об оценке в вакууме, а о привлечении технологий для решения этой задачи. 

Мой рассказ я решил разделить на два смысловых раздела. В первом немного расскажу об оценке коммерческой недвижимости как задаче — что это, для чего нужно, как выполняется, какие есть сложности и т.п. Во втором — покажу, как эту задачу можно решить при помощи технологий. И бонусом — анонсирую большой хакатон по оценке коммерческой недвижимости от Райффайзенбанка.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Просмотры910
Комментарии 2

Apache Flink и потоковая обработка данных для решения задач IoT

Блог компании МиландрBig Data*Распределённые системы*Интернет вещей

К 2021 году прогнозируется, что около 16 млрд из приблизительно 28 млрд подключенных устройств по всему миру, будут так или иначе связаны в рамках концепции интернета вещей. Интернет уходит в вещность, и надо как-то справляться с растущим потоком данных.

Немного отвлекшись от сосредоточенного поиска и обработки больших данных, мы сместили свой фокус на сторону максимально эффективного использования данных, находящихся в движении именно сейчас.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Просмотры1.6K
Комментарии 2

Вебинар «The A-Z of Data: From research to product with Hydrosphere»

Big Data*Машинное обучение*КонференцииDevOps*Искусственный интеллект

Команда Data Phoenix Events приглашает всех, 31 августа в 19:00, на третий технический вебинар из серии "The A-Z of Data", который будет посвящен превращению исследования в продукт с использование Hydrosphere.

Читать далее
Рейтинг0
Просмотры196
Комментарии 1

Как прогнозные модели сокращают количество отказов и преждевременных ремонтных работ

Блог компании Factory5Big Data*Машинное обучение*

Разбираем, что такое прогнозные модели, как они устроены и почему им можно доверить вашу технику — на примере прогнозной модели для масляного насоса дизель-генераторной установки тепловоза.

Масляный насос — важный элемент оборудования, который отвечает за непрерывную подачу масла в двигатель и за его циркуляцию. От работы насоса зависит срок жизни двигателя, расход топлива и уровень вредных выбросов. О неисправности узла может говорить повышенный расход масла, а также снижение или рост давления масла в двигателе. Однако выявлять потенциальную проблему лучше до таких проявлений — это снизит расходы на ремонт, а также случаи выхода техники из строя и остановки производственного процесса. 

Крупная сервисная компания попросила нас разработать систему, которая поможет оценивать состояние масляных насосов дизель-генераторных установок тепловозов. Рассказываем, какой инструмент применили для анализа, как собирали данные и какие получили результаты.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Просмотры2K
Комментарии 2

Обдурить Шаи-Хулуда

Информационная безопасность*Системное администрирование*Big Data*

Привет, Хабр!

Сегодня поговорим о «больших данных» в кибербезопасности, а точнее, о том насколько легко - или сложно - обойти защиту, использующую Big Data. Иначе говоря, как надурить и объегорить передовые системы обнаружения угроз, мимо всевидящего ока которых, как утверждают маркетологи, лишний байт не проскочит.

О чём, собственно говоря, речь? О системах идентификации кибератак, использующих анализ «больших данных» в качестве одного из основных инструментов выявления подозрительной активности, - системы SIEM и XDR. Такие платформы в принципе ориентированы на средний и крупный бизнес, крупные сети и облачную инфраструктуру, в которой происходят миллионы событий ежечасно. Естественно, и речи не может идти о том, чтобы анализировать их «вручную», всё это осуществляется с интенсивным использованием технических средств, хотя наличие квалифицированных специалистов - и в области «больших данных», и в области кибербезопасности, - абсолютно необходимая составляющая.

Что делают такие системы? Позволяют идентифицировать в огромных (Big, очень Big) массивах структурированных и неструктурированных данных признаки несанкционированной активности. Иначе говоря, кибератак. Учитывая, что в средних размеров сети, насчитывающей 20 тысяч конечных точек, за сутки транслируется около 50 терабайт данных, задача «прошерстить» всё это становится очень неординарной.

Для этого существуют множественные алгоритмы. Основным критерием качества платформ обнаружения угроз - в частности, XDR, является точность обнаружения аномалий в системах, которые они защищают. XDR-решения, как правило, включают в себя и SIEM-платформы, отвечающие за сбор и обработку событий, и EDR - обнаружение и реагирование на аномалии, и UBA/UEBA - системы, которые собирают (большие) массивы данных о действиях пользователей и/или конечных точек, серверов и сетевого оборудования, а затем с помощью алгоритмов машинного обучения выстраивают модели поведения и пытаются выявить отклонения от них.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Просмотры3.1K
Комментарии 2

Как Apache Flink хранит стейт: взгляд изнутри

Блог компании НеофлексBig Data*Хранилища данных*

Привет! В этой статье мы рассмотрим важнейший аспект практически любого потокового приложения – работу со стейтом. Сегодня в роли подопытного выступит фреймворк Apache Flink.

Мы узнаем, как и где можно хранить стейт, какие структуры данных для этого используются, оценим скорость работы каждого подхода и узнаем, что из предложенных вариантов быстрее, а что – надежнее, и можно ли найти компромисс среди множества разноплановых комбинаций.

Небольшой дисклеймер

Подавляющая часть информации, представленной в этой статье, справедлива для всех релизов Apache Flink, начиная с версии 1.8. В версии 1.13 (последняя на момент выхода этой статьи) произошли небольшие правки API, которые в некоторой мере изменили видимую пользователю «оболочку» хранения стейта, но общие принципы остались прежними. Подробнее об этом можно прочитать здесь.

Если вы только начинаете знакомство с Apache Flink, то рекомендую посмотреть наш YouTube-митап по основам этого замечательного фреймворка.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Просмотры952
Комментарии 2

Вебинар «The A-Z of Data: Monitoring ML Models in Production»

Big Data*Машинное обучение*КонференцииDevOps*Искусственный интеллект

Команда Data Phoenix Events приглашает всех, 25 августа в 19:00, на второй технический вебинар из серии "The A-Z of Data", который будет посвящен мониторингу ML моделей в продакшене.

Читать далее
Рейтинг0
Просмотры349
Комментарии 0

Как не утонуть в озере данных: инструкция от РСХБ

Блог компании РоссельхозбанкBig Data*Хранение данных*

Привет, Хабр! Не так давно мы в РСХБ запустили озеро данных. И подумали, что наш опыт может кому-нибудь пригодиться. В первую очередь тем, кто ещё только думает о создании своего озера, но не знает, с чего начать, с чем предстоит столкнуться, о чём подумать заранее и т. д. Потому что озеро — это, конечно, прекрасно, но как бы не получить вместо него заросшее болото, в котором небезопасно плавать и откуда толком ничего не достать.

Так что мы собрались и небольшой командой специалистов — в лице Алексея Новикова (заместитель директора, ДИТ), Руслана Ибрагимова (исполнительный директор, ДКР), Николая Кудачкина (управляющий директор, ДРК) и Юрия Колошеина (исполнительный директор, ДИТ) — написали своего рода инструкцию по созданию озера данных на собственном примере.

Читать далее
Всего голосов 13: ↑10 и ↓3+7
Просмотры2K
Комментарии 0

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

Блог компании ClouderaBig Data*Хранение данных*Hadoop*

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Просмотры383
Комментарии 0

Большие данные и математические алгоритмы в руках коммерсанта

Блог компании М.Видео-ЭльдорадоАнализ и проектирование систем*Big Data*Машинное обучение*Data Engineering*

Вы когда-нибудь задумывались, почему на полках любых магазинов — от гипермаркетов электроники до гастрономов — стоят именно эти товары и именно в такой последовательности? А Категорийные Менеджеры (и дата-сайентисты, кстати) думают об этом постоянно. Сегодня мы расскажем, как в М.Видео-Эльдорадо использовали искусственный интеллект для заполнения полок и изучили потребности клиентов при управлении ассортиментом.

Читать далее
Всего голосов 28: ↑28 и ↓0+28
Просмотры3.3K
Комментарии 3

Структура + предположения > ML? Моделирование продаж байесовскими методами

Блог компании EPAMPython*Big Data*Машинное обучение*Управление продажами*

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок. ​

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Просмотры1.4K
Комментарии 1

SQL на стероидах – 5 кейсов использования dbt + Jinja

Блог компании OTUSSQL*Big Data*Data Engineering*

SQL – это нескучно. С современными инструментами возможности языка кратно возросли. Мультитул для моделирования данных dbt, современные колоночные аналитические СУБД позволяют буквально творить с данными чудеса.

Меня зовут Артемий и я Analytics Engineer в компании Wheely. И сегодня я подготовил небольшой экскурс в реальные и интересные сценарии использования гибридного SQL

– Операции Pivot и Unpivot для табличных данных

– Генерирование суррогатного ключа и ключа конкатенации

– Гибкая фильтрация записей из таблиц-источников

– Автоматизация экспорта данных из Хранилища в S3

– Валютные курсы, Continuous Integration, Data Quality

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Просмотры2.2K
Комментарии 0

Как мы улучшали процесс загрузки товаров на AliExpress.ru: машинное обучение, проблемы и решения

Блог компании AliExpress РоссияАнализ и проектирование систем*Big Data*Машинное обучение*

Всем привет! Меня зовут Нина, я работаю в команде платформы для продавцов  AliExpress. Сегодня я расскажу о том, как совместно с коллегами из команды Knowledge Engineering мы адаптировали систему для загрузки товаров, чтобы всё работало в пару кликов. Поехали!

Читать далее
Всего голосов 14: ↑12 и ↓2+10
Просмотры2.3K
Комментарии 11

Как организовать разметку данных для машинного обучения: методики и инструменты

Data Mining*Обработка изображений*Big Data*Машинное обучение*Краудсорсинг
Перевод

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Просмотры2.1K
Комментарии 3

Apache Ozone и узлы хранения данных высокой плотности

Блог компании ClouderaBig Data*Хранение данных*Хранилища данных*Hadoop*
Перевод

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Просмотры955
Комментарии 4

UUID версии 7, или как не потеряться во времени при создании идентификатора

Системное программирование*Администрирование баз данных*Big Data*Хранение данных*Инженерные системы

В течение многих лет я противостоял засилью UUID как ключей в базах данных, но со временем и практикой до меня дошло. Они действительно удобны, когда речь идёт о распределённых системах. Генерировать новый идентификатор на разных концах планеты не так-то просто. Создание псевдослучайных идентификаторов решает эту проблему.

Хотя, подобные решения, не всегда хороши. В отличие от обыкновенных цифровых значений, которые легко кешировать и сортировать, UUID не так гибки в использовании. UUID версии 7 предназначен как раз для того, чтобы разобраться с подобными проблемами.

Добро пожаловать в мир сортированых UUID
Всего голосов 36: ↑35 и ↓1+34
Просмотры8.4K
Комментарии 174

Как приложения для точного земледелия помогают фермерам бороться с глобальным потеплением

Обработка изображений*Геоинформационные сервисы*Big Data*Экология

У современных фермеров сегодня миллион «умной» техники под рукой: дроны, датчики, бортовые компьютеры. Естественно, без мобильных и веб приложений тоже не обошлось. Все эти технологичные штуки делаются для того, чтобы повысить урожайность полей. Тем не менее, некоторые разработчики пошли дальше и помогают агробизнесам не только работать эффективно, но и экологично. Мы в OneSoil как раз работаем над таким приложением. Давайте посмотрим, что экологичного оно умеет делать.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Просмотры1.3K
Комментарии 5

DataScience Digest — 12.08.21

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Напоминаю, что 17 августа буду проводить вебинар "The A-Z of Data: Introduction to MLOps". В его рамках мы рассмотрим, что такое MLOps, основные принципы и практики, лучшие инструменты и возможные архитектуры. Мы начнем с простого жизненного цикла разработки ML решений и закончим сложным, максимально автоматизированным, циклом, который нам позволяет реализовать MLOps. Детали и обязательная предварительная регистрация здесь.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Просмотры1.3K
Комментарии 0

Вклад авторов