Big Data *

Большие данные и всё о них

kucev сегодня в 10:28

Почему 87% проектов data science не добираются до продакшена?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?

Читать дальше →

1.2K

kucev вчера в 11:49

Пять альтернатив Scale AI

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.

Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.

Читать дальше →

500

driveirk 2 ноября в 11:33

ElasticSearch: отказоустойчивый сервер отказал

Блог компании DINS Open source *Big Data *Хранилища данных *Data Engineering *

Всем привет, меня зовут Илья, я работаю в компании DINS на должности инженера отдела мониторинга. В этой статье расскажу о нашей боли при работе с ElasticSearch. Мне не удалось найти решение этой проблемы где-либо ещё, поэтому, думаю, этот туториал будет интересен всем, кто использует ElasticSearch.

Читать дальше →

+29

7.8K

Ninil 1 ноября в 16:15

Кастомные агрегаторы в Spark SQL

Big Data *Хранилища данных *Data Engineering *

Tutorial

Данная статья является гайдом по использованию кастомных агрегаторов в Spark SQL API. Она “выросла” из моих заметок, которые я делал себе с начала работы со Spark. Сейчас, по мере накопления опыта, мне все это кажется уж слишком наивным и простым, но в свое время мне это показалось чертовски удобным/изящным/заслуживающим внимания, поэтому и решил опубликовать, тем более на Хабре про это еще вроде не писали. Статья ориентирована в первую очередь на тех, кто только начинает работать со Spark, поэтому и помечена как “tutorial”. Если у вас есть какие-либо интересные кейсы по использованию кастомных агрегаторов - делитесь в комментариях!

Ниже мы будем говорить о user-defined aggregations functions (UDAF) org.apache.spark.sql.expressions.Aggregator, которые могут быть использованы для DataSet’ов с целью агрегации группы элементов в одно значение каким-угодно-пользователю образом.

489

zzzzbh 1 ноября в 15:42

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

Big Data *Открытые данные *Визуализация данных Data Engineering *

• Действительно ли электоральные предпочтения сельских жителей существенно отличаются от предпочтений городских жителей?

• Зачем нужно срочно вводить электронное голосование в крупных городах России?

• Как выглядят на графиках и на карте России аномальное голосование?

• Подробные карты окрестностей городов России с результатами голосования на выборах в государственную Думу в 2021 году.

Читать

+13

3.2K

smirnovevgeny 1 ноября в 11:15

Классификация кассовых чеков

Блог компании Альфа-Банк Big Data *Хакатоны Машинное обучение *Искусственный интеллект

Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.

В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.

Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.

+14

3.1K

BIOCAD 29 октября в 15:26

Как мы собираем данные для аналитики с помощью Apache NiFi

Блог компании BIOCAD Apache *Big Data *Data Engineering *

Tutorial

Привет, Хабр! Мы команда мониторинга и анализа данных биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы собираем данные для аналитики из практически всех сервисов компании и при этом вполне успешно справляемся без полноценного дата-инженера.

2.2K

kucev 28 октября в 13:53

Почему за автоматической разметкой данных будущее?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.

Читать дальше →

1.7K

kucev 27 октября в 09:33

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.

Читать дальше →

610

mashkka_t 26 октября в 17:15

Style transfer для сериала «Друзья»

Блог компании OTUS Big Data *Машинное обучение *Искусственный интеллект

В данном посте мы, с помощью методов автоматической обработки текстов (Natural Language Processing или просто NLP), исследуем стиль речи 6 главных героев знаменитого сериала “Друзья”, проведем мультиязычный анализ для русского и английского языков, а также обучим большие GPT-based языковые модели общаться в в стиле главных героев Друзей.

+12

4.4K

AyratGil 26 октября в 13:29

Apache Hive: от модели распределённых вычислений MapReduce компании Google до Big Data – хранилища больших данных

Big Data *Hadoop *

Перевод

Обзор

Apache Hive – система управления (СУБД) реляционными базами данных (РБД) с открытым исходным кодом для запросов, агрегирования и анализа параметров и режимов рабочих нагрузок с большими данными. В этой статье описываются ключевые инновационные инструменты для полноценной пакетной обработки в корпоративной системе хранения данных. Мы представляем гибридную архитектуру, которая сочетает в себе традиционные методы массивно-параллельных архитектур (MPP) с физически разделенной памятью с более современными концепциями больших данных, облаков для достижения масштабируемости и производительности, требуемых современными аналитическими приложениями. Мы исследуем систему, подробно описывая улучшения по четырем основным направлениям: транзакция, оптимизатор, среда выполнения и федерация (интеграционный процесс). Затем мы приводим экспериментальные результаты, чтобы продемонстрировать производительность системы для типовых рабочих нагрузок, и в заключение рассмотрим дорожную карту сообщества.

1.2K

tafarberg 25 октября в 20:40

Одержимость контролируемыми входными метриками

Big Data *Управление e-commerce *Управление продуктом *Карьера в IT-индустрии IT-компании

Перевод

Что такое контролируемые входные метрики и как их применять?

"Я бы сказал, что контролируемые входные метрики — это тот тип идей, когда методы поначалу кажутся тривиальными, но, после их применения на практике, меняется способ вашего мышления о данных. На самом деле, я даже зайду дальше и скажу, что они в корне изменили мое представление об операционной эффективности."

1.3K

kxl 24 октября в 16:33

Готовим Json в Apache NiFi или снова Jolt Transform

Big Data *Data Engineering *

Tutorial

Пример использования процессора JoltTransformJson в Apache NiFi. Можно рассматривать как небольшой туториал по использованию Jolt-спецификаций.

1.1K

X5RetailGroup 22 октября в 13:08

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

Блог компании X5 Group SQL *Big Data *Карьера в IT-индустрии Data Engineering *

В предыдущей статье мы поговорили про роль Data Engineer в Х5, какие задачи он решает и с каким технологическим стеком работает. Рассмотрели структуру собеседования, основные направления, по которым мы оцениваем кандидатов, и подробно разобрали базовые требования, предъявляемые нами к уровню владения Python.

В данной статье мы разберём требования к ключевым для Data Engineer в X5 навыкам: распределённые системы и вычисления на Hadoop / Spark, а также SQL и проектирование схемы данных.

3.3K

tafarberg 22 октября в 12:50

Вот как Амазон измеряет свою эффективность

Big Data *Управление e-commerce *Управление продуктом *Карьера в IT-индустрии IT-компании

Перевод

"Я ждал такую книгу, как Working Backwards, очень и очень долго."

Бизнес литературу полезно читать, чтобы не забывать про контекст, цели и человеческую составляющую сервисов. Помним, что конечные цели должны быть измеримы и контролируемы. Как раз об этом поговорим в статье Седрика Чина.

3.3K

Saygin 22 октября в 12:43

Data Science с нуля. Большая подборка курсов

Data Mining *Big Data *Машинное обучение *Учебный процесс в IT

Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным. Старался избавиться от избыточности, оставляя только самые ценные, на мой взгляд, курсы. Эти бесплатные курсы легко заменят вам платные.

+12

10K

ru_vds 20 октября в 16:00

Data Science: лучшие учебные курсы и программы сертификации

Блог компании RUVDS.com Big Data *Учебный процесс в IT Карьера в IT-индустрии

Перевод

Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).

Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.

Читать дальше →

+30

8.7K

rick1177 18 октября в 01:18

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем

Big Data *

Данный материал является, своего рода, рефератом, описывающим созданный продукт с применением инструмента Power BI, основанный на открытых статистических данных бухгалтерской отчётности предприятий России. В работе сделана попытка представить совокупность, как единым субъект, реагирующий на изменения, который, тем не менее, можно разложить на региональные составляющие и описывающие деятельность.

В статье показан полный цикл создания (сквозная задача), а также представлена возможность скачать и ознакомиться с продуктом.

Ознакомиться →

3.9K

Yersin_DBA 17 октября в 21:40

Расширение и перемещение ансамбля ZooKeeper

Администрирование баз данных *Big Data *

Из песочницы

Всех приветствую! Недавно перед нашей командой DBA предстала задача по перемещению ансамбля ZooKeeper на другие сервера. Проблема оказалась в том, что в просторах интернета нет доступного руководства для ZooKeeper версии 3.6.2 и выше. Нашлось руководство для версии 3.4.5, но таким образом расширить и переместить наш ансамбль мы не решились.

Может появиться вопрос: Почему нельзя просто переместить файлы на другой сервер и запустить ансамбль там? Наш ансамбль хранит данные по слиянию и реплицированию данных кластера Clickhouse.

896

kucev 15 октября в 15:04

Как размечать данные для машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

Что такое разметка данных?
Как она работает?
Какие оптимальные практики разметки данных существуют?
Как компании размечают свои данные?
Нужна ли мне платформа инструментария для разметки данных?

Читать дальше →

-2

2.7K

2 3 ...

49 50

Big Data *

Почему 87% проектов data science не добираются до продакшена?

Новости

Пять альтернатив Scale AI

ElasticSearch: отказоустойчивый сервер отказал

Кастомные агрегаторы в Spark SQL

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

Классификация кассовых чеков

Как мы собираем данные для аналитики с помощью Apache NiFi

Почему за автоматической разметкой данных будущее?

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Style transfer для сериала «Друзья»

Apache Hive: от модели распределённых вычислений MapReduce компании Google до Big Data – хранилища больших данных

Одержимость контролируемыми входными метриками

Готовим Json в Apache NiFi или снова Jolt Transform

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

Вот как Амазон измеряет свою эффективность

Data Science с нуля. Большая подборка курсов

Data Science: лучшие учебные курсы и программы сертификации

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем

Расширение и перемещение ансамбля ZooKeeper

Как размечать данные для машинного обучения

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги