Как стать автором
Обновить
41.55
Рейтинг

Big Data *

Большие данные и всё о них

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Data Mining*Обработка изображений*Big Data*Машинное обучение*
Перевод

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

  • Цена
  • Функции
  • Управление проектами

Но решили, что стоит добавить ещё один:

  • Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Просмотры1.1K
Комментарии 0

Экосистема ваших Big Data-кластеров из решении Apache в Docker-контейнерах на Linux-машинах

Open source*Big Data*DevOps*Hadoop*Data Engineering*

Недавно в своей работе начал практиковаться с Hadoop, Spark и Hive от Apache на примере организации распределенного хранилища данных в крупном и сложном проекте. Так как я хорошо дружу с Linux и вселенной Docker, только одна команда позволит не мучиться с лишней установкой Big Data-решении от Apache, не нагружая при этом свою Linux-машину(при наличии Docker и Docker-Compose).

Читать далее
Всего голосов 5: ↑0 и ↓5-5
Просмотры1.1K
Комментарии 7

Последние обновления моделей распознавания речи из Silero Models

Big Data*Машинное обучение*Развитие стартапаNatural Language Processing*Голосовые интерфейсы

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;
Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Просмотры849
Комментарии 0

Битва за условное форматирование: дополняем стандартный функционал Power BI

Big Data*Визуализация данныхСтатистика в IT
Из песочницы

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Просмотры1.8K
Комментарии 0

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Data Mining*Обработка изображений*Big Data*Машинное обучение*Управление персоналом*
Перевод

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

  • Функции
  • Автоматизация
  • Управление проектами
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Просмотры1.7K
Комментарии 0

Вебинар «Deploying deep learning models with Kubernetes and Kubeflow»

Big Data*Машинное обучение*КонференцииDevOps*Искусственный интеллект

Команда Data Phoenix Events приглашает всех завтра, 8 сентября в 17:00, на третий вебинар из серии "The A-Z of Data", который будет посвящен деплою deep learning моделей при помощи Kubernetes и Kubeflow.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Просмотры405
Комментарии 1

ClickHouse: Путь джедая, искавшего дом для своих данных

Блог компании Туту.руBig Data*Хранение данных*

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

Читать далее
Всего голосов 27: ↑26 и ↓1+25
Просмотры5K
Комментарии 8

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Блог компании IT-PeoplePython*Big Data*Конференции

В первой части статей о python-культуре мы писали про Тинькофф, а в этот раз решили рассказать о компании, в которую инженеры приходят, чтобы решать действительно сложные задачи, например, применение AI для распознавания болезней.

В Provectus, по умолчанию, считается, что задача будет выполнена в срок, и никто принципиально не стоит над душой и не спрашивает статус в течение дня или даже недели. Здесь общий код и инфраструктура. Каждый может создавать свои проекты на Github. И такая инициатива зачастую перерастает в реальные большие проекты, которые начинают монетизироваться. Что такое здоровая атмосфера в компании и правильная инженерная культура? Прочитайте, как их понимают и создают в Provectus - герое сегодняшней статьи.

Читать далее
Всего голосов 2: ↑1 и ↓10
Просмотры4.4K
Комментарии 0

Ассоциативные связи

Программирование*Анализ и проектирование систем*Совершенный код*IT-инфраструктура*Big Data*

Что такое идеальный "квант информации" или "минимальная единица смысла" и зачем задаваться этим вопросом? С этим связано много боли, часто даже не осознаваемой. Мы предлагаем решение, но сначала нужно разобраться для чего это нужно. Рекомендуем ознакомиться с первой статьёй в серии.

Одна Связь, чтоб править всеми
Всего голосов 8: ↑3 и ↓5-2
Просмотры1.7K
Комментарии 8

Фактор рефакторинга

Анализ и проектирование систем*API*Big Data*Data Engineering*
Из песочницы

Код зависим от данных и моделей, а значит от абстракций используемых в них, поэтому рефакторинг неминуем сегодня. Почему? Обычно под рефакторингом подразумевают реорганизацию кода из соображений необходимости использовать данные по-новому. Мы поговорим о самом частом и нелюбимом типе рефакторинга - лавинообразный рефакторинг, возникающий при изменениях в моделях данных, структурах таблиц и бизнес логике.

Это те дроиды, которых вы ищете
Всего голосов 19: ↑12 и ↓7+5
Просмотры4K
Комментарии 36

ИБП для медицинских учреждений

Блог компании EatonИнформационная безопасность*IT-инфраструктура*Big Data*Интернет вещей

В отделениях реанимации жизни пациентов зависят не только от компетентности врачей и наличия лекарств, но и от качества электропитания. Перебои не должны сказываться на работе аппаратов искусственного дыхания и другого оборудования. По этой причине к электроснабжению медицинских объектов предъявляются особые требования. С возросшей нагрузкой на медицинскую систему в связи с пандемией эта проблема получила новую актуальность.

Читать далее
Всего голосов 21: ↑0 и ↓21-21
Просмотры2.8K
Комментарии 8

Управление сложностью legacy-кода в Big Data проектах с помощью инструмента Datalog

Блог компании NeoflexApache*Big Data*
Самый простой Big Data проект сложнее проекта из мира привычного ПО. Имеется ввиду не сложность собственно алгоритмов или архитектуры, но анализа того, что представляет собой проект, как он работает с данными, как собирается та или иная витрина, какие для нее берутся данные.

Например, нужно решить такую задачу:

  1. Загрузить таблицу из Oracle;
  2. Посчитать в ней сумму по какого-нибудь полю, сгруппировав по ключу;
  3. Результат сохранить в витрину в Hive.

Набор инструментов будет выглядеть примерно так:

  • Oracle
  • Apache Sqoop
  • Oozie
  • Apache Spark
  • Hive

Простая задача неожиданно приводит к появлению проекта, включающего три независимых инструмента с тремя независимыми папками исходных файлов. И как понять – что происходит в проекте?

Если рассмотреть более типичный случай, то набор артефактов простого проекта в Big Data представляет собой:

  • SH управляющие файлы;
  • Sqoop скрипты;
  • набор Airflow Dag или Oozie Workflow;
  • SQL скрипты собственно преобразований;
  • Исходники на PySpark или Scala Spark;
  • DDL скрипты создания объектов.

Также, особенностью является то, что если пользоваться Cloudera или Hortonworks, то среда не предоставляет удобных средств разработки и отладки.

Облачные среды, такие как AWS или Azure, предлагают все делать в их оболочке, объединяющей все требуемые артефакты в удобном интерфейсе.

Вот, например, картинка с сайта Microsoft Azure:



Но это если есть AWS или Azure. А если есть только Cloudera?

Как ответить на вопрос – что, собственно, в проекте написано? При этом этот вопрос крайне интересует и заказчика тоже, так как в случае обычного ПО ему все равно то, как всё устроено внутри, а в случае с Big Data заказчику важно понимать, что данные получаются правильно.
В мире обычного программирования есть набор паттернов, подходов, применение которых позволяет структурировать код. А как структурировать код, представляющий из себя зоопарк независимых SQL-файлов, SH-скриптов вперемешку с Oozie Workflow?
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Просмотры876
Комментарии 8

Как мы в SIGIR-соревновании участвовали

Блог компании TINKOFFData Mining*Алгоритмы*Big Data*Машинное обучение*

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Просмотры961
Комментарии 0

Аудит в CDP Private Cloud Base с использованием внешних систем

Блог компании ClouderaBig Data*Хранение данных*Hadoop*Data Engineering*

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Просмотры160
Комментарии 0

6 правил по обеспечению качества данных для машинного обучения

Data Mining*Big Data*Машинное обучение*КраудсорсингСофт
Перевод
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Просмотры1.9K
Комментарии 0

DataScience Digest — 31.08.21

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning подготовленный командой Data Phoenix и не забывайте подписываться на наш Telegram-канал.

Также хочу пригласить всех на сентябрьские вебинары, которые мы проводим в рамках серии "The A-Z of Data":

- 8 сентября - Deploying deep learning models with Kubernetes and Kubeflow
- 16 сентября - Re-usable pipelines for ML projects with DVC
- 22 сентября - From research to product with Hydrosphere

Буду рад видеть всех на наших трансляциях, присоединяйтесь!

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Просмотры1.1K
Комментарии 0

5 этапов, гарантирующих успешную разметку данных

Data Mining*Обработка изображений*Big Data*Машинное обучение*Управление персоналом*
Перевод

Формирование бюджета, создание и масштабирование операций по разметке данных


Недооценка труда, необходимого для разметки данных — это распространённая ошибка, признаваемая даже тяжеловесами отрасли разработки ИИ. Большинство распространённых трудностей, с которыми AI/ML-компании сталкиваются в процессе разметки данных, сводится к неадекватному планированию. Эта проблема может принимать различные формы, например:

  • Почему мы потратили 100 тысяч долларов на этот набор данных?
  • Где набор данных, на создание которого у нас ушло пять месяцев?
  • Почему наш data scientist тратит по 40 часов в неделю на разметку данных?

К счастью, все эти трудности можно решить адекватным планированием. В этой статье мы вкратце изложим ключевые элементы хорошего планирования и прогнозирования. Их можно разбить на пять категорий:

  1. Установка целей
  2. Планирование проекта
  3. Оценка времени и затрат
  4. Оценка партнёров
  5. Назначение менеджера проекта

Читать дальше →
Рейтинг0
Просмотры991
Комментарии 3

Анализ вакансий и зарплат в Data Science

Блог компании Open Data ScienceBig Data*Машинное обучение*Карьера в IT-индустрииИскусственный интеллект

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

Читать далее
Всего голосов 35: ↑34 и ↓1+33
Просмотры16K
Комментарии 16

Airbyte для управления потоками данных –  репликация Яндекс.Метрика в S3

Блог компании OTUSBig Data*Data Engineering*

Современные Data Pipelines превратились в commodity наподобие электричества в розетке – они просто должны быть и функционировать, обеспечивая базовые потребности аналитиков и инженеров. 

Множество компаний, таких как Fivetran, Hevo, Alooma, сегодня зарабатывают на предоставлении Data Pipelines / Integration как сервис. Наряду с очевидными преимуществами, основными недостатками являются закрытый исходный код и отсутствие возможности быстро добавлять новые коннекторы.

В этой публикации на примере репликации данных открытого счетчика Яндекс.Метрика в объектное хранилище S3 я познакомлю вас с Airbyte – решением с открытым исходным кодом. Это новый стандарт для выстраивания потоков интеграции данных из всевозможных приложений, баз данных и API в аналитические хранилища данных, озера данных.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Просмотры927
Комментарии 3

5 трендов в аннотировании данных в 2021 году

Data Mining*Big Data*Машинное обучение*Управление персоналом*Софт
Перевод

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →
Рейтинг0
Просмотры999
Комментарии 0

Вклад авторов