Как стать автором
Обновить

Как организовать разметку данных для машинного обучения: методики и инструменты

Время на прочтение17 мин
Количество просмотров9.3K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии3

5 трендов в аннотировании данных в 2021 году

Время на прочтение3 мин
Количество просмотров2.1K

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →
Рейтинг0
Комментарии0

6 правил по обеспечению качества данных для машинного обучения

Время на прочтение6 мин
Количество просмотров4.8K
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

5 этапов, гарантирующих успешную разметку данных

Время на прочтение6 мин
Количество просмотров1.8K

Формирование бюджета, создание и масштабирование операций по разметке данных


Недооценка труда, необходимого для разметки данных — это распространённая ошибка, признаваемая даже тяжеловесами отрасли разработки ИИ. Большинство распространённых трудностей, с которыми AI/ML-компании сталкиваются в процессе разметки данных, сводится к неадекватному планированию. Эта проблема может принимать различные формы, например:

  • Почему мы потратили 100 тысяч долларов на этот набор данных?
  • Где набор данных, на создание которого у нас ушло пять месяцев?
  • Почему наш data scientist тратит по 40 часов в неделю на разметку данных?

К счастью, все эти трудности можно решить адекватным планированием. В этой статье мы вкратце изложим ключевые элементы хорошего планирования и прогнозирования. Их можно разбить на пять категорий:

  1. Установка целей
  2. Планирование проекта
  3. Оценка времени и затрат
  4. Оценка партнёров
  5. Назначение менеджера проекта

Читать дальше →
Рейтинг0
Комментарии3

Лучшие инструменты аннотирования для компьютерного зрения в 2021 году

Время на прочтение9 мин
Количество просмотров6.2K

Мы уже долгое время занимались регулярной публикацией обзоров лучших инструментов аннотирования на рынке. Радостно видеть, что экосистема всегда динамична, а у платформ аннотирования появляются всё более мощные функции.

Все наши обзоры совершенно честны и основаны на личном опыте аннотирования тысяч изображений и видео для различных проектов и областей применения.

В этом году мы хотим поделиться списком лучших инструментов для разметки и аннотирования в 2021 году (вне какого-либо порядка).

Как и в предыдущих списках, мы оценивали инструменты по следующим параметрам:

  • Функции
  • Автоматизация
  • Управление проектами
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Лучшие инструменты разметки изображений для компьютерного зрения 2020 года

Время на прочтение6 мин
Количество просмотров4.8K

В 2018 году мы опубликовали обзор лучших инструментов аннотирования, которыми регулярно пользуемся. Статью с энтузиазмом восприняли и профессионалы в сфере ИИ, и неспециалисты.

С нами даже связались несколько новых платформ, попросив провести бета-тестирование их инструментов и написать отзывы об UX и UI на основе нашего личного опыта управления крупномасштабными проектами разметки для ИИ.

С 2018 года произошёл большой прогресс в сфере платформ разметки, в том числе успешный фандрайзинг Labelbox, упрочивший его ведущую позицию в этой области, а также заявления о потрясающих новых функциях нашего любимого Supervise.ly, который мы продолжаем использовать в большинстве проектов.

Мы решили, что настало подходящее время для рассказа о самых потрясающих новых инструментах, появившихся за последнее время. В предыдущей статье мы оценивали продукты по следующим параметрам:

  • Цена
  • Функции
  • Управление проектами

Но решили, что стоит добавить ещё один:

  • Автоматизация

Ведь каждый из этих новых инструментов имеет отличные новые способы оптимизации ручного процесса аннотирования.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Время на прочтение5 мин
Количество просмотров7.1K

Мы постоянно находимся в поиске лучших платформ аннотирования, обеспечивающих широкую функциональность, имеющих инструменты управления проектами и оптимизацию процесса аннотирования (когда нужно аннотировать 50 тысяч изображений, важна экономия даже одной секунды на каждом).

На основании своего опыта работы с каждой из платформ мы делимся своими честными обзорами, надеясь, что они будут полезны дата-саентистам, которым необходимо вручную размечать свои данные.

Мы используем следующие критерии:

  1. Цена
  2. Разнообразие функций, инструментов и форматов
  3. Управление проектами и простота использования
Читать дальше →
Всего голосов 4: ↑3 и ↓1+5
Комментарии3

Аннотирование текста для машинного обучения

Время на прочтение7 мин
Количество просмотров6K

Несмотря на масштабный переход к цифровым технологиям, часть наиболее сложных данных по-прежнему хранится в виде текста в статьях или официальных документах. В условиях изобилия публично доступной информации возникают трудности с управлением неструктурированными сырыми данными и их преобразования в понятный для машин вид. С текстом это сделать сложнее, чем с изображениями и видео. Возьмём для примера простое предложение: «They nailed it!». Люди бы поняли его как выражение одобрения, подбадривания или признания заслуг, однако традиционная модель обработки естественного языка (Natural Language Processing, NLP), скорее всего, воспримет только поверхностное понимание слова, упустив смысл. А именно, она бы ассоциировала слово «nail» с забиванием гвоздей молотком. Точные аннотации текста помогают моделям лучше понимать передаваемые им данные, что приводит к безошибочной интерпретации текста.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Руководство по типам аннотирования изображений

Время на прочтение6 мин
Количество просмотров2.1K

Задаётесь вопросом, какой тип аннотирования изображений лучше всего подойдёт для вашего проекта?

Аннотирование изображений — одна из наших основных специальностей, и мы с радостью поделимся информацией о плюсах и минусах каждого типа: от простых ограничивающих прямоугольников до полномасштабной попиксельной семантической сегментации.

Учтите, что это руководство относится только к типу визуального аннотирования, но на уровне изображений или объектов можно создавать дополнительные метаданные. К ним относятся строки, числа, булевы значения, выбор одного или нескольких вариантов, и т.п. Например, ограничивающий прямоугольник для автомобилей в сцене может содержать такие метки, как цвет, производителя, регистрационный номер и т.д.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Разметка медицинских данных (DICOM) в Computer Vision Annotation Tool

Время на прочтение8 мин
Количество просмотров5.4K

Привет,

Мы хотим поделиться небольшой историей, почему наша команда разработки Computer Vision Annotation Tool заинтересовалась поддержкой разметки медицинских данных и какие трудности возникли в процессе, а также покажем, почему отзывы и детально описанные пользователями задачи играют важную роль в процессе разработки.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии2

Топ-5 инструментов для разметки данных в 2021 году

Время на прочтение9 мин
Количество просмотров12K

Программы для разметки данных (data labeling) необходимы для прокачки машинного обучения и создания обучающих наборов данных. Поэтому мы решили изучить наилучшие решения из этой области, имеющиеся сегодня на рынке.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии1

7 способов получить качественные размеченные данные для машинного обучения

Время на прочтение6 мин
Количество просмотров5K
Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.


При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Читать дальше →
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Как размечать данные для машинного обучения

Время на прочтение6 мин
Количество просмотров11K

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

  • Что такое разметка данных?
  • Как она работает?
  • Какие оптимальные практики разметки данных существуют?
  • Как компании размечают свои данные?
  • Нужна ли мне платформа инструментария для разметки данных?
Читать дальше →
Всего голосов 6: ↑1 и ↓5-2
Комментарии0

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

Время на прочтение5 мин
Количество просмотров1.1K

CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)

Компьютерное зрение становится всё важнее для различных промышленных сфер, от слежения за строительными работами до реализации умного сканирования штрих-кодов на складах. Однако обучение искусственного интеллекта точному распознаванию изображений может быть медленным и затратным трудом, не гарантирующим результаты. Молодой немецкий стартап Hasty стремится помочь в решении этой задачи, обещая предоставить инструменты нового поколения, способные ускорить весь процесс аннотирования изображений для обучаемой модели.

Основанный в 2019 году в Берлине Hasty заявляет сегодня, что ему удалось получить 3,7 миллиона долларов в первом раунде финансирования, проведённом Shasta Ventures. Эта венчурная фирма из Кремниевой долины провела уже множество значимых выводов: Nest (куплен Google), Eero (куплен Amazon) и Zuora (IPO). Другими участниками раунда стали iRobot Ventures и Coparion.
Читать дальше →
Рейтинг0
Комментарии0

Почему за автоматической разметкой данных будущее?

Время на прочтение5 мин
Количество просмотров3.7K

Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.
Читать дальше →
Рейтинг0
Комментарии2

Пять альтернатив Scale AI

Время на прочтение6 мин
Количество просмотров2.3K
Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.


Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Способы обеспечения качества данных для машинного обучения

Время на прочтение15 мин
Количество просмотров8.1K
Данные — это душа каждой модели машинного обучения. В этой статье мы расскажем о том, почему лучшие команды мира, занимающиеся машинным обучением, тратят больше 80% своего времени на улучшение тренировочных данных.


Точность ИИ-модели напрямую зависит от качества данных для обучения.

Современные глубокие нейронные сети во время обучения оптимизируют миллиарды параметров.

Но если ваши данные плохо размечены, это выльется в миллиарды ошибочно обученных признаков и многие часы потраченного впустую времени.

Мы не хотим, чтобы такое случилось с вами. В своей статье мы представим лучшие советы и хитрости для улучшения качества вашего датасета.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии1

Оптимизация разметки данных с помощью активного обучения

Время на прочтение7 мин
Количество просмотров1.9K

Подавляющее большинство инструментов глубокого обучения позволяет нам быстро создавать новые приложения с потрясающей производительностью, от программ компьютерного зрения, классифицирующих сложные объекты по фотографиям, до анализаторов естественного языка при помощи извлечения семантики из текстов. Однако самым серьёзным узким местом всех этих методик является огромное количество данных, необходимое для обучения моделей — обычно сотни тысяч примеров для обучения.

Если вы приступаете к созданию с нуля классификатора изображений, допустим, для распознавания несвежих продуктов на конвейерной ленте, для сбора и ручной разметки всех этих фотографий вам понадобятся недели или месяцы. К счастью, существует множество глубоких нейронных сетей, уже обученных на больших массивах данных фотографий с большим количеством классов. Они позволяют устранить проблему «холодного запуска». Идея, лежащая в основе трансферного обучения заключается в использовании результатов работы этих моделей, фиксирующих высокоуровневую семантику изображений, в качестве входящих данных для новых классификаторов, решающих требуемую задачу. Это значительно уменьшает объём данных, которые нужно аннотировать вручную — с сотен тысяч до тысяч.

Однако аннотирование даже тысяч примеров может быть затратной задачей, особенно если для выполнения задачи по аннотированию требуется навыки специалиста в соответствующей области. В идеале достаточно было бы разметить только несколько сотен задач и позволить конвейеру машинного обучения самообучаться без контроля. Эта задача также называется бюджетированное обучение (budgeted learning): мы выделяем сумму денег на приобретение набора данных обучения для создания модели с нужной производительностью. Ещё одна проблема связана с дрейфом концепции, при котором целевая задача со временем меняется (на линию распознавателя поступают новые продукты) и показатели прогнозирования без вмешательства человека деградируют.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Как избавиться от проблем при разметке данных для обучения ML моделей?

Время на прочтение8 мин
Количество просмотров2K

Введение


Потребность в аннотировании данных растёт из-за роста популярности машинного обучения. Только люди способны создать эталонную разметку, которая необходима для обучения модели. Работа аннотатора очень неблагодарна, монотонна и иногда сложна. Работа менеджера проекта по аннотированию, руководящего проектом с тысячами, а иногда и с миллионами объектов, тоже может быть тяжёлой. Кроме того, с увеличением объёмов данных проблема становится всё более комплексной.

Аннотирование очень быстро может превратиться в серьёзную преграду. В этой статье мы рассмотрим инструменты и процессы, позволяющие избежать головной боли при работе с проектом разметки данных.
Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Почему я изменил своё мнение о слабой разметке для ML

Время на прочтение9 мин
Количество просмотров4.1K

Когда чуть больше года назад я впервые услышал о слабой разметке, то поначалу отнёсся к ней скептически. Суть слабой разметки (weak labelling) заключается в том, что можно заменить аннотированные вручную данные на данные, созданные по эвристическим правилам, написанным специалистами в соответствующей области. Мне это показалось совершенно нелогичным. Если можно создать очень хорошую систему на основе правил, то почему бы просто не использовать эту систему? А если правила недостаточно хороши, то разве не будет плохой и модель, обученная на шумных данных? Это казалось мне возвратом в мир конструирования признаков, которому должно было прийти на смену глубокое обучение.

Однако за последний год моё отношение полностью переменилось. Я поработал над множеством NLP-проектов, в которых было задействовано извлечение данных, и намного сильнее углубился в изучение литературы про обучение со слабым контролем. Также я пообщался с руководителями команд ML в таких компаниях, как Apple, где услышал истории о том, как целые системы заменяли за считанные недели — благодаря сочетанию слабого контроля и машинного обучения им удавалось создать обширные наборы данных для языков, ресурсов по которым было мало и которые раньше попросту не обслуживались!

Поскольку теперь я обладаю энтузиазмом новообращённого, мне хочется рассказать о том, что такое слабый контроль, чему я научился и почему, на мой взгляд, в области аннотирования данных он дополняет такие техники, как активное обучение.
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии6