Как стать автором
Обновить
230.92
Рейтинг

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

5 трендов в аннотировании данных в 2021 году

Data Mining*Big Data*Машинное обучение*Управление персоналом*Софт
Перевод

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →
Рейтинг0
Просмотры618
Комментарии 0

Новости

Показать еще

Оценка коммерческой недвижимости с точки зрения технологий: Machine Learning, методика и другие нюансы

Блог компании РайффайзенбанкBig Data*ХакатоныМашинное обучение*Конференции

Привет, Хабр! Меня зовут Дмитрий Раевский, я дата-сайентист в Райффайзенбанке, занимаюсь цифровизацией кредитов и кредитного контроля. Сегодня я хочу рассказать про оценку коммерческой недвижимости — объектов, которые используются для извлечения прибыли. Поскольку мы на Хабре, то разговор пойдет не об оценке в вакууме, а о привлечении технологий для решения этой задачи. 

Мой рассказ я решил разделить на два смысловых раздела. В первом немного расскажу об оценке коммерческой недвижимости как задаче — что это, для чего нужно, как выполняется, какие есть сложности и т.п. Во втором — покажу, как эту задачу можно решить при помощи технологий. И бонусом — анонсирую большой хакатон по оценке коммерческой недвижимости от Райффайзенбанка.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Просмотры679
Комментарии 0

Статья для тех, кто не попал на Летнюю школу по компьютерному зрению

Блог компании IntelПрограммирование*Обработка изображений*Машинное обучение*Учебный процесс в IT

Полноценных школ по компьютерному зрению, таких, чтобы участники могли получить опыт от разработчиков алгоритмов из крупных технологических компаний, осталось очень немного. В этом плане больше всего повезло студентам из Нижнего Новгорода, ведь каждое лето силами преподавателей Университета Лобачевского и инженеров компании Intel проводится Computer Vision Summer Camp - Летняя школа по компьютерному зрению. А для тех, кому не удалось на нее попасть, мы расскажем самое важное и интересное…

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Просмотры1.3K
Комментарии 0

Вебинар «The A-Z of Data: From research to product with Hydrosphere»

Big Data*Машинное обучение*КонференцииDevOps*Искусственный интеллект

Команда Data Phoenix Events приглашает всех, 31 августа в 19:00, на третий технический вебинар из серии "The A-Z of Data", который будет посвящен превращению исследования в продукт с использование Hydrosphere.

Читать далее
Рейтинг0
Просмотры187
Комментарии 1

Особенности валидации моделей на Xgboost

Python*Программирование*Машинное обучение*

Машинное обучение все чаще используется аналитиками для упрощения работы при решении текущих задач, для реализации новых проектов или для выявления каких-либо ошибок и отклонений.

На данный момент одной из лидеров в машинном обучении для многих задач является библиотека XGBoost, основанная на алгоритме дерева решений и реализующая методы градиентного бустинга. Почему? Библиотека наиболее эффективна при построении моделей предсказания на структурированных больших данных, XGBoost поддерживает реализацию на Hadoop, имеется встроенная регуляризация и правила для обработки пропущенных значений, а также с помощью множества настроек можно улучшать качество прогнозирования модели за кратчайшие сроки, ведь имеется возможность параллельной обработки.

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Просмотры839
Комментарии 0

Краткий обзор исследования «News recommender system: a review of recent progress, challenges, and opportunities»

Машинное обучение*
Из песочницы

По итогам прочтения статьи «News recommender system: a review of recent progress, challenges, and opportunities» написал тут небольшие заметки о наиболее интересных, с моей точки зрения, моментах этого исследования.

Излишне говорить о важности систем рекомендации новостей, не буду пересказывать статистику о том, как вокруг нас растёт информационный поток, но надо отметить, что в дополнение к этому росту сейчас также довольно остро встаёт проблема fake news, что делает задачу персонализации новостной ленты еще более важной и требует применения подходом, когда анализируется не только meta-информация о контенте (что сейчас применяется в большинстве движков) но и сам контент, который становится все больше мультимодальными (представляет собой текст, аудио или изображение/видеоряд).

NRS (news recommendation system), так же как и рекомендательная система для любого другого контента имеет свои особенности, сложности и вызовы. Как отдельная доменная область, новости имеют особенности.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Просмотры328
Комментарии 0

Что там в Университете ИТМО: новые технологии, разработки, приложения и проекты ученых — подборка материалов

Блог компании Университет ИТМОХранение данных*Машинное обучение*Учебный процесс в ITРобототехника

На днях мы продолжили делиться на Хабре нашими открытыми проектами, поговорили о проблемах, связанных с продвижением технологических продуктов, и начали обсуждать исследование «публичного образа» Санкт-Петербурга. Сегодня мы подобрали дополнительные материалы о достижениях и работе ученых, специалистов, аспирантов, магистров и других представителей Университета ИТМО.

Читать далее
Всего голосов 12: ↑11 и ↓1+10
Просмотры2.9K
Комментарии 1

Как прогнозные модели сокращают количество отказов и преждевременных ремонтных работ

Блог компании Factory5Big Data*Машинное обучение*

Разбираем, что такое прогнозные модели, как они устроены и почему им можно доверить вашу технику — на примере прогнозной модели для масляного насоса дизель-генераторной установки тепловоза.

Масляный насос — важный элемент оборудования, который отвечает за непрерывную подачу масла в двигатель и за его циркуляцию. От работы насоса зависит срок жизни двигателя, расход топлива и уровень вредных выбросов. О неисправности узла может говорить повышенный расход масла, а также снижение или рост давления масла в двигателе. Однако выявлять потенциальную проблему лучше до таких проявлений — это снизит расходы на ремонт, а также случаи выхода техники из строя и остановки производственного процесса. 

Крупная сервисная компания попросила нас разработать систему, которая поможет оценивать состояние масляных насосов дизель-генераторных установок тепловозов. Рассказываем, какой инструмент применили для анализа, как собирали данные и какие получили результаты.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Просмотры2K
Комментарии 2

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Блог компании OTUSPython*Машинное обучение*
Перевод

Специалисты по анализу данных часто оценивают свои прогностические модели с точки зрения точности и погрешности, но редко спрашивают себя:

«Способна ли моя модель спрогнозировать реальные вероятности?»

Однако точная оценка вероятности чрезвычайно ценна с точки зрения бизнеса (иногда она даже ценнее погрешности). Хотите пример?

Представьте, что ваша компания продает два вида кружек: обычные белые кружки и кружки с котятами. Вам нужно решить, какую из кружек показать клиенту. Для этого нужно предсказать вероятность того, что пользовать может купить ту или другую кружку. Вы обучили пару моделей и у вас есть следующие результаты:

Читать далее
Всего голосов 14: ↑13 и ↓1+12
Просмотры2.9K
Комментарии 1

Рекомендательные системы: проблемы и методы решения. Часть 2

Блог компании PrequelАлгоритмы*Машинное обучение*Искусственный интеллект

Привет! Меня зовут Екатерина Ванская, и я занимаюсь data science в компании Prequel. В этой статье я продолжу обзор рекомендательных алгоритмов, которым мы начали в предыдущем моем материале

(вот ссылка на первую часть).

Область рекомендаций усложняется по мере расширения сферы ее применения, с каждым новым вызовом и нюансом использования. По мере увеличения объемов данных и усложнения задач появлялись новые подходы, отличные от рассмотренных ранее простых коллаборативных моделей.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Просмотры1.4K
Комментарии 6

NLP At Scale: вся правда о предобученных моделях в Почте Mail.ru (часть 1)

Блог компании Mail.ru GroupСпам и антиспамИнформационная безопасность*Машинное обучение*

Антиспам Почты Mail.ru — это симбиоз продуктовой логики и инфраструктурных технологий, про который мы решили более подробно рассказать. В основе конечно же лежит инфраструктура, с помощью которой мы получаем возможности для развития моделей машинного обучения, а также платформа ядра, которая обеспечивает работу антиспама в онлайне. Продуктовая логика представлена в виде большого количества эвристик (куда без них) и ручных правил. На вершине продуктовой пирамиды пребывает стек моделей машинного обучения, хотя положение на вершине в данном случае достаточно условно.

В этой статье мы заберемся на эту вершину, где в последнее время часто вбивают новые колышки текстовые модели. Мы спроецируем мир текстовых ML-моделей на наш сервис, поговорим про эволюцию и решение задач Почты, связанных с текстами. Запасайтесь кислородом и свободным временем.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Просмотры916
Комментарии 6

Вебинар «The A-Z of Data: Monitoring ML Models in Production»

Big Data*Машинное обучение*КонференцииDevOps*Искусственный интеллект

Команда Data Phoenix Events приглашает всех, 25 августа в 19:00, на второй технический вебинар из серии "The A-Z of Data", который будет посвящен мониторингу ML моделей в продакшене.

Читать далее
Рейтинг0
Просмотры338
Комментарии 0

Нейросети против пылесоса, или Как мы убрали лишний шум в звонках ВКонтакте

Блог компании ВКонтактеПрограммирование*Алгоритмы*Машинное обучение*Искусственный интеллект

Как-как, с помощью магии нейронок, конечно. А если серьёзно, то в этой статье расскажем, как эволюционировали технологии шумоподавления и улучшения речи, какие есть варианты, чтобы собрать своё решение, и какой сетап получился у нас.

Читать далее
Всего голосов 27: ↑27 и ↓0+27
Просмотры4.2K
Комментарии 16

FineReader, Tesseract и EasyOCR или нужно ли срочно менять инструмент для OCR

Python*Программирование*Машинное обучение*

По сравнению со старшими товарищами, EasyOCR очень молодой проект, но с большими амбициями. В статье приводится сравнение качества работы, удобства работы, особенности установки и производительности трёх инструментов.

Одна из популярных задач в аудиторской практике – распознавание текста с документов. Казалось бы, инструменты для решения этой задачи давно известны, всё работает и ничего больше особо и не хочется: бесплатно и руками – Tesseract, платно и легко в использовании – FineReader.

Однако, недавняя статья удивила меня качеством работы и удобством использования инструмента EasyOCR. Разберёмся, насколько всё хорошо в сравнении с самыми популярными инструментами на примере нескольких задач и сравним удобство использования каждого инструмента.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Просмотры3.2K
Комментарии 18

Большие данные и математические алгоритмы в руках коммерсанта

Блог компании М.Видео-ЭльдорадоАнализ и проектирование систем*Big Data*Машинное обучение*Data Engineering*

Вы когда-нибудь задумывались, почему на полках любых магазинов — от гипермаркетов электроники до гастрономов — стоят именно эти товары и именно в такой последовательности? А Категорийные Менеджеры (и дата-сайентисты, кстати) думают об этом постоянно. Сегодня мы расскажем, как в М.Видео-Эльдорадо использовали искусственный интеллект для заполнения полок и изучили потребности клиентов при управлении ассортиментом.

Читать далее
Всего голосов 28: ↑28 и ↓0+28
Просмотры3.3K
Комментарии 3

Как я запускал классификацию изображений на домашнем кластере Apache Ignite ML

Java*Apache*Машинное обучение*
Из песочницы

Я - студент университета, знаком с машинным обучением в рамках пройденного курса, есть интерес к современным кластерным технологиям, конкретно - к Apache Ignite. Под катом — история о том, как я запускал пример OneVsRestClassificationExample из дистрибутива.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Просмотры1.9K
Комментарии 2

KELM — внедряя графы знаний в корпус для предварительного обучения языковой модели

Машинное обучение*
Перевод

Большие предобученные модели для обработки естественного языка (Natural Language Processing, NLP), такие как BERT, RoBERTa, GPT-3, T5 и REALM, использующие корпусы полученных из Интернета текстов на естественном языке и тонко настроенные под конкретную задачу, добились значительных успехов в различных NLP задачах. Однако текст на естественном языке сам по себе представляет собой достаточно ограниченный набор знаний, а факты могут быть выражены множеством разных слов. Более того, обилие информации, неподкрепленной фактами, а также токсичное содержание текстов может в результате стать причиной наличия нежелательной предвзятости в итоговых моделях.


Альтернативным источником информации являются графы знаний (Knowledge Graphs, KGs), которые состоят из структурированных данных. Графы знаний фактологичны по своей природе, поскольку информация обычно извлекается из более авторитетных источников, и последующая пост-обработка и ручная редактура позволяют гарантировано избавиться от неприемлемого или некорректного содержания. Таким образом, модели, которые могут включить в себя графы знаний, обладают преимуществом, связанным с большей достоверностью и сниженной токсичностью. Однако структурированный формат графов осложняет их интеграцию в существующие корпуса для предварительного обучения языковых моделей.

Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Просмотры857
Комментарии 4

Расчёты для солнечных батарей в 200 раз быстрее, архитектура мозга для искусственной нейросети, тесты беспилотников

Блог компании SkillFactoryМашинное обучение*Читальный залМозгБудущее здесь

К старту курса о машинном и глубоком обучении делимся подборкой новостей последних недель из мира ML о том, какой компромисс между желанием получить данные и высокой стоимостью МРТ нашли исследователи, об огромном ускорении расчётов в области материалов солнечных батарей, и о том, в каких случаях ИИ не нужны большие объёмы данных. Подробности и другие новости вы найдёте под катом.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Просмотры4.2K
Комментарии 0

Code Completion. Часть 2: зачем тут машинное обучение?

Блог компании JetBrainsМашинное обучение*

В первой части мы сформулировали, из каких компонентов состоит система автодополнения, обсудили способы ее использования и требования к качеству. Теперь давайте разберемся, зачем там нужно машинное обучение.

Казалось бы, страшно выбрасывать работающий код и заменять его машиннообученным бинарником, который жрет память, может замедлить работу IDE, да еще не вдруг и отладишь его, если что-то пошло не так.

В нашем случае «работающий код» — это эвристики, жесткие правила. Они отлично работают, пока их не очень много и они не конфликтуют между собой. Давайте рассмотрим такие правила подробнее и разберемся, откуда берутся конфликты.

Как на самом деле работают подсказки
Всего голосов 15: ↑15 и ↓0+15
Просмотры1.4K
Комментарии 3

Структура + предположения > ML? Моделирование продаж байесовскими методами

Блог компании EPAMPython*Big Data*Машинное обучение*Управление продажами*

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.

Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок. ​

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Просмотры1.4K
Комментарии 1

Вклад авторов