Data Mining *

Глубинный анализ данных

kucev 13 августа в 11:30

Как организовать разметку данных для машинного обучения: методики и инструменты

Data Mining*Обработка изображений*Big Data*Машинное обучение*Краудсорсинг

Перевод

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.

Читать дальше →

1.7K

rawoak 12 августа в 10:00

Парсинг Instagram в промышленных масштабах

Python*Data Mining*NoSQL*Администрирование баз данных*Облачные сервисы

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!

+13

5.7K

AlekseyKorshuk 10 августа в 08:31

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

Python*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

В этой статье я расскажу о том, как создавался проект HuggingArtists и что у него под капотом.
Мне будет очень приятно, если вы поставите сразу звезду в репозитории:

Читать дальше →

1.1K

Da7n 8 августа в 17:54

Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

Python*Типографика*КодобредData Mining*Алгоритмы*

Всем привет!

В этой статье я расскажу, как я автоматически генерировал 42 стикера для Телеграма на основе изображений из интернет-магазина плакатов. На сайте продаются плакаты с разными забавными надписями, но соответствующих стикеров в Телеграме нет. Попробуем сделать сами. Единственная проблема состоит в следующем: чтобы сделать один стикер, нужно скачать фотографию плаката с сайта, отделить надпись от фона в фотошопе и сохранить в нужном разрешении, чтобы она соответствовала требованиям телеграма к стикерам. Поскольку изображений 42, это муторное и трудоемкое занятие.

Давайте автоматизируем

+11

3.4K

aarmaageedoon 6 августа в 16:11

Обзор методов чистки данных

Блог компании МТСData Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции шума и, в целом, занимаюсь подготовкой и обработкой датасетов.

В этой статье будут рассмотрены методы чистки данных – noise reduction – и результаты тестирования алгоритмов.

Чистка данных – значение и применение

Чистка данных – это процесс удаления шума из датасетов, который появляется в результате неправильно размеченных примеров. Источники такого шума могут быть разными: случайные ошибки аннотатора – человека или машины, которые размечают данные в соответствии с задачей, – неслучайные ошибки из-за плохого понимания задачи или двусмысленного примера, ошибки автоматической разметки.

Несмотря на то, что существует много способов разметки и контроля качества данных, подобный шум всегда будет присутствовать в датасетах. В задачах классификации одна из причин шума – невозможность однозначно провести границу между классами. Для большинства современных моделей наличие шума в данных объемом до 10% – несерьезная проблема. Поэтому, если датасет создан грамотно или найденный набор данных надежен, результат будет удовлетворительным.

Но что делать, если нужно решить специфическую задачу, для которой доступен только один датасет сомнительного качества? Или вам недоступны средства для качественной разметки, вы вынуждены размечать данные вручную и хотите проверить себя? На помощь придут алгоритмы чистки данных.

3.4K

kucev 6 августа в 14:13

7 способов получить качественные размеченные данные для машинного обучения

Data Mining*Обработка изображений*Big Data*Машинное обучение*Краудсорсинг

Перевод

Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.

При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.

Читать дальше →

2.3K

Igor_Za 30 июля в 10:12

Зачем роботам делать выбор за вас

Блог компании СберАнализ и проектирование систем*Data Mining*Управление проектами*

Как только мы слышим про массовую персонализацию, мы сразу представляем себе тонну рекламы, которая нам не нужна. На самом деле, это история про то, как алгоритмы уронили цену для персонализации продукта. Раньше вы могли себе позволить персонального менеджера, персональные договоры и условия только для очень крупных клиентов. Сейчас это можно предложить каждому.

У вас в почте лежит бронь на отель, а в календаре деловые встречи? Вот координаты ближайших удобных мест с бизнес-ланчами, где можно провести встречи. И скидка. Железяка по нескольким метрикам вычислит деловую цель поездки и не будет предлагать вам конные прогулки вместе с билетами в кино. В идеальном варианте робот отберёт у вас выбор, но вам это понравится. Приложение вовремя подсунет кнопку для вызова такси и за день до встречи предложит услуги экспресс-глажки костюма в ближайшей химчистке. Система адаптируется к вашим паттернам и предлагает вам именно то, что лучше укладывается в ваш поведенческий профиль. Например, провести платёж по ипотеке в нужную дату с напоминанием или при снятии денег в банкомате предложить вам ровно сумму на две пинты Гиннесса, которые вы берёте в баре каждую пятницу.

+11

2.1K

Syurmakov 29 июля в 21:11

Дайджест новостей искусственного интеллекта и машинного обучения за июль

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Привет, Хабр! Давно не виделись.

Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июнь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июнь:

1. Прошли успешные испытания первого нейроимпланта, превращающего мысли в слова

Прочитать весь дайджест

4.4K

kucev 29 июля в 12:58

Топ-5 инструментов для разметки данных в 2021 году

Data Mining*Обработка изображений*Big Data*Машинное обучение*

Перевод

Программы для разметки данных (data labeling) необходимы для прокачки машинного обучения и создания обучающих наборов данных. Поэтому мы решили изучить наилучшие решения из этой области, имеющиеся сегодня на рынке.

2.8K

art-glazunov 25 июля в 21:23

«От категорий к векторам» или нестандартное кодирование категориальных данных. Часть 1

Блог компании МегаФонData Mining*Big Data*Машинное обучение*Data Engineering*

Tutorial

Привет, Хабр! С вами Артём, аналитик больших данных МегаФона. На работе занимаюсь рекомендательными системами и интересуюсь NLP. Эти две вещи и привели меня к рассматриваемой тут теме, так что садитесь поудобнее, и поехали. Кстати, к статье прилагается код, ищите ссылки внутри.

В путь

1.9K

NeoKamI 22 июля в 10:15

Tableau: визуализация данных для каждого

Блог компании LuxoftData Mining*Big Data*Визуализация данныхИсследования и прогнозы в IT

Из песочницы

Tutorial

Всем привет. На связи BI Office в Luxoft и я — Ксения Агеева, причастная к анализу и визуализации данных на протяжении последних семи лет. Меня часто спрашивают, зачем в моей жизни есть Tableau, если весь мир всё равно любит эксельные таблички. Так что я решила показать, как без специального обучения можно получить профит от одного из самых популярных BI-инструментов — Tableau.

История получилась довольно длинной, так что продолжение ищите под катом.

grumpysugar 21 июля в 11:26

Как ФБК* сами слили все данные оппозиции в открытый доступ

Информационная безопасность*Data Mining*DevOps*

Из песочницы

Привет! Здесь я хочу указать на возможную причину, почему были слиты данные зарегистрировавшихся в УГ и предупредить, что ФБК* на несколько недель в июне была открыта, как эта калитка в меме.

+187

99K

472

Doublesharp 20 июля в 19:19

Как мы анализировали на хакатоне схемы севооборота

Блог компании SkillFactoryData Mining*Big Data*ХакатоныData Engineering*

Привет, Хабр! Периодически мы делаем посты о проектах наших студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online — подразделения SkillFactory по работе с университетами, эти проекты создаются на внутренних хакатонах. Ребята уже за неделю собирали датасеты по коммерческим объектам, музыкальным трекам, вакансиям и даже котикам, пробовали кластеризовать транспорт и побеждали букмекеров с помощью ИИ. Сегодня делимся новым учебным проектом наших студентов об анализе схем севооборота. Далее речь идёт от лица команды.

1.3K

ITResume 16 июля в 11:30

Большая подборка телеграмм-каналов для аналитиков

Python*SQL*Data Mining*R*Data Engineering*

Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а узнавать что-то новенькое и полезное хочется. И что делать?

Можно, конечно, подписаться на «стоковые» группы и каналы, которые каждый день публикуют по 10-20 постов с «полезным» материалом. Но, признайтесь, это просто самообман: во-первых, столько информации в день просто невозможно пропустить через себя - это только и надо, что статьи читать, а есть же еще работа/учеба. Во-вторых, «полезность» этих статей сомнительна - не каждый пост от умного индуса можно считать полезным, увы :(

Так как же быть? Ответ прост - читать авторские каналы, где реальные специалисты делятся информацией, которую они для себя считают полезной!

Итак, мы собрали для Вас большую подборку телеграм-каналов на любой вкус - каждый найдет для себя что-то интересное. Здесь и BI, и продуктовая аналитика, и программирование, и дашборды, и хранилища данных - одним словом, есть где разгуляться аналитической душе!

Сохраняйте себе и подписывайтесь на ребят - они это точно заслужили! :)

-2

7.8K

a_Polo 15 июля в 10:46

Как мы автоматизировали для пользователей работу с данными через Google Colab

Блог компании eLamaData Mining*

Как хорошо уметь читать, не так ли? А когда пользователи безопасно и организованно могут сами получать любые данные из DWH в нужном виде - это вообще сказка!

В статье описан инструмент автоматизации выдачи данных конечным пользователям. Материал будет полезен специалистам, обслуживающим хранилища данных, которых это решение сильно разгрузит.

696

13 июля

Кто все эти люди? Опрос о том, кто работает с большими данными и как это лучше делать

Если вы попытаетесь найти перевод термина Data Scientist на русский язык, то, скорее всего, увидите что-то вроде «аналитик базы данных», или «специалист по анализу данных», или даже «программист-аналитик». По сути это логическая ловушка, потому что, в зависимости от ситуации, это могут быть как один человек, так и три разных отдела. Мы со Сбером решили расставить точки над «i» в этой теме и узнать, как именно вы представляете себе работу Data Scientist’а. Понять, как всё устроено конкретно у вас на рабочем месте, и выяснить, какие роли могут скрываться за общим термином Data Science. Результаты опроса мы подведём в отдельном посте, так что следите за обновлениями.

А пока поехали!

21K

NewTechAudit 12 июля в 08:02

Методы укладки Gephi. Force Atlas и Force Atlas 2

Анализ и проектирование систем*Data Mining*Визуализация данныхВеб-аналитика*

Прежде чем определиться с выбором раскладки вашего графа, нужно понять какие цели вы преследуете, когда строите его и что именно вы хотите проанализировать и показать.

Впечатление, которое производит ваш граф, может значительно отличаться в зависимости от выбранного алгоритма. Вы должны понимать, что окончательный выбор может стать очевидным только после экспериментов и визуальной оценки. Он должен соответствовать как вашим данным, так и цели построения графа. Здесь нет абсолютно правильных или неправильных ответов: часть решения будет принята субъективно, исходя из вашего собственного визуального суждения.

Рассмотрите свои варианты с точки зрения целостности. Конечная цель создать граф, который не только понятен, но и позволяет рассказать убедительную историю. Если при достижении этих целей макет выглядит впечатляюще, даже лучше! Однако любое прочтение литературы и поиск в интернете быстро покажет, что многие графы выглядят впечатляюще, но не передают смысла данных, и они настолько плотны, что их невозможно прочитать. Не становитесь жертвой создания, чего-то впечатляющего, ради красивой картинки - всегда помните, что вы используете средство просмотра графов, и делаете все возможное, чтобы показать данные чётко. Теперь, когда мы определили приоритеты, мы можем перейти к рассмотрению различных компоновок Gephi.

Для демонстрации настроек раскладок будем использовать данные о переводах пользователей трёх различных банков.

638

DanilSmith 1 июля в 14:04

Обучение с подкреплением: как работают новые возможности библиотеки SberPM

Блог компании СберАнализ и проектирование систем*Data Mining*Управление проектами*

Что такое Process Mining и как его применять, мы рассказывали в первом посте. Во второй части мы представили краткое руководство пользования библиотекой для интеллектуального анализа процессов SberPM. В данной статье мы подробнее раскроем функционал библиотеки и расскажем о новом модуле оптимизации процессов и клиентских путей, использующем обучение с подкреплением для поиска оптимального пути.

Оптимизация бизнес-процессов играет важнейшую роль в повышении операционной эффективности компании. В SberPM обучение с подкреплением используется для реконструкции процесса в соответствии с заданными критериями:

· Отсутствие зацикленности.

· Минимальное время выполнения этапов.

· Минимальное число этапов.

· Успешное завершение процесса.

2.5K

sergebezborodov 24 июня в 07:34

Как мы снова просканировали все домены в Интернете

Data Mining*Big Data*Исследования и прогнозы в IT

Я уверен, вы неоднократно видели заголовки“40% сайтов использует вордпресс”, “10% сайтов сидят на CloudFlare”, “Самая распространенная версия PHP X.X”. Обычно не указывается ни тип выборки сайтов для анализа, ни ее объем. Реально ли почти половина интернета работает на Wordpress?

Почти три года назад я опубликовал статью про то, как мы проанализировали “морды” более чем 250 млн доступных доменов.

В начале 2021 года мы сделали новый сбор данных, добавили определение технологий, трек пикселей, улучшили анализ контента и ссылочного.

Данная статья - это обзор текущего состояния основных показателей: сколько сайтов работает, какой процент использует HTTPs, какая сейчас доминирует версия PHP.

+12

12K

ieBoytsov 18 июня в 17:31

RamblerMeetup&Usermodel

Блог компании Rambler&CoData Mining*Big Data*Data Engineering*

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

379

2 3 ...

49 50

Data Mining *

Как организовать разметку данных для машинного обучения: методики и инструменты

Новости

Парсинг Instagram в промышленных масштабах

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

Обзор методов чистки данных

7 способов получить качественные размеченные данные для машинного обучения

Зачем роботам делать выбор за вас

Дайджест новостей искусственного интеллекта и машинного обучения за июль

Топ-5 инструментов для разметки данных в 2021 году

«От категорий к векторам» или нестандартное кодирование категориальных данных. Часть 1

Tableau: визуализация данных для каждого

Как ФБК* сами слили все данные оппозиции в открытый доступ

Как мы анализировали на хакатоне схемы севооборота

Большая подборка телеграмм-каналов для аналитиков

Как мы автоматизировали для пользователей работу с данными через Google Colab

Кто все эти люди? Опрос о том, кто работает с большими данными и как это лучше делать

Методы укладки Gephi. Force Atlas и Force Atlas 2

Обучение с подкреплением: как работают новые возможности библиотеки SberPM

Как мы снова просканировали все домены в Интернете

RamblerMeetup&Usermodel

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги