Data Mining *

Глубинный анализ данных

Новая Rеальность

Буквально за неделю ИТ ландшафт изменился до неузнаваемости. Каждый день появляются новости об уходе или «приостановке работы» той или иной международной ИТ компании. Одномоментно кончились серверные мощности. И если кто-то прикупил с запасом (что делали достаточно редко), то тот оказался молодцом. Стиль работы надо экстренно и радикально менять. Если раньше можно было полгода играть в RFI, потом полгода в RFP, потом полгода бюджетировать, то теперь все схлопнулось до «одного дня» и не на кого возложить ответственность, вендоры исчезли.

Ситуация стабилизируется, но время стабилизации и новая конфигурация пока неизвестны. Очевидно, что новая конфигурация будет отличаться от той, что была последние лет 10-20.

Читать дальше →

-20

75K

206

Novolene 3 марта в 14:05

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

Блог компании HFLabs Анализ и проектирование систем *Data Mining *Открытые данные *Хранение данных *

1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.

+16

6.5K

salaxieb 1 марта в 10:53

Что новенького по сущностям? Новости последней конференции EMNLP

Блог компании Домклик Data Mining *Natural Language Processing *

В ноябре 2021 проходила конференция EMNLP — одно из главных мероприятий для тех, кто занимается NLP. Хоть команде Домклик и не удалось провести отвязную неделю в Доминикане, я и мои коллеги смогли поучаствовать в конференции удалённо. Как рассказывают сами организаторы, претенденты на участие со всего мира весь 2021 год присылали свои статьи. Из 1500 полученных работ отобрали около 400, чтобы допущенные участники сделали десятиминутную видеопрезентацию. В итоге зрители в течение пяти дней непрерывно и концентрированно получают информацию о том, куда продвинулась наука обработки естественного языка.

Спектр тем огромен, просмотреть и понять все презентации тяжело физически. В этой статье мы подготовили для вас обзор работ только по распознаванию именованных сущностей (NER) и извлечению связей (RE).

+17

601

E_BEREZIN 25 февраля в 13:55

Цифровая трансформация цементного завода (ч.7): интуитивная система управления качеством

Data Mining *Управление разработкой *Data Engineering *1С *

Часть 1: CRM для ERP

Часть 2: Роботизация бизнес-процессов

Часть 3: Волшебные интерфейсы и оживление железа

Часть 4: Автоматические личные кабинеты и чат-боты

Часть 5: Автоматизация на производстве

Часть 6: Траблшутинг на предприятии

Часть 7: Интуитивная система управления качеством (в этой публикации)

Вы часто доверяете своей интуиции и внутренним ощущениям? А как научить систему действовать интуитивно, полагаясь только на неактуальные данные? Об этом и не только, на реальных примерах, далее в статье.

Читать статью >>

1.3K

sveta_pavlos 21 февраля в 14:09

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Data Mining *Big Data *IT-компании Natural Language Processing *Data Engineering *

Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

-3

444

i_shutov 21 февраля в 09:47

Неравный join

Python *Data Mining *Big Data *R *

«Неравный брак», В. Пукирев, 1862 г.

Задача объединения табличных представлений очень часто встречается как в аналитике, так и в разработке (БД). Существует несколько различных типов слияний, фактически, это операции над множествами. Не будем погружаться в детали, на эту тему написано множество книг, семинаров, публикаций. Посмотрим на эти механизмы в преломлении практических задач. Будем смотреть по нарастающей сложности и пытаться решить их на «офисном» ноутбуке, не привлекая бесконечные мощности больших данных или реляционные БД.

Является продолжением серии предыдущих публикаций.

Читать дальше →

rawoak 17 февраля в 13:00

Парсим NFT транзакции на OpenSea

Python *Data Mining *Big Data *Открытые данные *

Tutorial

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

3.3K

selesnow 17 февраля в 11:50

Работа с API на языке R, введение в пакет httr2

Data Mining *API *R *Data Engineering *

Перевод

Tutorial

Цель этой статьи - показать вам основы httr2.

httr2 - переосмысленная реализация пакета httr, т.е. интерфейс для работы с HTTP запросами на языке R.

Из статьи вы узнаете, как создавать и отправлять HTTP-запросы и работать с полученными HTTP-ответами. httr2 разработан для точного сопоставления с базовым протоколом HTTP, который я объясню по мере продвижения. Для получения дополнительных сведений я также рекомендую ознакомиться со статьёй "An overview of HTTP" от MDN.

882

eavprog 17 февраля в 09:07

Связанность мировой экономики через абсолютные валютные курсы

Python *Data Mining *Монетизация IT-систем *

Recovery mode

Tutorial

В курсе анализа данных есть методика исследования зависимостей между данными через корреляцию Пирсона. Корреляция тем выше чем ряды данных более связаны между собой. И наоборот. Не плохо было бы применить эту технику к валютам и посмотреть на взаимосвязи между ними. Но, если применять корреляцию к парным курсам, то получим оценку связей только между парными курсами. Зависимостей между отдельными валютами не получится.

-3

1.3K

kucev 16 февраля в 11:00

ML и консенсус между людьми: берём от обоих подходов лучшее

Data Mining *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Введение в категоризацию классификаций

У вас были когда-нибудь проблемы с поиском товара в продуктовом магазине? Например, вы могли искать замороженный картофель фри в отделе замороженных завтраков, но на самом деле он находился в отделе замороженных овощей. Или вы искали соевый соус в отделе азиатской еды, а он находился в отделе приправ.

Одна из самых больших трудностей для розничных магазинов и торговых площадок — создание каталога путём категоризации миллионов продуктов в сложную систему из тысяч категорий, также называемых классификациями (taxonomies). В реальных магазинах подробная категоризация нужна для логичного упорядочивания стеллажей. В эпоху электронной коммерции и цифровых торговых площадок правильная категоризация обеспечивает множество преимуществ, в том числе улучшенные поисковые рекомендации, более подходящие предложения товаров на замену, а также более строгое соблюдение региональных и федеральных требований.

Категоризация классификаций сложна не только из-за существования в мире бесчисленного количества продуктов, образующих глубоко вложенные иерархические категории, но и из-за постоянно меняющейся природы классификаций. Невозможно найти одного специалиста в предметной области, понимающего весь каталог достаточно хорошо для того, чтобы категоризировать каждый отдельный товар, а процесс обучения команды специалистов недостаточно быстр и масштабируем по современным стандартам. Более того, входные данные никогда не идеальны, и из-за отсутствия информации иногда невозможно понять, относится ли продукт к конкретной классификации.

Читать дальше →

530

KalininAlexander 13 февраля в 20:34

Граф знаний LinkedIn’s Economic Graph и его Star2Vec-эмбеддинги

Data Mining *Алгоритмы *Big Data *Машинное обучение *Искусственный интеллект

Из песочницы

В этой публикации я представляю поверхностный обзор статьи от исследователей LinkedIn «Representation Learning in Heterogeneous Professional Social Networks with Ambiguous Social Connections». В указанной статье частично представлена структура графа знаний LinkedIn’s Economic Graph и относительно подробно описан метод обучения эмбеддингов Star2Vec. Я попытаюсь объяснить основные этапы построения векторных представлений, что называется "на пальцах".

Т. к. это лишь поверхностный обзор, от читателя требуются следующие познания:

1. Skip-gram и его адаптация под графы (word2veс, LINE, DeepWalk);

2. общие понятия о графах знаний.

Поехали!

885

i_shutov 10 февраля в 21:54

Лущим веб с помощью R

Python *Data Mining *R *

Кадр из мультфильма «Раз горох, два горох», 1981, Союзмультфильм

Сбор исходных данных встречается во многих задачах, связанных с аналитикой. Веб тоже нередко выступает источником. Вероятность попасть на полностью готовый и причесанный источник почти близка к нулю. Всегда приходится что-то делать, чтобы эти данные получить и привести в порядок. Ободряет то, что если в браузере видна нужная информация, то тем или иным способом ее можно оттуда выцарапать. В самом худшем случае — перефотографировать.

Ниже три непридуманные истории, объединенные одной целью — достать информацию из открытого источника. Весь код написан «на салфетке», имеет сугубо иллюстративный и развлекательный характер.

Является продолжением серии предыдущих публикаций.

Читать дальше →

3.5K

eavprog 9 февраля в 20:09

Рейтинг стабильности мировых валют на основе их абсолютных курсов

Python *Data Mining *Монетизация IT-систем *

Recovery mode

Tutorial

Понятие стабильности для валют в основном в экономике характеризуется качественным образом. Да и как говорить о числовой стабильности валюты раз существуют только парные валютные курсы. И если мы попытаемся применить какую либо статистическую функцию к этому парному курсу, то это все равно не даст нам знания о каждой валюте отдельно от другой. В проекте Абсолютный валютный курс предложена методика получения абсолютных курсов для каждой валюты в отношении к абсолютной валюте. Таким образом появляется возможность исследовать отдельные валюты без отношения к другой. Более того это исследование можно проводить в численном виде. В настоящей статье дается числовое определение волатильности для валют.

-2

3.7K

i_shutov 5 февраля в 16:12

Рефакторинг Shiny приложений

Data Mining *Проектирование и рефакторинг *R *

Кадр из фильма «Формула любви», 1984

В жизненном цикле любого эксплуатируемого ПО наступает фаза, когда накопившийся набор изменений (CR) ложится неподъемным грузом на первичную архитектуру и вот тут наступает пора рефакторинга. Много книг понаписано на эту тему, есть специфика для различных языков. Ниже затронем только отдельные аспекты, которые могут оказаться полезным применительно к RStudio Shiny приложениям. Это ряд практических методов, трюков и нюансов, накопившихся при рефакторинге, как правило, чужого Shiny кода.

«Aliena nobis, nostra aliis» — Ежели один человек построил, другой завсегда разобрать сможет.

Это было в фильме, в первоисточнике несколько по-другому. Фраза Публилия Сира «Aliena nobis, nostra plus aliis placent» переводится как «Чужое нам, наше же в основном другим нравится».
Но кузнец Степан все равно дело говорит.

Является продолжением серии предыдущих публикаций.

Читать дальше →

+10

1.1K

perevalov_a 3 февраля в 22:12

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

Data Mining *Машинное обучение *Искусственный интеллект

Для разнородных групп пользователей (прим. язык, возраст), возможность одинаково эффективно взаимодействовать с веб-приложениями является одним из важнейших факторов такого понятия как "доступность" (англ. Accessibility). Это относится и к системам автоматического ответа на вопросы с использованием графов знаний (англ. Knowledge Graph Question Answering, KGQA), которые обеспечивают доступ к данным Семантической паутины (англ. The Semantic Web) через интерфейс на естественном языке. В ходе работы над такой темой, как многоязычная доступность KGQA-систем, мы с коллегами выявили несколько наиболее острых проблем. Одной из которых является отсутствие многоязычных бенчмарков для KGQA.

В этой статье мы улучшаем один из самых популярных бенчмарков для KGQA -- QALD-9, путем создания эталонных переводов вопросов из исходного датасета на 8 различных языков (немецкий, французский, русский, украинский, белорусский, армянский, башкирский, литовский). Одним из самых важных аспектов является то, что переводы были предоставленны и провалидированы носителями соответствующего языка. Пять из этих языков - армянский, украинский, литовский, башкирский и белорусский - насколько нам известно, никогда ранее не рассматривались в рамках KGQA-систем. А два языка (башкирский и белорусский) рассматриваются ЮНЕСКО как "находящиеся под угрозой исчезновения". Мы назвали новый расширенный датасет "QALD-9-plus". Датасет доступен онлайн.

687

kucev 3 февраля в 11:04

Четыре урока о создании инструментов для машинного обучения

Data Mining *Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *

Перевод

Мне хотелось бы поделиться с вами одними из самых удивительных выводов о том, как создавать оснастку для машинного обучения, что необходимо для движения вперёд и почему в будущем ИИ гораздо большую роль будут играть специалисты в предметных областях.

На протяжении прошлого года Humanloop создавала новый вид инструмента для обучения и внедрения моделей natural language processing (NLP). Мы помогали командам юристов, сотрудников службы поддержки, маркетологов и разработчиков ПО быстро обучать способные понимать речь ИИ-модели, а затем мгновенно их использовать. Начали мы с применения активного обучения, чтобы снизить потребность в аннотированных данных, но при этом поняли, что требуется гораздо больше.

На самом деле нам был необходим новый набор инструментов и рабочих процессов, изначально спроектированных для решения сложных задач работы с ИИ. Ниже мы расскажем о том, чему научились.

Читать дальше →

1.6K

PythonAnalyst 31 января в 18:23

Анализ эффективности вакцинации в России и США

Data Mining *Big Data *Машинное обучение *Data Engineering *

Recovery mode

К настоящему моменту накопилось досточно данных для выполнения заявленного анализа. Будут использованы данные за октябрь, ноябрь и декабрь 2021 года, поскольку эти месяцы как содержат российский эпид. сезон, так и являются однородными с точки зрения штамма вируса: в обеих странах в этот период был распространен Дельта- вариант. Данные для анализа взяты из официальных источников России и США.

6.6K

221

alex_golubev13 28 января в 10:59

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

Блог компании Ozon Tech Data Mining *Обработка изображений *Машинное обучение *Natural Language Processing *

Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга.
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…

Читать дальше →

+30

6.3K

maks-sh 27 января в 14:03

Как метод подмены задачи борется с несовершенством данных (и мира)

Блог компании МТС Data Mining *Математика *Машинное обучение *Искусственный интеллект

Привет, Хабр! Меня зовут Максим Шевченко, я ведущий ML разработчик в Big Data МТС. В этом посте я расскажу о том, что такое метод подмены задачи. Также разберем несколько примеров того, как такой подход позволил найти эффективные решения для рабочих проектов. Проверим валидность таргетинга в наружной рекламе; рассмотрим, как еще можно проверить однородность групп до проведения А/В тестирования; расскажу про необычный подход к оценке качества данных. Добро пожаловать под кат!

+15

2.5K