Data Mining *

Глубинный анализ данных

Делаем бизнес прозрачным или еще один пример распознавания капчи

Python *Data Mining *Машинное обучение *TensorFlow *

Не для кого не секрет, что капча является популярным средством, чтобы снизить нагрузку на сайт и предотвратить скачивание информации роботами. Сегодня, когда капча применяется практически на каждом сайте, рассмотрим кейс с ее решением для сервиса ФНС "Прозрачный бизнес".

+12

1.2K

l-singh-biomsu 29 сентября в 13:12

Python для биологов

Python *Data Mining *Big Data *Биотехнологии Биология

Из песочницы

Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование пересало быть чисто "техническим" инструментом. Сегодня оно позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Понять, как устроена биоинжереная машина внутри наших клеток, какие функции выполняеет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов, позволяет программирование.

Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администровании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов.

+17

ANazarov 27 сентября в 16:05

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

Python *Data Mining *Математика *Учебный процесс в IT Статистика в IT

⚒️ Cезон Data Mining

Tutorial

Обзор построения и анализа парной линейной регрессионной модели с использованием библиотеки statsmodels

Вперед

1.9K

slivka_83 27 сентября в 12:05

Dagster | Туториал

Data Mining *Big Data *Машинное обучение *Data Engineering *

Tutorial

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

1.2K

Unidata 26 сентября в 16:49

Распознавание фейков с помощью технологий управления данными

Блог компании Юнидата Data Mining *Big Data *Машинное обучение *

Развитие технологий и все возрастающие объемы информации привели к тому, что слово «фейк» или «информационный фейк» прочно вошло в нашу жизнь. Всевозможные мошенники идут в ногу со временем и оперативно ставят себе на службу технологии, изобретая все новые способы влиять на людей. А значит, нам необходимо задуматься о том, как использовать накопившийся опыт и технологии управления информацией для распознавания фейков, т.е. для их автоматического отделения от реальных фактов. Сегодня мы расскажем о всем многообразии использования технологий управления данными для распознавания фейков.

Что же такое фейки?

Существует множество определений фейков, мы не будем на них останавливаться, но отметим, что в этой статье мы будем говорить не об ошибочной информации (такой как опечатки или случайно вкравшиеся неточности), а об информации искажавшейся намеренно.

Фейки можно встретить практически в любой форме — тексте, видео или аудио контенте. Поговорим сначала о последних. Для создания аудио и видео фейков существует специальный инструментарий, построенный на глубоком обучении (deep learning). Искаженные таким образом факты называются дипфейками [1, 2]. Кажется, что уже все видели их примеры — эти видеоклипы с различными знаменитостями, которые говорили или делали что-то, чего на самом деле не было (в [3] есть небольшой таймлайн с известными дипфейками), многие пранкеры используют дипфейки в своих звонках. Однако дипфейки это не развлечение, а серьезная угроза: продвинутые мошенники их уже освоили и во-всю пускают в дело [4, 5].

i_shutov 26 сентября в 09:47

Важно ли DS аналитику знать про software development?

Python *Data Mining *R *Управление разработкой *

⚒️ Cезон Data Mining

— Иван Иваныч Иванов с утра ходит без штанов!
— А Иванов Иван Иваныч одевает штаны на ночь!
«Афоня» (1975)

Множество курсов, призванных подготовить DS специалистов «за полгода», создают впечатление, что уж сертифицированным датамайнером стать достаточно просто. А что? Немного основ DS языка, немного по структуре данных, немного по различным преобразованиям данных, немного SQL, немного математики (в ML не погружаемся, только знакомимся), немного визуализации, немного HTML+JS+CSS. Специалист готов?

На практике оказывается, что маловато будет.

Все предыдущие публикации.

Читать дальше →

1.6K

rotor 22 сентября в 14:03

Как полюбить задачи регрессии

Data Mining *Алгоритмы *Машинное обучение *Data Engineering *

⚒️ Cезон Data Mining

У задач классификации, в отличии от задач регрессии, есть одно очень приятное свойство:
большинство ML алгоритмов решения задач классификации выдают не просто ответ, а некоторую оценку уверенности модели в ответе. То есть помимо метрик самой модели мы обладаем оценкой вероятности для конкретного ответа на конкретном примере. Это здорово помогает в принятии решений.
Неправда ли хотелось бы иметь что-то такое и для задач регресии?

3.8K

UtrobinMV 22 сентября в 12:21

Как создать переводчик, который переводит лучше, чем Google Translate

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *Data Engineering *

⚒️ Cезон Data Mining

Tutorial

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В это раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

+59

9.3K

varagian 20 сентября в 12:46

Обсуждаем солнечную энергетику в России и Бельгии: стоит ли оно того?

Data Mining *Бизнес-модели *Научно-популярное Энергия и элементы питания Урбанизм

Одна из самых холиварных тем на Хабре – это зеленая энергетика. Мнения самые полярные, а дискуссии жаркие!

Я уже давно живу и работаю в Бельгии и здесь довольно развита инфраструктура и законодательство в этом вопросе, что конечно подталкивает интересоваться практическими опциями и возможностями. К счастью, у меня есть подруга, с которой мы дружим вот уже лет 15 и работает она в энергетике. И поэтому немало в этом вопросе понимает. Недавно разговор зашёл о солнечной энергетике, что в России есть два полюса: либо это абсолютное “зло” и угроза энергосистеме, а бедные европейцы ставят ветряки и панели от безысходности, либо это абсолютное благо и “бесплатное электричество” и всем срочно нужно ставить панели на крышу. Правда как обычно где-то посередине. Из этой нашей беседы, череды вопросов-ответов и наших посиделок и родился этот пост.

-> модель, расчеты и байки из Забайкалья!

+23

4.8K

danila_agima 20 сентября в 12:00

Курс молодого бойца: ускоряем проекты на Битрикс, повышаем их отказоустойчивость

Блог компании AGIMA PHP *Data Mining *HTML *1С-Битрикс *

Привет! На связи Данила Соловьев, руководитель направления PHP в AGIMA. Для проджект-менеджеров и джуниор-разработчиков я подготовил небольшой гайд по тому, как ускорять работу крупных проектов на Битрикс и повышать их отказоустойчивость. Здесь вы не найдете сложных кейсов или сногсшибательных решений. Но зато найдете простые и применимые советы.

+26

1.7K

kucev 19 сентября в 11:34

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.

Читать дальше →

3.7K

matkov 16 сентября в 17:20

Самообучающийся трекер объектов: как отслеживать цель в изменчивых условиях сцены

Data Mining *Машинное обучение *

⚒️ Cезон Data Mining

Специалисты по компьютерному зрению не один десяток лет бьются над трекингом объектов. Они перепробовали многое: от старой-доброй оценки движения оптическим потоком до сетей-трансформеров.

Есть один подход к трекингу, широко известный на западе, но о котором мало пишут по-русски: Incremental Visual Tracker (IVT). Это трекер объектов на основе модифицированного метода главных компонент: он самообучается на ходу и адаптируется к изменчивым условиям.

Давайте исследуем физиологию этого трекера, чем он интересен и где его можно применить — а затем изучим проблемы его реализации и нюансы использования. Под катом ссылка на репозиторий и много математики.

+13

3.8K

Epoch8 16 сентября в 14:52

Как переносить данные откуда угодно куда угодно с помощью Meltano

Блог компании AGIMA Data Mining *Big Data *Data Engineering *

Tutorial

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

+11

879

F5Habr 15 сентября в 11:36

От идеи до внедрения: как построить систему анализа данных для промышленного предприятия

Блог компании Factory5 Data Mining *Big Data *Машинное обучение *Управление проектами *

По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.

Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.

2.6K

kucev 14 сентября в 22:00

Руководство по Human Pose Estimation

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.

Читать дальше →

+19

3.8K

RUBDA 14 сентября в 10:18

Как обезличить персональные данные

Блог компании Ассоциация больших данных Data Mining *Big Data *Data Engineering *

⚒️ Cезон Data Mining

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

3.4K

Askarbekov 13 сентября в 15:27

Преимущества алго-трейдинга и важность анализа маркет-даты

Data Mining *

Из песочницы

Аннотация: в статье раскрываются основные понятия алготрейдинга. Отдельно рассмотрены хэдж-фонды, площадки для алготрейдинга, а также его преимущества. Отмечается, что алготрейдинг используется в банковском секторе и на крипторынке.

Ключевые слова: алготрейдинг, алгоритмическая торговля, трейдеры, хедж-фонды,

Понятие об алготрейдинге

Понятие алгоритмического трейдинга имеет два основных определения:

1) Алготрейдинг. Автосистема, которая может торговать без трейдера в заданном ей алгоритме. Система необходима для получения прямой прибыли за счёт автоанализа рынка и открытия позиций. Этот алгоритм ещё называют «торговым роботом» либо «советником».

2) Алгоритмическая торговля. Исполнение крупных ордеров на рынке, когда они в автоматическом порядке делятся на части и постепенно открываются в соответствии с заданными правилами.

Если упростить, алгоритмическая торговля — это автоматизация повседневных операций, выполняемых трейдерами, которая позволяет уменьшить время, необходимое для анализа информации об акциях, расчёта математических моделей и проведения транзакций.

Важно, что автоматизация процессов позволяет решить важнейшую проблему человеческого фактора. К данному фактору можно отнести эмоциональность, домыслы, интуицию, неверные прогнозы, ошибки мышления. Все это может препятствовать получению прибыли.

Автор статьи Ulangazy Askarbekov

Director of Quotex (HK) Limited

3.7K

ElenaVolchenko 12 сентября в 18:52

Как мы научились дистанционно оценивать техническое состояние автомобиля

Блог компании Финолаб Data Mining *Обработка изображений *

⚒️ Cезон Data Mining

Добрый день, коллеги! Меня зовут Елена Волченко. В компании Финолаб я являюсь руководителем отдела машинного обучения и анализа данных. Этой статьей я хочу начать цикл публикаций о создании нашей командой сервиса дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта.

Мой рассказ будет разделен на две части. В первой расскажу о потребностях и проблемах в дистанционной оценке повреждений автомобилей. Во второй - о том, как мы решали эту задачу с помощью нейронных сетей и классического machine learning, с какими проблемами сталкивались, каких результатов достигли и что еще предстоит сделать.

+25

4.7K

SemirAkhmed 8 сентября в 13:41

Smart Forms: Наш опыт автоматизации сбора данных

Блог компании Visiology Data Mining *Big Data *Визуализация данных *Хранение данных *

Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.

+22

1.4K

polina_ok 6 сентября в 16:37

Продвинутые методы Uplift-моделирования

Блог компании GlowByte Data Mining *Машинное обучение *

⚒️ Cезон Data Mining

Всем привет! Меня зовут Окунева Полина, я ведущий аналитик компании GlowByte. Сегодня я хочу рассказать о задаче Uplift-моделирования — частном случае такой большой сферы как Causal Inference, или причинно-следственный анализ, — и методах ее решения. Задачи такого типа важны во многих областях. Если вы сотрудник, например, продуктовой компании, то причинно-следственный анализ поможет сократить издержки на коммуникации с людьми, на которых она не повлияет. Если вы врач, то такой анализ подскажет, выздоровел пациент благодаря лекарству или из-за удачного стечения обстоятельств.

Какого-то полноценного гайда по продвинутым методам Uplift-моделирования я не встретила ни в русско-, ни даже в англоязычном интернете, поэтому было огромное желание структурировать информацию и поделиться ею с интересующимися.

+12

1.7K