Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

Verz1Lka 20 янв в 10:01

Анализ системы защиты от ботов на примере letu.ru

Средний

40 мин

3.6K

Информационная безопасность *JavaScript *Data Mining *Реверс-инжиниринг *Тестирование веб-сервисов *

Из песочницы

Анализ системы защиты сайта от ботов на примере letu.ru с использованием javascript reverse engineering.

+25

maratyv 17 янв в 19:23

Типичные задачи аналитика данных. Часть 1. Упала метрика

Средний

15 мин

6.4K

Python *Data Mining *Статистика в IT

Туториал

В прошлой статье мы рассматривали неочевидные проблемы АБ тестирования и как можно с ними справляться [ссылка]. Но часто бывает так, что при внедрении новой функциональности АБ тестирование провести нельзя. Например, это типично для маркетинговых кампаний нацеленных на массовую аудиторию. В данной ситуации существует вероятность того, что пользователи контрольной группы, которым недоступна рекламируемая функциональность, начнут массово перерегистрироваться. Также возможен сценарий, при котором возникнет значительное количество негативных отзывов из-за воспринимаемой дискриминации. Но задача оценки таких нововведений одна из наиболее частых, которые приходится решать аналитикам. Если метрики только улучшаются, то это обычно легко объяснить хорошей работой, а если метрика ухудшилась, то сразу появляется задача на аналитика. В этой заметке мы рассмотрим первую часть задачи - а действительно ли метрика упала и если да, то имеет ли смысл разбираться дальше?

tagir_analyzes 15 янв в 17:14

Визуализация статистики о том, что и так все знают

Простой

7 мин

9.8K

Блог компании Альфа-Банк Data Mining *Big Data *Визуализация данных *Аналитика мобильных приложений *

Аналитика

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям.

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

+18

dvgureev 7 янв в 21:01

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 2/2

Средний

5 мин

21K

Data Mining *Машинное обучение *Искусственный интеллект Data Engineering *

Обзор

В первой части статьи я рассказывал о создании цифрового юриста, способного отвечать на вопросы на основе 200-страничного регламента. Цель — работа такого юриста в закрытом контуре организации, без использования облачных технологий.

Особенностью эксперимента является в том, что оценку ответов делают обычные люди. Юристы.

Во второй части мы рассмотрим как и зачем делать локальные токензайзеры и попробуем запустить всё полностью на локальной машине с видеокартой 4090.

В конце будет приведена полная сравнительная таблица разных моделей и токензайзеров.

+28

thoughtspile 27 дек 2023 в 11:42

Hippotable — анализ данных прямо в браузере

Простой

5 мин

4.3K

JavaScript *Data Mining *Открытые данные *Статистика в IT

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

+15

Syurmakov 26 дек 2023 в 19:15

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало зимы

Простой

2 мин

2.3K

Data Mining *Big Data *Машинное обучение *Робототехника Искусственный интеллект

Дайджест

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:

Читать дайджест

+11

comerc 25 дек 2023 в 23:03

Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

21 мин

2.9K

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Перевод

Предлагается пошаговое руководство по дообучению Whisper для любого многоязычного набора данных ASR с использованием Hugging Face 🤗 Transformers. Эта заметка содержит подробные объяснения модели Whisper, набора данных Common Voice и теории дообучения, а также код для выполнения шагов по подготовке данных и дообучению. Для более упрощенной версии с меньшим количеством объяснений, но со всем кодом, см. соответствующий Google Colab.

kucev 20 дек 2023 в 12:05

Разметка данных в 2023 году: текущие тренды и требования будущего

5 мин

1.9K

Data Mining *Big Data *Машинное обучение *Искусственный интеллект Data Engineering *

Перевод

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.

Читать дальше →

kucev 19 дек 2023 в 12:18

Заблуждения о семантической сегментации

4 мин

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.

Читать дальше →

chillote 19 дек 2023 в 10:04

Методы балансировки в А/Б тестировании

14 мин

2.5K

Блог компании X5 Tech Data Mining *Big Data *Машинное обучение *

Обзор

Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!

kucev 15 дек 2023 в 13:43

Разметка данных: неочевидные затраты на голосовые технологии

8 мин

649

Data Mining *Big Data *Машинное обучение *Искусственный интеллект

Перевод

В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.

Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.

Читать дальше →

V-Moskalenko 14 дек 2023 в 09:11

Бенчмарк HTML парсеров в Python: сравнение скорости

Простой

4 мин

3.9K

Блог компании Страховой Дом ВСК Высокая производительность *Python *Data Mining *

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности нескольких популярных библиотек для простого HTML-парсинга.

При необходимости сбора данных с HTML или XML, многим python-разработчикам сразу вспомнятся две популярные библиотеки «BeautifulSoup4» и «lxml» — они весьма удобны и стали широко применяемыми. Но что, если в нашем проекте важна скорость сбора данных? Возникает вопрос: кто из них быстрее и есть ли еще более быстрые библиотеки? При поиске данной информации на Хабре, я нашел подобные статьи, но им уже несколько лет. Так как прогресс не стоит на месте и появляются новые инструменты или те, о которых еще не слышали, мне было интересно провести личное исследование и поделиться информацией.

shveenkov 13 дек 2023 в 11:42

Инструменты продуктового аналитика VK, или Как мы работаем с большими данными

Средний

15 мин

Блог компании VK Data Mining *Data Engineering *

Аналитика

✏️ Технотекст 2023

Принятие решений на основе данных является неотъемлемой частью работы аналитика. Данные помогают сделать это быстро. Но что если объём данных достигает десятков петабайт? Подобная задача становится не такой тривиальной, как может показаться на первый взгляд. Как масштабировать работу с данными в продуктовых командах? Как быстро найти инсайты в куче данных? Какие инструменты могут быть полезны для аналитика?

Заинтригованы? Добро пожаловать в мир аналитики больших данных.

+34

rmndrnts 12 дек 2023 в 11:19

Phoenix: разбираемся со сбоями ML системы прямо в вашем ноутбуке

Средний

6 мин

1.7K

Python *Анализ и проектирование систем *Data Mining *Визуализация данных *Машинное обучение *

Из песочницы

Нам до сих пор не до конца понятны некоторые возможности больших языковых моделей. Приложения с большими языковыми моделями должны быть оснащены необходимыми инструментами и оставлять данные о событиях, произошедших в процессе работы. Более того, когда данные собраны, их необходимо оценить на предмет критических ошибок, таких как галлюцинации и токсичность.

В статье рассматривается open-source библиотека Phoenix, основная цель которой — помочь специалистам по данным понять и оценить сложные LLM-приложения, чтобы они могли узнать больше о внутренней работе системы.

igor_suhorukov 1 дек 2023 в 09:14

На грани ИИ: пример поиска и обработки векторов в PostgreSQL + pgvector

Средний

9 мин

4.6K

PostgreSQL *Программирование *Java *Data Mining *Data Engineering *

На Хабре было много упоминаний pgvector в обзорах Postgresso. И каждый раз новость была про место которое где-то за границей и далеко. Многие коммерческие решения для хранения и поиска векторов в базе данных нынче не доступны, а pgvector доступен любому, тем более в самой популярной базе в России. Применим pgvector для задачи поиска похожих домов по инфраструктуре для детей в Москве.

В этой статье покажу на этом практическом примере как хранить, кластеризовать алгоритмом DBSCANвекторы и искать по ним в базе данных. В примере задача с векторами на грани типичного хранения и обработки результатов работы нейросетевых моделей в базе данных.

+12

Falcon_eye 29 ноя 2023 в 18:33

Apache Spark… Это база

Средний

6 мин

5.8K

Data Mining *Apache *Big Data *Data Engineering *

Обзор

✏️ Технотекст 2023

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

olga_ryabukhina 25 ноя 2023 в 11:00

Что эффективнее — усложнять модель или увеличивать количество данных?

Простой

8 мин

10K

Data Mining *Машинное обучение *

Из песочницы

Статья "Необоснованная эффективность данных", написанная сотрудниками Google в 2009 году, говорит нам: "Простые модели с множеством данных превосходят сложные модели с меньшим количеством данных". Этот принцип заложен в основу подхода, ориентированного на данные (Data-driven) - приоритет отдаётся информации, содержащейся в данных, в то время как модель выступает в роли инструмента. Важную ценность несут именно сами данные, которые позволяют извлекать информацию для принятия точных и эффективных решений. Если данных недостаточно, в них отсутствуют чёткие закономерности или они недостаточно разнообразны, то потенциал машинного обучения ограничивается. Но как определить, что объём данных достаточен? Где лежат границы между большим и маленьким объёмом данных? Этот вопрос мы сейчас попробуем поисследовать.

+20

slivka_83 24 ноя 2023 в 09:00

Большие языковые модели (LLM) в задачах

Простой

15 мин

7.8K

Python *Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Сейчас в мире довольно много разговор о том, что LLM оставят всех нас без работы. Чтобы понять о чем речь рассмотрим на практических примерах какие задачи из коробки могут решать современные большие языковые модели (large language models, LLM).

З.Ы. Подписывайтесь на мой телеграм-канал :)

Syurmakov 21 ноя 2023 в 20:41

Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

2 мин

2.9K

Data Mining *Big Data *Машинное обучение *Робототехника Искусственный интеллект

Итак, а теперь сам дайджест:

antipov_dmitry 20 ноя 2023 в 11:40

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Средний

13 мин

2.1K

Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

FAQ

Привет! Я занимаюсь разметкой данных для ИИ: экспертно и с большой любовью. Задачи компьютерного зрения — одни из самых популярных и поэтому поговорим про них.

Прочитав статью вы узнаете как алгоритму отличить гейшу от китаянки, кто такая майко, как не перепутать лапшу с автобусом и правильно найти тунца.

Практически сразу после выхода zero-shot модели SAM (Segment Anything Model) для компьютерного зрения мы с командой активно ее внедрили в свою платформу разметки данных и стали использовали в разных задачах.

Хочется поделиться опытом и ответить на самый популярный вопрос — насколько SAM ускоряет разметку данных?

В статье будет очень много гифок и интерактива.

+10