![](https://webcf.waybackmachine.org/web/20231106000423im_/https://habrastorage.org/r/w780/getpro/habr/upload_files/a9b/bd9/dd8/a9bbd9dd8298545f5632b8cb82d0ae3c.jpg)
В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.
Глубинный анализ данных
В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.
Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.
28 сентября компания РСХБ‑Интех провела RSHB Data Integration Meetup — митап для специалистов по работе с данными, в рамках которого выступил Антон Агеев, корпоративный архитектор и техлид команды Подписки в проекте «Свой бизнес» РСХБ‑Интех. В своем докладе Антон поделился со слушателями своей любовью к данным и к их красоте. Он представил главное из книги DAMA‑DMBOK2, описал часть представленных там методик и подробно остановился на методике Data Discovery and Management (DDM) — обнаружение, сбор, хранение и анализ данных. Также Антон рассказал о возможности внедрения практик и принципов DAMA‑DMBOK2 как предпосылок к использованию ИИ в бизнес‑процессах организаций.
В материале читайте расшифровку доклада. Запись митапа в свободном доступе можно посмотреть на сайте «РСХБ в цифре».
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.
Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!
В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
З.Ы. Подписывайтесь на мой телеграм-канал :)
Давайте обобщим то, что мы узнали, будучи путешественниками во времени 2022 года, изучающими современную технологию глубокого обучения 1989 года:
Прежде всего, за 33 года мало что изменилось на макроуровне. Мы все еще создаем дифференцируемые архитектуры нейронных сетей, состоящие из слоев нейронов, и оптимизируем их от начала до конца с помощью обратного распространения и стохастического градиентного спуска. Все выглядит удивительно знакомо, за исключением того, что оно меньше.
Предположим, что уроки этого упражнения остаются неизменными во времени. Что это говорит о глубоком обучении 2022 года? Что бы путешественник во времени из 2055 года подумал о производительности нынешних сетей?
Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.
Привет! Меня зовут Алексей, я дата-аналитик. Четыре года назад я пришёл в дата-анализ из сферы, далековатой от IT, — пивоварения (хотя о том, что на самом деле они не так далеки, я рассказывал здесь). До того как я нашёл свою нишу, тщетно пробовал вкатиться в IT через разные курсы по Python, TensorFlow и веб-разработке. Потратил на это три года и 100 тысяч рублей, в какой-то момент выгорел ещё в процессе обучения, чуть не бросил попытки, но собрался и в итоге самостоятельно и бесплатно изучил анализ данных, который мне сразу зашёл.
Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен — добро пожаловать под кат.
В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.
В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.
09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.
Привет, Хабр!
Часто в работе аналитика данных при подготовке очередного отчета или презентации, колоссальное количество времени уходит именно на графическую составляющую подготовки.
Ведь все хотят сделать отчет не только информативным, но и визуально привлекательным.
В этой статье мы разберем основные шаги, которые помогут сделать ваши матрицы стильными и продающими ваши результаты, используя лишь две основные библиотеки визуализации в Python - Seaborn и Matplotlib.
Музыка, неотъемлемая часть человеческой культуры, всегда отражала дух времени. Однако с наступлением цифровой эры и быстрого развития технологий, музыкальная индустрия столкнулась с революцией, которая изменила не только способы создания и распространения музыки, но и сам способ, которым мы взаимодействуем с ней. Сегодня музыкальные платформы и сервисы предоставляют нам огромный выбор композиций, а важную роль в этом процессе играют технологии аудиоаналитики.
Что делает песню хитом? Какие элементы музыки заставляют нас нажимать "пропустить" или добавлять трек в свой плейлист? Ответы на эти вопросы лежат в понимании музыкальных предпочтений слушателей. Анализ этих предпочтений — это не только путь к более точным рекомендациям, но и ключ к пониманию наших эмоциональных реакций на музыку. Именно здесь на сцену выходит аудиоаналитика.
Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.
Что такое Segment Anything (SAM)?
SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI* весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.
Ваш аккаунт