Как стать автором
Обновить
27.31

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как и зачем считать сбалансированный precision score

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров470

В машинном обучении при оценке решения задачи классификации precision score может давать неожиданные результаты тогда, когда баланс классов сильно изменяется.

Почему так, почему это может приводить к ошибкам при отладке моделей, и как этого избежать с помощью сбаланированного precision score - в этой заметке.

Читать далее
Рейтинг0
Комментарии2

Новости

Как дообучать LLM с помощью Supervised Fine-Tuning

Время на прочтение15 мин
Количество просмотров4.5K

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.


Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+4
Комментарии3

Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.9K

Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and AI for Engineers) автора Джеффа Просиза от O'Reilly Media, в переводе от БХВ Петербург. В отличие от многих других введений и пособий на эту тему, книга Дж. Просиза избегает упора на излишне сложную математику, делая акцент на практическое применение ML и DL технологий.

Прежде чем перейти к разбору книги  “Прикладное машинное обучение и искусственный интеллект для инженеров”, напомним про две другие книги-новинки по теме ML/DL вышедшие в 2024 году в издательстве БХВ Петербург. Вот наши рецензии на них:

Читать далее
Всего голосов 8: ↑7 и ↓1+11
Комментарии8

Fine-tuning больших языковых моделей в 2024 году

Время на прочтение14 мин
Количество просмотров3.3K

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии.

Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+4
Комментарии2

Истории

Разбор SAM2 через колено в голову или революция в разметке видео

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.

Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.

Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!

Читать далее
Всего голосов 15: ↑15 и ↓0+21
Комментарии0

Книга: «Data mesh в действии»

Время на прочтение17 мин
Количество просмотров3.6K
image Привет, Хаброжители!

Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.

Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.

Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.
Читать дальше →
Всего голосов 7: ↑5 и ↓2+9
Комментарии0

Долой рандом, или ищем лучшие настройки для аугментации текстов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров896

Всем привет. На связи Игорь Буянов, старший разработчик в MTS AI. Этот пост — текстовый вариант моего доклада, с которым я выступал в прошлую пятницу на Pycon 2024. Расскажу о том, как мы оптимизировали параметры аугментаций для текстовых данных и что из этого получилось. Текст рассчитан на широкий круг читателей, поэтому если вы слышите про аугментации впервые — не пугайтесь, разберемся.

Читать далее
Всего голосов 4: ↑4 и ↓0+6
Комментарии3

Реконсиляция в иерархическом прогнозировании временных рядов

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.3K

Всем привет! Меня зовут Ян, я ведущий специалист по анализу данных в компании Cinimex Data Lab. Не так давно мы столкнулись с задачей иерархического прогнозирования временных рядов для заказчика из фармацевтической области, откуда и родилась идея для этого материала. В статье коснемся особенностей иерархического прогнозирования (форекастинга), разберем что значит термин реконсиляция, рассмотрим его математическую формализацию а также разные методы реконсиляции.

Читать далее
Всего голосов 10: ↑9 и ↓1+12
Комментарии0

Используем LLM, чтобы найти «бриллианты» в тексте

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.1K

Привет всем! Меня зовут Александр Григорьев и я продуктовый аналитик в Innovative People. 

Год назад я писал про то, как с помощью современных LLM извлечь из множества текстовых данных эмбеддинги, и на их основе сделать аналитику того, какие темы есть в тексте.

Спустя время у меня и моих коллег накопилось несколько вопросов:

Читать далее
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Что такое supervised fine-tuning?

Время на прочтение7 мин
Количество просмотров1.2K
Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных.


В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой.

Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи.

SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности.

Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров.

Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров.

Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.
Читать дальше →
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.1K

Это наконец случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 800 страниц, руководство по практическому применению Python в сфере Data Science. Книга изначально планировалась как 4-е издание "Python Machine Learning", но из-за множества изменений авторы решили выпустить его под новым названием. Ввиду достаточно высокой цены, вам пригодится наш промокод SSPSOFT для покупки этой книги со скидкой 25%.

Читать далее
Всего голосов 11: ↑11 и ↓0+18
Комментарии7

Как с помощью supervised fine-tuning кастомизировать LLM

Время на прочтение7 мин
Количество просмотров2.1K

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу.

Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно.


Сравнение предварительного обучения LLM и fine-tuning

Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP.

В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl.
Читать дальше →
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Время на прочтение11 мин
Количество просмотров2.1K

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов.

Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.
Читать дальше →
Всего голосов 4: ↑1 и ↓30
Комментарии1

Ближайшие события

Разметка данных — тренируемся на кошках

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров852

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания — разметка данных и ты, стояли на вечеренике под названием «Заработок в интернетах» в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто‑то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду.

И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными?

В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

Читать далее
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

OpenAI представила GPT-4o mini и мы её уже внедрили

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров7.7K

Сегодня нас порадовали очередные горячие новости из мира ИИ! Open AI представили GPT-4o mini — новую доступную и высокоинтеллектуальную «маленькую» языковую модель, которая значительно умнее, дешевле и так же быстра, как GPT-3.5 Turbo. Недолго думая, мы внедрили и протестировали новую модель на своих задачах. Результаты внизу.

Читать далее
Всего голосов 11: ↑6 и ↓5+3
Комментарии3

Недвижимость и ее инфляционная «защищенность» в реальных цифрах

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.3K

Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!

Читать далее
Всего голосов 9: ↑5 и ↓4+5
Комментарии23

В 48 собесах от оффера в Гугл

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров13K

Здравствуй, хабр! Что-то я давно не писал, отбился от рук, а ведь когда-то мы целый курс машинного обучения на Хабре вели. Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.

Читать далее
Всего голосов 54: ↑53 и ↓1+66
Комментарии32

Анализ открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров903

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно «качают» эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем — то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике.

Читать далее
Всего голосов 10: ↑4 и ↓6+2
Комментарии2

Инфраструктура для data engineer S3

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии

Читать далее
Всего голосов 5: ↑2 и ↓3+3
Комментарии14

Эволюция сервиса классификации

Время на прочтение8 мин
Количество просмотров1.1K

Привет, Хабр. Меня зовут Аделина Ямалтдинова, я разработчик технологического сервиса «Классификатор» — одной из частей платформы «Преферентум».

Как вы могли догадаться из названия, сервис нужен для классификации неструктурированной информации — документов, заявок, звонков и т. д. Он применяется для маршрутизации обращений на горячую линию, сортировки входящих документов в СЭД, тематической классификации, выявления негативных отзывов, определения типа и контроля комплектности документации и т. п. Таким образом, «Классификатор» упрощает переход компаний к интеллектуальной автоматизации различных бизнес‑процессов, обогащая используемые системы ИИ.

В статье я расскажу об устройстве нашего «Классификатора» и о том, как мы его улучшаем.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0
1
23 ...

Вклад авторов

Работа

Data Scientist
80 вакансий