Как стать автором
Обновить
650.03

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Модели вероятности дефолта: практические аспекты разработки и подводные камни

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 259

Когда люди задумываются о профессии data scientist-а они в первую очередь вспоминают нейронные сети, которые создают красивые картинки или ведут с человеком псевдоосмысленные диалоги. Существует огромное количество материалов посвященных такого рода моделям, и они безусловно крайне интересны любому человеку, увлеченному анализом данных. Тем не менее, фактически только небольшая часть data scientist-ов занимается подобными моделями, поскольку внедрение их не может в большинстве случаев принести существенной прибыли, а data scientist это достаточно высокооплачиваемая профессия. При этом существенная часть специалистов работает в банковской сфере, основными моделями которой (порядка 80-90% от общего числа моделей) являются модели PD (probability of default), отвечающие на фундаментальный вопрос банков: каковая вероятность того, что заемщик не вернет кредит.

Информации по данным моделям, обзорных статей, описания подводных камней и т.п. достаточно мало и начинающий специалист может столкнуться с настоящим информационным голодом и даже провалить собеседование из-за незнания элементарной терминологии.  Именно этот информационный пробел мне хотелось бы заполнить данной статьей. За время работы в банковской сфере мне удалось поучаствовать в разработке нескольких десятков моделей данного класса, и я хотел бы сосредоточится не на конкретной технике моделирования (она может быть разной в каждом конкретном случае), а на практических аспектах разработки и подводных камнях, которые удивили меня в свое время.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Комментарии 0

Новости

Julia в машинном обучение: база

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 1.1K

Привет, Хабр!

Julia зародилась в 2012 году, благодаря усилиям четырех энтузиастов-разработчиков: Джефф Безансон, Стефан Карпински, Вирал Би Шах, и Алан Эдельман. Они стремились создать язык, который сочетал бы легкость Python, скорость C, динамичность Ruby, лингвистическую чистоту Lisp и возможности математических систем вроде Matlab. Им удалось! Julia – это слияние простоты и мощи.

Благодаря JIT-компиляции, код Julia может выполняться с скоростью, сопоставимой с кодом, написанным на C или Fortran.

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Комментарии 4

ИИ и прогнозирование микроэлементов для борьбы с загрязнением воды

Уровень сложности Средний
Время на прочтение 16 мин
Количество просмотров 334

В последние десятилетия угроза загрязнения водных ресурсов стала одной из наиболее беспокоящих экологических проблем. С ростом мирового потребления фармацевтических препаратов в 2020 году оно достигло 4 миллиардов доз, и как следствие, водные системы сталкиваются с увеличением количества и разнообразия микроэлементов, попадающих в очистные сооружения. Эти вещества, часто неизвестные и трудно поддающиеся анализу, могут оказать вредное воздействие на окружающую среду и здоровье человека, включая канцерогенез и эндокринные нарушения.

В условиях, где традиционные методы анализа требуют дорогостоящего оборудования, опытных специалистов и затрат времени, наука стремится к эффективным и инновационным подходам. В этом контексте исследовательская команда Корейского Института Науки и Технологии (KIST), под руководством Хон Сок-Вона, главы Центра исследования водных ресурсов и цикла, и старшего исследователя Сон Муна, представляет новаторскую методологию, основанную на искусственном интеллекте, для борьбы с вызовами загрязнения воды.

В данной статье мы рассмотрим уникальный подход команды KIST, объединяющий в себе методы самоорганизующихся карт (SOM) для кластеризации и случайных лесов (RFC) в машинном обучении для прогнозирования свойств и поведения микроэлементов. Результаты этого исследования проливают свет на возможности применения искусственного интеллекта в экологии, предоставляя быстрый и точный инструмент для анализа и прогнозирования воздействия микроэлементов в водных системах.

Приятного прочтения (:

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 3

YOLO-World: распознавание произвольного числа объектов с высокой точностью и скоростью

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 3.5K

Всем привет! Буквально несколько дней назад была представлена новая модель семейства Yolo. Ее основная фишка заключается в том, что в отличие от своих старших братьев, она способна распознавать на изображении фактически любые объекты (которые интересуют человека) без предварительного обучения и делает все это в real-time режиме! Звучит неплохо, не так ли?

В этой статье мы попробуем разобраться, что же за магия скрывается внутри новой архитектуры.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 0

Истории

Архитектура RAG: полный гайд

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 2.4K

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

Читать далее
Всего голосов 18: ↑17 и ↓1 +16
Комментарии 7

Бесплатные курсы по большим языковым моделям для дата-сайентистов

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 4.8K

Большие языковые модели предоставляют широкий спектр возможностей для различных задач и приложений. Они могут быть использованы для создания чат-ботов, голосовых помощников, автоматического редактирования текста, генерации субтитров и многое другое. Обучение этих моделей в 2024 году позволит расширить их функциональность и применимость.

В этой статье мы рассмотрим лучшие бесплатные курсы по большим языковым моделям в 2024 году, которые помогут вам освоить эту увлекательную область и раскрыть свой потенциал в мире искусственного интеллекта.

Читать
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 0

Обзор по LLM

Время на прочтение 10 мин
Количество просмотров 5.2K

В прошлом году(2023) в мире больших языковых моделей(LLM) произошло много нового и нитересного. В новостях появились фразы о гонке искусственных интеллектов, а многие ведущие IT компании включились в эту гонку. Рассмотрим как все начиналось, кто сейчас занимает лидирующие позиции в гонке и когда роботы захватят мир.

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 5

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 28K

Салют! Уже ни для кого не секрет, что GigaChat активно развивается, и обновление моделей не заставляет себя долго ждать. Рады сообщить вам, что новые версии GigaChat Lite и GigaChat Pro получили мощный апгрейд и стали еще более креативными, умными и точными в исполнении инструкций, а также получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU. На сегодняшний день GigaChat используют уже более 2,5 миллионов человек.

В новом обновлении GigaChat Lite получил расширение максимального контекста до 32768 токенов (GigaChat Lite+), а GigaChat Pro — до 8192 токенов. Вместе с контекстом мы улучшили качество ответов, превзойдя ChatGPT на русском SBS и английском MMLU, а также сделали апдейт датасетов по экономике, медицине и праву, добавили экспертные и редакторские данные, а также прокачали функции (улучшили работу запросов).

Узнать, как попробовать самую сильную версию GigaChat бесплатно, можно в конце статьи.

Читать далее
Всего голосов 65: ↑44 и ↓21 +23
Комментарии 112

Как мы с помощью Midjourney визуализировали понятия из мира ИТ на картах «‎Имаджинариума»

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 6.8K

Всем привет! Хочу поделиться необычным кейсом из моей практики – созданием иллюстраций для игровых карточек «‎Имиджинариума» с использованием нейросети Midjourney. Наша команда визуализировала выражения и понятия из мира ИТ. Мы представили, как может выглядеть на карточках настольной игры Agile, путь пользователя, удаленный доступ, оживили системы видеонаблюдения, пофантазировали над человеческим обличием бекенда, стартапа или дедлайна. Об этом - новая статья в блоге ЛАНИТ. Бонус –под катом вас ждут очень много красивых картинок и ссылка на составленный мной гайд по работе с промтами в Midjourney. 

Читать далее
Всего голосов 28: ↑24 и ↓4 +20
Комментарии 19

Нейропанорамы для любой точки Земли: как «осмотреться» на спутниковом снимке

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 2.2K

Как получить изображение местности, если единственным источником знаний о ней является спутниковый снимок. Сколько нейронных сетей для этого потребуется, легко ли собрать набор данных для обучения и зачем вообще это может быть кому-то нужно — в небольшой статье.

Генерировать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 8

Новые горизонты производства электроники и солнечных батарей: оптимизация мультикристаллических материалов с помощью ML

Уровень сложности Средний
Время на прочтение 16 мин
Количество просмотров 1K

упность и различные преимущества мультикристаллических материалов сделали их широко распространенным сырьем для различных применений в сфере солнечной энергетики и, в целом, полупроводни.ковой индустрии, электроники и медицины, однако работа с ними сопровождается серьезными трудностями

Использование мультикристаллических материалов усложняется наличием дефектов и неоднородностей свойств кристаллов по поверхности материала, связанных с различной кристаллографической ориентацией каждых отдельных зерен. Кроме того, работа с такими материалами требует наличие дорогостоящего оборудования и использование современных методов, затрачивающих много времени и неподходящих для образцов большой площади, что является насущной проблемой. 

Другими словами: материал очень востребован во многих сферах промышленности, но имеет ряд особенностей, и не имеет достаточно эффективных способов работы с ними.  

В данной статье я расскажу, какое решение данной проблемы было найдено исследователями, и для сравнения опишу современные используемые методы для определения кристаллографических ориентаций в мультикристаллических материалах.

Приятного чтения! :)

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 5

Дайджест новостей: ИИ для обучения роботов и спящие агенты в LLM

Время на прочтение 4 мин
Количество просмотров 570

Представляем дайджест новостей сферы искусственного интеллекта за первый месяц 2024 года. В этом выпуске вы узнаете, смогли ли ученые победить «спящих агентов» в LLM, способны GPT влиять на человеческий мозг, какую еще методику придумали для самообучения больших моделей и другие интересные исследования. 

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 2

Бесперспективный стартап, собравший миллионы долларов?

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 28K

Нашумевший стартап, презентация которого собрала миллионы просмотров, а устройство получило десятки обзоров. Но шумиху понимают далеко не все — у устройства много проблем. 

Сегодня R1 может давать нам неплохую справочную информацию в реальном времени, ориентируясь на AI сервис Perplexity + помогать в поиске документации, бронировать отели, заказывать такси — и всё это голосом. 

Добавлю, что у гаджета интересный форм-фактор, а концепция напоминает голосового помощника сродни всяким ассистентам по типу Siri. Но самое главное — R1 сможет взаимодействовать с интерфейсом любого приложения. Круто, но насколько реализуемо на практике?

Давайте разбираться. 

Читать далее
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 9

Ближайшие события

ИИ в 3D: Где мы сейчас и какое будущее нас ждёт? (Часть 1)

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 3.3K

В последнее время мы оцениваем на удивление много проектов, так или иначе связанных с 3D-пространством и ML-моделями. По всей видимости по прошествии 2023 года люди воодушевились и начали видеть возможность реализации тех идей, которые ранее просто-напросто казались научной фантастикой - и они не ошибаются! Исследователи и разработчики последних технологий достигли сногсшибательных результатов. В связи с этим хотел бы накидать цикл обзорных статей, которых как мне лично, так и нашей рабочей группе очень сильно недоставало в процессе ресёрча. 

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 4

Почему нынешние ИИ не проявляют все свои возможности. Пока или навсегда?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 2.2K

Эта статья-размышление, что мешает нынешним генераторам ИИ показать все возможности. Смогут ли они получить «больше силы» и проявить ее?

Читать далее
Всего голосов 8: ↑3 и ↓5 -2
Комментарии 22

От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 679

Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.

Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.

О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 2

Универсальные факты: конструктор извлечения для аналитика

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 778

Привет, мы команда LegalDocs Управления «Проектный офис» в Правовом департаменте. У Сбербанка огромное количество клиентов, от обычных людей до больших корпораций. Все вместе они предоставляют множество видов документов, из которых нам нужно быстро извлекать юридически значимую информацию для последующей правовой экспертизы. Например, к нам обращается представитель большой компании за кредитом. И нам нужно оценить правоспособность: проверить, есть ли у этого представителя соответствующие полномочия в той организации, которую он представляет.

Если бы эту экспертизу проводил человек, то на его стол (физический или виртуальный) должен попасть большой пакет документов: устав организации, протокол о создании общества, протокол о нотариальные доверенности и многое другое. И чтобы искусственный интеллект (система автоматического принятия правового решения, или, как мы её называем, «робот-юрист», эта технология даже запатентована) мог принять решение, нужно сначала из каждого документа извлечь определённую информацию (значимые факты), структурировать её и отправить на проверку. Только после этого робот-юрист решит, есть ли правовые риски в этой кредитной сделке.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 3

Своевременная диагностика на производстве: шесть фич с компьютерным зрением. Кейс rdl и угольного терминала

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 834

Конвейер — критичный для производства элемент системы, своего рода кровеносная система предприятия. Иногда в её работе случаются сбои, порезы, порывы, поэтому за ней нужен постоянный контроль. В этом случае компьютерное зрение — это средство для своевременной диагностики. За этим руководители компании-стивидора и обратились к rdl by red_mad_robot.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 2

Как приручить нейросеть

Время на прочтение 3 мин
Количество просмотров 5.8K

Привет, Хабр!

В последнее время проблема утечки информации все чаще освещается в медиа. Хватает новостей о том, что утекали даже ключи и пользовательские данные. Да чего только не было! Неудивительно, что многие компании, особенно с развитием и активным использованием ИИ-технологий, чат-ботов и т.д., обеспокоены своей кибербезопасностью.

Например, OpenAI открыто заявляла, что для улучшения качества ответов в своей системе они используют истории запросов, то есть все то, что когда-либо писали их пользователи. Поэтому некоторые организации строго запрещают применять ChatGPT и скидывать туда фрагменты своей документации, исходного кода и т.д. Но подобные сервисы слишком уж привлекательны, чтобы полностью их игнорировать. Ведь они действительно могут принести пользу, если применять их правильно и, самое главное, четко понимать, для чего вам это нужно.

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Комментарии 9

Книга «Грокаем машинное обучение»

Время на прочтение 10 мин
Количество просмотров 15K
imageПривет, Хаброжители!

Машинное обучение — это набор методов анализа данных, основанных на алгоритмах, которые дают все более точные результаты по мере поступления новых данных. Машинное обучение лежит в основе систем рекомендаций, программ распознавания лиц, «умных» колонок и даже беспилотных автомобилей. Эта уникальная книга объясняет основные понятия машинного обучения на простых и доступных примерах, увлекательных упражнениях и запоминающихся иллюстрациях.

Здесь нет зубодробительного академического жаргона, для понимания объяснений достаточно знаний основ алгебры. По мере чтения вы будете создавать модели для идентификации спама и распознавания изображений и другие интересные проекты на языке Python.

Откройте для себя мощные методы машинного обучения, для понимания и применения которых достаточно знаний математики на уровне средней школы!

Для читателей, знающих основы языка Python. Знаний в области машинного обучения не требуется.

В качестве обзора книги мы предлагаем вам ознакомится с переводом статьи автора Luis Serrano.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 3

Вклад авторов

Работа

Data Scientist
74 вакансии