Как стать автором
Обновить
436.77

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Как воссоздают человека при помощи ИИ?

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров1.1K

Помимо нейросетей и моделей машинного обучения, основанных на перцептронах, существуют и так называемые когнитивные архитектуры – они нацелены на имитацию человеческого интеллекта, как его себе представляют когнитивные науки через призмы разнородных теорий познания и гипотез. 

Для психологии именно здесь скрывается человечность и тот сильный искусственный интеллект, AGI, симулирующий все способности человека. Но как работают когнитивные архитектуры наподобие ACT-R или SOAR, и подойдут ли они для продвижения общего интеллекта? – в нашей статье. 

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии7

Новости

1-битные LLM могут решить проблему энергопотребления ИИ

Время на прочтение4 мин
Количество просмотров1.9K

Большие языковые модели, системы искусственного интеллекта, на которых работают такие чат-боты, как ChatGPT, становятся все лучше и лучше, но они также становятся все больше и больше, требуя все больше энергии и вычислительной мощности.

Читать далее
Всего голосов 4: ↑4 и ↓0+6
Комментарии7

Взять и захостить собственную LLM — зачем это нужно [и нужно ли вообще]

Время на прочтение4 мин
Количество просмотров3.7K

ИТ-индустрия проявляет интерес к большим языковым моделям (LLM). Многие компании — в том числе стартапы и разработчики — предпочитают self-hosting открытых LLM работе с API проприетарных решений. Мы в beeline cloud решили обсудить плюсы и минусы такого подхода, в том числе с финансовой точки зрения.

Читать далее
Всего голосов 6: ↑6 и ↓0+8
Комментарии10

Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство

Уровень сложностиСредний
Время на прочтение32 мин
Количество просмотров3K

Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений. Поэтому на сегодняшний день существует большое количество метрик, подходящих для самых разных задач и ситуаций.

В данном туториале будут рассмотрены популярные метрики для задач классификации, регрессии и кластеризации, а также инструмент для анализа ошибки модели, известный как bias-variance decomposition. Помимо этого, для большей части метрик будут представлены ручные расчёты и реализация с нуля на Python, а в конце вы сможете найти дополнительные источники для более глубокого ознакомления.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии5

Истории

Опыт создания нейросетевого-комикса

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.2K

Опыт создания нейросетевого-комикса

Привет! Почти каждый имел опыт создания изображений при помощи нейросетей или хотя бы видел сгенерированные ими картинки с лишними пальцами. Мне бы хотелось рассказать о том, как я создавал комикс на основе таких картинок, с какими сложностями столкнулся и какие хитрости использовал в работе. Сейчас создано 340 страниц, а основной сюжет комикса близится к завершению.

Примечание:
Пост рассказывает о личном опыте, не рассматривает архитектуру нейронных сетей и не претендует на охват всех возможных решений. Работу над комиксом я начал весной 2023 года, и с тех пор ситуация с нейронными сетями для создания изображений немного изменилась. Сюжет комикса и диалоги полностью написаны мной (ради интереса я попробовал использовать ChatGPT 3.5 для написания диалогов, но был разочарован).

Читать далее
Всего голосов 8: ↑7 и ↓1+7
Комментарии9

Ваш путеводитель по дипфейкам: осведомлён — значит вооружён

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.4K

Даже если вы не знаете, что такое дипфейки, вы наверняка с ними сталкивались. Хотя изменённые и поддельные медиа не являются чем-то новым, дипфейки выводят их на совершенно новый уровень, используя искусственный интеллект для создания изображений, видео и аудио, которые кажутся реальными, но на самом деле таковыми не являются. Дипфейки (DeepFake) — это синтетические медиа, в которых человек на существующем изображении, видео или записи заменяется чьим-либо подобием. Технология DeepFake представляет собой одно из самых интригующих и противоречивых достижений в сфере ИИ. Поскольку дипфейки становятся всё доступнее, а их качество растёт, они создают серьёзные проблемы и в то же время дают новые возможности развития в различных сферах жизни человека.

Читать далее
Всего голосов 9: ↑9 и ↓0+12
Комментарии3

Кратко о KAN для самых неподготовленных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.3K

В апреле практиками-исследователями и математики анонсировали новую архитектуру нейросетей. Крупного резонанса открытие не принесло, хотя с нашей точки зрения, KAN может претендовать на интересную технологию Важнее, что это не просто новая вариация трансформера или исправленная рекуррентная нейронная сеть – это новый подход к нейросетям в принципе, новая архитектура вместо MLP.

Мы написали большую статью по KAN со всеми подробностями, здесь мы совсем кратко пробежимся по основным положениям архитектуры и ее проблемах для самых неподготовленных читателей. 

Но надеемся, что некоторое понимание базовой линейной алгебры и математического анализа присутствует. 

MLP – обычная полносвязная нейросеть, где благодаря послойной активации нейронов мы получаем какой-то конечный результат (данные) на последнем слое. Похоже на имитацию действия мозговых нейронов: благодаря передаче импульса от нейрона к нейрону – мы получаем результат в виде ассоциации, воспоминаний...

Так вот суть KAN сводится к переносу акцента с “активации нейронов” к активации “связей” между ними. 

Конечно, сами связи никуда не деваются, но. Теперь вместо обычных весовых отношений между нейронами – мы получаем обучаемые функции активации – связываем нейроны B-spline’ами. Веса – это такие числовые коэффициенты, которые определяют уровень активации нейронов. Больше вес – сильней сигнал.

Нейросети с большим числом слоев превращаются в черный ящик. Мы не можем понять, как конкретно числовые значения отвечают за те или иные признаки — и как именно признаки в них преобразуются. Поэтому внутренняя часть нейросети нам недоступна.

Читать далее
Всего голосов 8: ↑8 и ↓0+10
Комментарии0

Бот с характером: как образ и персона ботов влияют на клиентов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров533

Привет, Хабр! Меня зовут Ирина Степанова, я занимаюсь аналитикой разговорных интерфейсов в Just AI. Клиенты часто приходят с запросом на «человекоподобных»‎ ботов, но всем ли они нужны? И как специфика компании влияет на образ голосового помощника или чат-бота? В этой статье расскажу, какие боты пользуются популярностью в финтехе, из чего состоит образ бота и дам несколько рекомендаций по разработке личности виртуального помощника.

Читать далее
Всего голосов 5: ↑2 и ↓3+1
Комментарии5

Как ветвятся дорожки. Об ориентировании и обучении беспилотных автомобилей

Время на прочтение11 мин
Количество просмотров856

Некоторое время назад мне очень понравилась шутка «Беспилотный автомобиль отказался везти пассажира в фастфуд, сославшись на первый закон робототехники». Речь об одном из «законов робототехники», которые сформулировал в 1942 году американский фантаст Айзек Азимов, он формулируется так: «Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред». Притом, что законы робототехники – это строго литературный, но не технологический феномен, мне захотелось разобрать на Хабре, как в настоящее время беспилотные автомобили подстраиваются под человеческие поступки, сосуществуют с потоками пешеходов, могут ли учиться без подкрепления и проявлять эвристику, а также какие разработки ведутся в этой области.

Читать далее
Всего голосов 5: ↑5 и ↓0+11
Комментарии8

Устанавливаем модель генерации изображений Stable Diffusion 3 на ComfyUI

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров8.9K

Модель Stable Diffusion 3 вышла вчера, 12 июня, ее файлы (SD3 Medium) и примеры конфигурации были опубликованы в тот же день на Hugging Face. Попробовать модель (пока) можно только в ComfyUI и мы написали небольшую инструкцию, как это сделать.

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии8

Умная стройка как (микро)сервис: следим за возведением зданий

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.3K

В России наблюдается интерес к комплексным системам автоматизации строительства, но их внедрение — долгий и сложный процесс. Поэтому чаще застройщики предпочитают точечные решения. Появился спрос на специализированные нейросетевые микросервисы для подключения к готовым системам заказчика. 

Мы отметили эту тенденцию после одного примечательного проекта по мониторингу процесса строительства. Фактически сначала нас попросили сделать «‎то, не знаю что»‎, причем в очень сжатые сроки. Ситуация могла обернуться провалом, но мы справились и нашли новую перспективную нишу для разработки новых продуктов. Сейчас расскажу, как это было.

Читать далее
Всего голосов 13: ↑13 и ↓0+14
Комментарии1

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров3.6K

В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

Читать далее
Всего голосов 17: ↑16 и ↓1+16
Комментарии8

Большое тестирование видеокарт для машинного обучения

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.2K

Всем привет! Меня зовут Алексей Рудак и я основатель компании Lingvanex, которая занимается решениями в области машинного перевода и транскрипции речи. Для нашей работы мы постоянно тренируем языковые модели. Наша команда использует десятки разных видеокарт, выбранных под разные задачи: где-то нужна мощная станция DGX, а где-то достаточно старой игровой карты типа RTX 2080Ti.  Выбор оптимальной конфигурации GPU сэкономит вам не только время на тренировку, но и деньги.

Интересно то, что в интернете довольно мало статей с тестами GPU именно для скорости тренировки языковых моделей. В основном встречаются только тесты inference. Когда вышел новый чип H100, в отчете NVidia было указано, что при тренировке он быстрее A100 до девяти раз, но для наших задач новая карта оказалась всего на 90% быстрее старой. Для сравнения: у наших облачных провайдеров разница в цене между этими GPU составляла 2 раза, поэтому переходить на новый H100 для экономии денег смысла не было.

В дополнение к этому мы брали на тест станцию DGX, которая состоит из 8 видеокарт A100 80GB и стоит 10 тысяч долларов в месяц. После теста стало ясно что соотношение цена / производительность этой станции нас полностью не устраивает и за эти деньги мы можем взять 66 x RTX 3090, которые в сумме принесут гораздо больше пользы.

Наши языковые модели для перевода имеют до 500 миллионов параметров (в среднем от 100 млн до 300 млн). Возможно, если значительно увеличить кол-во параметров, то соотношение цена / производительность от DGX станет лучше. На данный момент мы не тренируем большие языковые модели, которые могут переводить сразу между всеми языками во всех вариациях, а применяем отдельные языковые модели под каждую языковую пару, например англо-немецкую. Каждая из таких моделей занимает от 120 до 300 Mb.

Читать далее
Всего голосов 9: ↑7 и ↓2+6
Комментарии12

Ближайшие события

Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Собираем компьютер для работы с большими языковыми моделями

Время на прочтение9 мин
Количество просмотров10K

Привет, Хабр! Меня зовут Артем Чебыкин, я ML-инженер и автор медиа вАЙТИ. В этой статье я расскажу о том, какой тип компьютера: стационарный, ноутбук или макбук — больше всего подходит для машинного обучения и почему. Также рассмотрим начальный и продвинутый вариант сборки для машинного обучения больших языковых моделей (LLM).

Читать далее
Всего голосов 15: ↑11 и ↓4+12
Комментарии56

Предсказываем результаты группового этапа и победителя Евро 2024 при помощи машинного обучения и чата GPT 4.0

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.9K

Дисклеймер

По приведенным ниже прогнозам не стоит делать ставки, т.к. они не учитывают букмекерскую маржу, форму команд, а также много других факторов. В целом ставки на спорт весьма специфичное занятие, рассчитанное во многом на психологию человека, скрытые слабости и т. д., поэтому в целом не стоит ставить на основании любых прогнозов в интернете.

Для проведения исследования использовались: датасет: https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017?resource=download , язык программирования R, чат GPT 4.0. 

Цели исследования: 1) проверить точность прогноза в результате машинного обучения на основании базы данных за 20 лет 2) узнать размер выигрыша/проигрыша в букмекерской конторе при использовании приведенного подхода.

Проблематика исследования: здесь не учтены важные факторы такие как уровень и стоимость игроков, текущая форма команд, фактор домашнего турнира для сборной Германии и многое другое.

Это все учтено самими букмекерами при выставлении коэффициентов на матчи, минус 10-15 процентов их маржи, поэтому просто выбирая фаворитов выиграть невозможно.

Лично для меня больший интерес представляет ответ на вопрос - удастся ли машине обнаружить неочевидные закономерности и обыграть букмекера, а не определение фаворита.

 

Методология

В первую очередь был обработан датасет, так как он включает результаты более 47 000 матчей за 152 года, в том числе - различных африканских квалификаций, которые нам не интересны и замедлили бы обработку данных, датасет был сокращен до результатов евро, квалификации к нему и лиге наций.

Читать далее
Всего голосов 2: ↑0 и ↓2-2
Комментарии2

MCD-rPPG: на одной волне с телемедициной

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров693

Современные методы бесконтактной оценки медицинских параметров позволяют по видеопотоку с камеры определять, какой у человека пульс. Для решения таких задач методами машинного обучения нужны данные, и коллеги из СамГМУ подготовили уникальный датасет MCD-rPPG, который содержит видеозаписи людей и их фотоплетизмограммы, а также сопутствующую информацию медицинского характера. Я подробно расскажу про эти данные и покажу первые результаты простых моделей, которые были получены в рамках моей стажировки в центре медицины Sber AI Lab.

Надеюсь, что всем ML-исследователям, и особенно тем, кто увлекается компьютерным зрением, будет интересно поэкспериментировать с этим датасетом и сравнить результаты с нашими бейзлайнами.

Читать далее
Всего голосов 2: ↑2 и ↓0+3
Комментарии2

Мощь машинного обучения

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров4.6K

Продолжим тему использования искусственного интеллекта в кибербезопасности. Сегодня мы не будем много говорить о проблемах инфобеза. Нашей задачей будет разобраться с машинным обучением и тем, как его можно использовать.

Этапы машинного обучения

Общий подход к решению задач машинного обучения состоит из четырех основных этапов: анализа, обучения, тестирования и применения.

Читать далее
Всего голосов 11: ↑8 и ↓3+7
Комментарии0

Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Время на прочтение12 мин
Количество просмотров13K

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.

В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них.

Читать далее
Всего голосов 84: ↑84 и ↓0+109
Комментарии0

Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?

Время на прочтение7 мин
Количество просмотров1.1K

Привет, Хабр! Меня зовут Кирилл, и я — архитектор инженерных систем в «Инфосистемы Джет». «При чем тут машинное обучение?» — спросите вы. Действительно, применимость ML к инженерной инфраструктуре — направление более чем свежее, и на Хабре еще никто эту тему не поднимал (кажется!).

Но сначала я расскажу предысторию. Инженерная инфраструктура в большинстве случаев является критически важной для функционирования дата‑центра. Ее безотказная работа — основной критерий при разработке проекта будущего ЦОД. Повышение энергоэффективности и надежности эксплуатации — не менее важная проблема, будоражащая умы инженеров на протяжении последних лет.

В своей практике проектирования и строительства мы стараемся применять самые современные, но при этом проверенные и надежные решения. Не так давно к нам пришли два производителя решений для управления и мониторинга работы инженерной инфраструктуры с применением машинного обучения. Мы изучили техническую документацию, совместно со специалистами производителей проанализировали подходы, технологии, применяемые в решениях, алгоритмы и модели, лежащие в основе. В этой статье я расскажу о нашем опыте исследования этих продуктов, их применимости и потенциале для внедрения на реальных площадках.

Читать и бояцца
Всего голосов 4: ↑4 и ↓0+6
Комментарии3

Могут ли KAN справляться с задачами компьютерного зрения?

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.9K

Недавняя статья об новой архитектуре нейронных сетей на основе теоремы Колмогорова-Арнольда (KAN Kolmogorov-Arnold Networks) вызвала большой ажиотаж: уже было представлено множество вариаций того, как правильно создавать такие сети, ведутся горячие дебаты, а рабочая схема и имеет ли право на жизнь и многое другое. Цель этой статьи постараться ответить на простой вопрос: могут ли KAN справляться с компьютерным зрением?

Читать далее
Всего голосов 16: ↑16 и ↓0+22
Комментарии2
1
23 ...

Вклад авторов

Работа

Data Scientist
79 вакансий