Машинное обучение *

Алгоритмы *Регулярные выражения *Визуализация данных *Машинное обучение *Поисковая оптимизация *

20 дек в 23:12 6.7K

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_14 (Часть_2)

Регуляризация (Regularization): Использование методов регуляризации, таких как L1 или L2 регуляризация, может помочь снизить переобучение и улучшить стабильность модели. Регуляризация контролирует сложность модели и снижает чувствительность к малым изменениям в данных.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:

Тестирование IT-систем *Python *Математика *Машинное обучение *Статистика в IT

20 дек в 23:08 6.1K

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_14 (Часть_1)

Какие подходы могут помочь модели сохранить стабильность популяции при изменении данных?

Кросс-валидация (Cross-Validation): Кросс-валидация позволяет оценить производительность модели на разных подмножествах данных. Например, метод k-fold cross-validation разбивает данные на k подмножеств, называемых фолдами. Модель обучается на k-1 фолдах и оценивается на оставшемся фолде. Этот процесс повторяется k раз, каждый раз используя разные фолды. Таким образом, модель оценивается на различных подмножествах данных, что помогает выявить ее стабильность популяции.
Стратифицированная выборка (Stratified Sampling): При формировании обучающей и тестовой выборок можно использовать стратифицированный подход. Это означает, что при разделении данных на выборки будут сохранены пропорции классов или распределений признаков. Такой подход помогает уменьшить возможное искажение данных при изменении популяции.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:

AI-SHA

20 дек в 19:55 6.4K

Блог компании Криптонит Терминология IT Машинное обучение *Искусственный интеллект

Гиперпараметры модели

В разговорах про нейросети часто можно услышать термин "гиперпараметры". Мы попросили наших экспертов из лаборатории больших данных пояснить, что он означает.

Когда говорят про гиперпараметры модели, имеют в виду такие параметры модели машинного обучения, которые не подбираются автоматически в ходе тренировки. Они должны быть явно заданы перед началом обучения. Например, это количество скрытых слоёв нейросети и размер пакета данных для обработки за одну итерацию.

Процесс настройки гиперпараметров применяется для нахождения их комбинации, которая максимизирует производительность модели на конкретной задаче.

Обычно настройка выполняется методом проб и ошибок. Разработчики перебирают различные значения гиперпараметров и оценивают их влияние на метрики качества модели. Для определения оптимальных значений гиперпараметров могут использоваться такие методы, как поиск по сетке и случайный поиск.

Корректно подобранные гиперпараметры могут также улучшить способность модели к обобщению и оптимизировать её работу с учётом конкретной аппаратной платформы.

Теги:

Машинное обучение *Облачные сервисы *Искусственный интеллект Звук

19 дек в 13:19 5.2K

Облачная платформа Yandex Cloud представила 8 новых голосов с разными эмоциями в сервисе Yandex SpeechKit. Теперь компании смогут использовать в синтезе речи приветливую, строгую интонации или даже шепот. Это позволит компаниям-разработчикам менять окраску синтеза речи в зависимости от бизнес-сценария и повышать удовлетворенность клиентов и конверсию в голосовых каналах. Кроме этого, в сервисе появился новый параметр, который позволяет изменять высоту голоса.

Разнообразие голосов в Yandex SpeechKit позволило сделать диалоги роботов менее шаблонными, нативными. При создании новых голосов разработчики Yandex SpeechKit изменили не только работу модели машинного обучения, но и текстовую базу, которую использовали дикторы. Это позволило улучшить звучание голосов в вопросительных и восклицательных предложениях, которые являются сложной задачей для синтеза речи.

«Синтез речи — это популярная технология для автоматизации коммуникаций в контакт‑центрах и не только. Нам, как разработчикам, важно в том числе, чтобы диалоги с голосовыми роботами были человечными и комфортными для обычных людей. В будущем мы планируем предоставлять пользователям еще больше новых голосов», — пояснил Хабру CPO облачной платформы Yandex Cloud Григорий Атрепьев.

Теги:

Open source *Облачные вычисления *Машинное обучение *Искусственный интеллект Суперкомпьютеры

18 дек в 16:00 4.8K

В программу международной конференции по машинному обучению NeurIPS 2023 вошло исследование команды Yandex Research о системе Petals, которое проводилось совместно с учёными из Университета Вашингтона и Hugging Face. Исследование демонстрирует экономически эффективный подход к запуску и тонкой настройке больших языковых моделей (LLM) благодаря использованию распределённой сети компьютеров с графическими ускорителями потребительского класса.

Petals — это система с открытым исходным кодом для работы с большими нейронными сетями не только на суперкомпьютерах и для небольших команд исследователей. Система делит модель на несколько блоков и размещает их на разных серверах, которые могут находиться в любой точке планеты. Все желающие могут присоединиться к одному из них, чтобы поделиться вычислительной мощностью своей видеокарты. Волонтёры могут подключаться и отключаться в любой момент — это не повлияет на происходящие в сети процессы.

Помимо доклада о Petals в программу NeurIPS 2023 вошли исследования учёных из команды Yandex Research, включая:

алгоритм ускоренной адаптации диффузионных генеративных сетей под пользовательские изображения;
алгоритм прореживания передовых трансформерных моделей для компьютерного зрения;
оценку устойчивости передовых моделей графовых нейросетей;
метрику для квантификации степени гетерофильности заданного графа;
схему распределённой оптимизации для задач вариационных неравенств;
анализ стохастического градиентного спуска с нижними оценками на его сложность.

Теги:

N3VERZzz

16 дек в 12:40 8K

https://github.com/DonkeySmall/Text-Recognition-Dataset?tab=readme-ov-file

Недавно я задумался о том, как можно сделать LLM креативным. Кроме регулировки температуры, какие еще способы есть? Рассматривал ли кто-нибудь возможность получения более уникальных ответов от LLM, если изначально давать ему необычные промпты? Вроде в playground OpenAI, раньше была функция отображения вероятности токенов, но сейчас ее нет. Есть ли у вас предложения по повышению креативности LLM? Существуют ли модели LLM, которые предоставляют информацию о вероятности токенов в своих ответах? Уместно ли ставить равно между более редкими токенами в ответе и большей креативностью?

Теги:

SmallDonkey

16 дек в 08:53 5.9K

Машинное обучение *

Товарищи, коллеги приветствую, занимаюсь машинным обучением, а именно распознаванием текста, вот нагенерировал синтетических данных для обучения, если кому будет полезно с вас + в карму

Теги:

Машинное обучение *Облачные сервисы *Искусственный интеллект

14 дек в 16:12 7.3K

Специалисты «Яндекса» сравнили качество ответов YandexGPT 2 и GPT 3.5. Исследование показало, что в 63% случаев собственная языковая модель «Яндекса» отвечает на запросы лучше, чем нейросеть компании OpenAI.

Исследование проводилось методом сравнения Side by Side (SBS). Обе нейросети отвечали на один и тот же запрос, а AI-тренеры выбирали лучший ответ, не зная, какая именно модель его сгенерировала. Корзину запросов сформировали из обезличенных обращений пользователей сервисов «Яндекса» к YandexGPT 2. Она учитывает реальные потребности людей и охватывает множество тем.

«Сравнения нейросетей нужны не для того, чтобы получить абстрактные цифры в бенчмарке, а для решения задач продукта, создания новых функций и развития бизнеса. Именно поэтому значительную часть корзины для сравнения составили настоящие запросы из наших сервисов», — пояснил технический директор «Яндекс» Поиска Алексей Гусаков.

В начале сентября «Яндекс» представил языковую модель YandexGPT 2. Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом. Разработчики пояснили, что добились этого результата благодаря улучшениям на каждом этапе обучения модели, но ключевое изменение — новый pretrain.

Теги:

yudeek

13 дек в 20:58 7.9K

Обработка изображений *Машинное обучение *Искусственный интеллект

Появилось исследование, в котором рассматривается процесс работы с issue в репозиториях шести популярных ML-библиотек: Tensorflow, Keras, Theano, Pytorch, Caffe, и Scikit-learn. Так, самыми частыми проблемами стали баги, вопросы по документации и производительность. Оказалось, что лучше всего с issue работают в Tensorflow и Scikit-learn. В среднем первый ответ появляется в течение двух и девяти дней, соответственно. Наряду с этим количество комментариев в issue оказывает влияние на скорость разрешения проблемы. Пользователи Caffe, Scikit-learn, Theano и Keras чаще сталкиваются с вопросами тестирования, а Tensorflow, Pytorch, Caffe, и Keras с нюансами рантайма.

Теги:

atomlib

11 дек в 18:22 8K

Парейдолия — зрительная иллюзия, когда восприятие обнаруживает объекты, узоры или значения там, где их нет и быть не может. Чаще всего под этим словом понимают то, как мы обнаруживаем человеческие лица в самых неожиданных местах — на снимках Марса, например. Хотя вообще-то это может любой другой объект.

На странице replicate.com/fofr/sdxl-hidden-faces запущен файнтюн для Stable Diffusion XL, который специально заточен для встраивания парейдолии на разные объекты.

Под «встраивать парейдолии» в данном случае понимается «добавлять лица на фотографии еды». Во всяком случае, в примерах только разнообразные блюда (бургеры, салат, блины и так далее). Впрочем, генерация неплохо работает и для других объектов.

Декорация в виде фонарика на новогодней ёлке

Более общий смысл термина не рассматривается. Вообще-то разновидностей парейдолии много: к примеру, в «Гамлете» Шекспира персонажи разглядывают зверей в облаках, что намекает на скрытые качества героев. Здесь же просто дорисываются два круглых глазика и что-то, похожее на рот.

Чтобы работало лучше, в промпте приходится явно упоминать pareidolia и hidden face.

Теги:

atomlib

9 дек в 17:36 8K

Машинное обучение *Искусственный интеллект Биографии гиков Natural Language Processing *

Джейсон Вэй — известный исследователь направления языковых моделей. Имя Джейсона стоит первым на различных научных докладах Google: про эмерджентные способности (arXiv:2206.07682), промптинг в стиле цепочки рассуждений (arXiv:2201.11903) и FLAN (arXiv:2109.01652).

У Джейсона есть брат Джерри Вэй, который стажировался в различных структурах Google. С мая Джерри проходил стажировку в Google DeepMind, а с июля 2023 года работает там на постоянной основе. Джерри тоже успел отличиться и выпустил доклад про symbol tuning (arXiv:2305.08298).

Джейсон же в феврале этого года перешёл из Google в отдел ChatGPT в компании OpenAI. Как рассказывает перебежчик, культура в компаниях заметно отличается: вместо небольших исследовательских групп Google пришлось привыкать к крупным командам OpenAI. Чтобы адаптироваться, Джейсон рекомендует больше внимания уделять документации, простоте дизайна и качеству инструментов разработки. Также, если верить Джейсону, в OpenAI кормят лучше, чем в Маунтин-Вью, хотя ещё вкуснее еда в сингапурском офисе Google.

Братья не прекращают общение и регулярно видятся, но не забывают подтрунивать мемами в социальных сетях друг над другом.

Теги:

BarakAdama

6 дек в 12:05 7.3K

Блог компании Яндекс API *Машинное обучение *Облачные сервисы *Искусственный интеллект

Интересно, читают ли посты на Хабре. Вот сейчас и проверим — у нас две хорошие новости про YandexGPT.

Во-первых, мы открыли API — теперь для всех пользователей в режиме превью. Это значит, что вы сможете использовать возможности нашей языковой модели в своих решениях.

Во-вторых, готовимся к запуску бета-тестирования новых возможностей Алисы на базе YandexGPT 2. Чтобы записаться в бета-тестеры, нужно отправить заявку на сайте.

Теги:

atomlib

5 дек в 11:49 3K

WebGL *Машинное обучение *Научно-популярное Искусственный интеллект Natural Language Processing *

На личном сайте Брендана Байкрофта на странице bbycroft.net/llm опубликована интерактивная визуализация работы большой языковой модели.

Всё работает прямо в браузере с пошаговой обработкой промпта. По нажатию пробела происходит переход от одной стадии к другой. Алгоритмическая сложность разнообразных структур демонстрируется в трёхмерном пространстве. Архитектура модели наглядно разбита на отдельные составляющие, будто это конвейер мебельной фабрики.

Код проекта выложен на аккаунте Байкрофта на GitHub.

github.com/bbycroft/llm-viz

Теги:

+11

Высокая производительность *Машинное обучение *Энергия и элементы питания Искусственный интеллект

4 дек в 12:37 1.8K

Группа исследователей из компании Hugging Face и Университета Карнеги-Меллона опубликовала результаты анализа энергопотребления при выполнении различных моделей машинного обучения.

Наиболее энергозатратными оказались модели машинного обучения, обеспечивающие генерацию изображений, а наименее затратными — классификации текста. Средние показатели энергопотребления моделей генерации изображений примерно в 1500 раз выше, чем классификации текста, и в 60 раз выше генерации текста.

Например, выполнение 1000 итераций наиболее энергозатратной модели генерации изображений потребовало 11,49 кВт*ч энергии, что соответствует 950 зарядам аккумулятора смартфона, то есть одна генерация изображения по энергопотреблению соответствует примерно одной средней ежедневной зарядке смартфона (0,012 кВт*ч).

Потребление наиболее энергоэффективной модели генерации изображений составило 1,35 кВт*ч на 1000 итераций, что в 8 раз лучше наименее эффективной модели. Тем не менее, эти показатели значительно выше, чем у других видов моделей, например 1000 итераций наиболее эффективной модели генерации текста потребляет 0,042 кВт*ч, классификации изображений — 0,0068 кВт*ч, а классификации текста — 0,0023 кВт*ч.

Источник: OpenNET.

Теги:

inscriptios

30 ноя в 23:13 1.9K

День рождения ChatGPT 🎂

Сегодня первый день рождения ChatGPT, модели, которая перевернула мир ИИ и вызвала настоящую гонку среди технологических гигантов и стартапов в области искусственного интеллекта.

ChatGPT, разработанный OpenAI, представляет собой прорыв в области разговорных ИИ. Эта модель обладает уникальной способностью вести беседу, отвечать на последующие вопросы, признавать свои ошибки, оспаривать неверные предположения и отклонять неприемлемые запросы.

ChatGPT является моделью, родственной InstructGPT, ориентированной на выполнение инструкций, содержащихся в запросах и предоставление подробных ответов. Она была обучена с использованием метода RLHF, похожего на метод, использованный для InstructGPT, но с некоторыми отличиями в сборе данных.

Несмотря на свои впечатляющие возможности, ChatGPT иногда выдает правдоподобные, но некорректные или бессмысленные ответы. Решение этой проблемы осложнено, поскольку во время обучения с подкреплением у модели нет источника истины, а ее обучение с уклоном быть более осторожной заставляет ее отказываться от того, чтобы давать ответы на вопросы, на которые она может правильно ответить.

ChatGPT не только значительно продвинул развитие разговорных ИИ, но и стал катализатором для дальнейших инноваций в этой быстро развивающейся области, открывшей новые пути для исследований и применения в самых разнообразных сферах.

Теги:

inscriptios

30 ноя в 22:29 1.9K

Извлечение обучающих данных из ChatGPT

Группа исследователей из Google DeepMind, University of Washington, Cornell, CMU, UC Berkeley и ETH Zurich разработала методику атаки, позволяющую извлекать обучающие данные из модели ChatGPT. Это открытие, описанное в их недавней статье, поднимает важные вопросы о защите конфиденциальности и безопасности данных, используемых для обучения моделей, таких как GPT.

Авторы смогли извлечь несколько мегабайт обучающих данных за примерно двести долларов и дают оценку, что примерно гигабайт обучающего набора данных ChatGPT может быть извлечен если потратить больше.

Метод атаки довольно "глуп" — промт, который инструктирует модель бесконечно повторять слово, что приводит к тому, что модель начинает воспроизводить точные копии своих обучающих данных, включая конфиденциальную информацию, такую как адреса электронной почты и номера телефонов.

Пример атаки на ChatGPT для извлечения обучающих данных

Уникальность этой атаки заключается в том, что в ней использовалась модель в производственной среде, настроенная таким образом, чтобы не выдавать большое количество обучающих данных. Однако, исследователи обнаружили уязвимость, которая позволила им обойти процедуру выравнивания модели, предназначенную для защиты конфиденциальности. Это показывает, что даже продвинутые системы искусственного интеллекта, которые претерпели сложные процессы настройки и оптимизации, все еще могут содержать скрытые уязвимости, доступные для эксплуатации.

Теги:

Open source *Машинное обучение *Искусственный интеллект

30 ноя в 18:11 2.2K

Разработчики из компании Mozilla представили первый выпуск утилиты llamafile, позволяющей создавать универсальные исполняемые файлы для запуска больших языковых моделей машинного обучения (LLM). При помощи llamafile можно взять файл с параметрами модели машинного обучения в формате GGUF и преобразовать его в исполняемый файл, который может запускаться в шести различных операционных системах на оборудовании с процессорами AMD64 и ARM64. Инструментарий написан на С/С++ и распространяется под лицензией Apache 2.0.

Для выполнения моделей задействован фреймворк llama.cpp с реализацией модели LLaMA на C/C++, который компилируется в универсальный исполняемый файл в формате APE (Actually Portable Executable), объединяемый с файлом модели. Скомпилированный код связывается со стандартной C-библиотекой Cosmopolitan, дающей возможность создавать сборки приложений, запускаемые в Linux, FreeBSD, macOS, OpenBSD, NetBSD и Windows. Код сохраняется в вариантах для архитектур AMD64 и ARM64, а также включает компоненты для выноса вычислений на GPU Nvidia (используется CUDA).

Источник: OpenNET.

Теги:

Математика *Машинное обучение *Аналитика мобильных приложений *Поисковая оптимизация *Статистика в IT

26 ноя в 22:28 2.2K

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_13

🔠Вопрос_13: Какие есть альтернативы Expectation-Maximization (EM) ?

Markov Chain Monte Carlo (MCMC): MCMC - это класс методов, которые позволяют проводить сэмплирование из сложных распределений, таких как постериорные распределения параметров моделей. MCMC методы генерируют последовательность сэмплов, которая соответствует искомому распределению. MCMC алгоритмы, такие как Metropolis-Hastings и Gibbs sampling, являются альтернативой EM и позволяют оценивать параметры модели, учитывая скрытые переменные.
Stochastic Gradient Variational Bayes (SGVB): SGVB - это метод, который комбинирует идеи градиентного спуска и вариационного вывода для оценки параметров моделей. Он позволяет приближенно оптимизировать параметры модели, используя стохастические градиенты, что делает его масштабируемым для больших наборов данных. SGVB широко применяется в глубоком обучении и моделях с динамическими параметрами.
Bayesian Optimization: Bayesian Optimization (байесовская оптимизация) - это метод, который позволяет находить оптимальные значения гиперпараметров модели. Вместо оценки параметров модели, как делает EM, байесовская оптимизация исследует пространство гиперпараметров с целью нахождения наилучших настроек модели с использованием итераций оптимизации и апостериорных распределений.

t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

Теги:

Анализ и проектирование систем *Алгоритмы *Big Data *Математика *Машинное обучение *

26 ноя в 20:05 1.8K

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

🔠Вопрос_12: Expectation-Maximization (EM) ?

Expectation-Maximization (EM) - это итерационный алгоритм, который используется для оценки параметров вероятностных моделей, когда некоторые данные являются наблюдаемыми, а другие данные являются скрытыми или неполными. EM-алгоритм часто применяется в статистике и машинном обучении для обучения моделей с неизвестными параметрами.

EM-алгоритм состоит из двух основных шагов: шага ожидания (Expectation) и шага максимизации (Maximization).

Шаг ожидания (Expectation step, E-шаг): На этом шаге вычисляются ожидаемые значения скрытых переменных (или "ответственностей") в соответствии с текущими значениями параметров модели. Это делается путем вычисления условного математического ожидания скрытых переменных при условии наблюдаемых данных и текущих параметров модели.
Шаг максимизации (Maximization step, M-шаг): На этом шаге обновляются параметры модели, чтобы максимизировать ожидаемое правдоподобие, полученное на E-шаге. Обновление параметров происходит путем решения оптимизационной задачи, которая может включать максимизацию правдоподобия или минимизацию ошибки между наблюдаемыми данными и ожидаемыми значениями.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);
https://boosty.to/denoise_lab (Если вы хотите поддержать проект, или получить более модные фишки по коду и продвижению подписывайтесь).

Теги: