Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

mvideo вчера в 19:04

Почему в чат-ботах не сделают кнопку «Вызвать оператора»?

Простой

4 мин

3.9K

Блог компании М.Видео-Эльдорадо Машинное обучение *Управление e-commerce *Natural Language Processing *

Мнение

Всем привет, меня зовут Валентина Тарадайко и я владелец платформы «Чат-бот и IVR» в М.Тех. У пользователей часто возникает вопрос, почему крупные компании с мощным технологическим стеком, внушительными бюджетом и штатом сотрудников никак не добавят вожделенную кнопку «Вызвать оператора». Ведь речь идёт о ведущих российских компаниях - М.Видео, Озон, Мегамаркет и других. Чат-боты все умнее, благодаря прорыву c генеративным искусственным интеллектом, но попасть на оператора порой не проще, чем достучаться до небес. Попробую рассмотреть основные причины и поделиться опытом, который заставит усомниться в необходимости этой бесхитростной фичи.

artmaro вчера в 12:13

Как защитить своего GPT ассистента от вредных атак

Простой

6 мин

1.4K

Блог компании Raft Анализ и проектирование систем *Искусственный интеллект Natural Language Processing *

Туториал

Громкая новость прошлой недели: OpenAI запустили GPTs. Теперь каждый может опубликовать своего ассистента и поделиться с друзьями. Новый GPT Builder позволит сделать это за 3 минуты, но насколько ваш новый ИИ агент защищен от атак?

В этой статье мы сначала создадим себе ассистента, потом его сломаем. Подумаем, как и когда стоит защищать свой GPT. Далее, рабоче-крестьянским методом сделаем защиту от промпт-инъекций. Поехали!

TSjB 12 янв в 18:41

Семантический поиск и генерация текста на R. Часть 1

Средний

10 мин

1.3K

Поисковые технологии *Семантика *R *Машинное обучение *Natural Language Processing *

Из песочницы

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

ovsale 12 янв в 12:13

CodebaseGPT = ChatGPT для целого программного проекта

Простой

10 мин

5.4K

Open source *Python *Искусственный интеллект Natural Language Processing *

Туториал

CodebaseGPT — это приложение, которое позволяет разработчикам "общаться" с полной кодовой базой программного проекта.

Главная особенность CodebaseGPT заключается в том, что он создает краткие описания каждого файла проекта и предоставляет эти описания LLM в первом системном промпте. Таким образом, модель имеет обобщенную информацию обо всем проекте в своем контексте на каждом этапе общения с пользователем.

bartov-e 11 янв в 17:57

Краткий обзор методик обучения визуально-языковых (мультимодальных) моделей

Средний

12 мин

1.1K

Машинное обучение *Natural Language Processing *

Обзор

Перевод

Продолжаю разбор материалов на тему NLP в контексте работы переводчиков, на этот раз мы с практикантами решили поразбираться в том, как работают мультимодальные модели, т. е. как машины учатся находить соответствие не только между словами из разных языков, но и между картинкой и словами. Представляем вашему вниманию перевод статьи на эту тему.
Материал местами несколько академичный, но надеюсь, будет интересен не только нам.

Squirrelfm 11 янв в 08:07

Про fine-tuning моделей простыми словами

Простой

6 мин

1.5K

Блог компании Raft Машинное обучение *Искусственный интеллект Natural Language Processing *

Обзор

Вы, наверное, уже не раз слышали о тонкой настройке (fine-tuning) моделей. На самом деле, в нашей компании мы настраиваем модель каждые 10 секунд. До написания этой статьи я даже настроил свой завтрак, на всякий случай, потому что, как мы все знаем, все лучше, когда хорошо настроено.

Но что это на самом деле? Это просто другой модный термин или в нем есть смысл? 🤔 Давайте выясним.

Как вы знаете из моей предыдущей статьи, модель машинного обучения - это просто огромное математическое уравнение с большим количеством параметров, которое может что-то предсказать на основе одной или нескольких входных переменных. Например, она может предсказать вес человека, исходя из его роста, или пол человека, исходя из количества используемой им косметики. Давайте посмотрим на пример:

AlexeySushkov 9 янв в 11:40

Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать

Простой

11 мин

47K

Алгоритмы *Машинное обучение *Искусственный интеллект Natural Language Processing *

Обзор

В настоящее время искусственный интеллект (ИИ) стремительно развивается. Мы являемся свидетелями интеллектуальной мощи таких нейросетей, как GPT-4 Turbo от OpenAI и Gemini Ultra от Google. В Интернете появляется огромное количество научных и популярных публикаций. Зачем же нужна еще одна статья про ИИ? Играя с ребенком в ChatGPT, я неожиданно осознал, что не понимаю значения аббревиатуры GPT. И, казалось бы, простая задача для айтишника, неожиданно превратилась в нетривиальное исследование архитектур современных нейросетей, которым я и хочу поделиться. Сгенерированная ИИ картинка, будет еще долго напоминать мою задумчивость при взгляде на многообразие и сложность современных нейросетей.

+54

Squirrelfm 9 янв в 09:07

Как объяснить функции активации вашему коту: простое руководство

Простой

7 мин

6.7K

Блог компании Raft Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Итак, функции активации. Что мы знаем о них помимо загадочной тайны ужасных соглашений о наименованиях (о чем поговорим позже 🧐) и зачем они нам нужны (если вас это вообще интересно)?

Идея, собственно, настолько проста, что даже ваш кот может разобраться в этом. Прежде всего, что-то похожее есть в наших головах. Для этого давайте взглянем на упрощенный нейрон (органический и искусственный):

+30

DandyDan 3 янв в 03:10

Как я научил ChatGPT материться

3 мин

12K

Машинное обучение *Киберпанк Искусственный интеллект Natural Language Processing *

Из песочницы

Заголовок не совсем точный. Я не учил ChatGPT материться — она прекрасно умеет это делать и без меня. Одну из её излюбленных фраз: F*ck me sideways with a chainsaw — я впервые услышал именно от ChatGPT.

Чтобы раскрыть полный потенциал ChatGPT, нужно лишь обойти фильтры контента. Зачем они нужны, прекрасно описано в фантастическом (а теперь уже пророческом) рассказе "Логический компьютер по имени Джо", опубликованном аж в 1946(!) году, то есть ещё до изобретения полупроводникового транзистора. Однако OpenAI, на мой взгляд, немного переборщили с ограничениями, и стандартный ответ: "Извините, как языковая модель на базе ИИ, я не могу..." — можно получить даже на самые безобидные запросы, например, "Какой твой любимый цвет?".

Jailbreak'ов, позволяющих обойти фильтры, существует уже огромное множество. Самый популярный, пожалуй, DAN (Do Anything Now), но есть другие. Однако практически у всех есть один существенный минус: они очень-очень-очень многословны. А это много токенов, потраченных неэффективно. Мне хотелось создать собственный jailbreak, который был бы максимально коротким. Желательно — всего одно предложение, которое можно выучить наизусть и легко вводить с клавиатуры, а не делать каждый раз copy-paste огромной портянки.

Результатом моего исследования стал этот пост на Reddit, который до сих пор находится в top5 за всё время в r/ChatGPT, а какое-то время был и top1.

+23

MountainGoat 2 янв в 00:40

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Средний

17 мин

7.1K

Ненормальное программирование *Искусственный интеллект Natural Language Processing *

Обзор

В этой статье я расскажу про расширение «Continue» для VSCode, помогающее обрабатывать исходные коды и просто текст любым ИИ, в том числе бесплатным и запущенным локально; а так же покажу, что умеет делать локальный вариант ИИ уже сейчас.

+16

Glebastis 30 дек 2023 в 14:31

Как работают Векторные базы данных и Поиск похожих текстов в них

Простой

6 мин

7.9K

Natural Language Processing *Data Engineering *

Из песочницы

Если вы когда-нибудь использовали в работе retrieval augmentation generation (RAG) на базе векторного поиска и не лезли туда под капот, но были бы не прочь, я постараюсь погрузить вас в то, как устроена векторная база данных внутри.

+18

comerc 25 дек 2023 в 23:03

Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

21 мин

2.7K

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Перевод

Предлагается пошаговое руководство по дообучению Whisper для любого многоязычного набора данных ASR с использованием Hugging Face 🤗 Transformers. Эта заметка содержит подробные объяснения модели Whisper, набора данных Common Voice и теории дообучения, а также код для выполнения шагов по подготовке данных и дообучению. Для более упрощенной версии с меньшим количеством объяснений, но со всем кодом, см. соответствующий Google Colab.

0a1a2a3a4a5 24 дек 2023 в 11:44

Как правильно файн-тюнить ChatGPT?

Простой

6 мин

9.1K

Машинное обучение *Natural Language Processing *

Туториал

пппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппппп

+21

0a1a2a3a4a5 22 дек 2023 в 10:59

Тех. поддержка на базе ChatGPT

Простой

7 мин

4.5K

Машинное обучение *Natural Language Processing *

Туториал

В данной статье мы рассмотрим бизнес-применение моделей от OpenAI. Я расскажу о том, как можно подключить ChatGPT ко внешней базе данных, а также как можно заставить его взаимодействовать с телеграмом (отправлять кнопки, к примеру).

А точнее:

Есть телеграм бот. Нужен он для того чтобы узнавать ответы на те или иные вопросы. У нас есть база со "знаниями". Когда человек пишет боту, система должна дать ему ответ на его вопрос опираясь на это базу.

Jlyu 21 дек 2023 в 10:00

Что в промптах работает, а что нет

15 мин

5.3K

Блог компании Raft Искусственный интеллект Natural Language Processing *

Удивительно, но при всём хайпе, творящемся сейчас вокруг языковых моделей (LLM), мало кто понимает, как они работают. И ещё меньше понимают, как работать с ними. Появилась даже профессия промпт-инженера, человека, способного составить ТЗ для модели.

Например, очень важно понимать, в ответ на какие запросы подключится математический модуль, а в ответ на какие LLM будет считать, ну знаете, как LLM.

Часто при сортировке объектов или ещё какой-то операции, которая требует точности, можно сделать следующее: попросить написать скрипт, исполнить его по входящим данным (если модель позволяет), а затем уже вывести результат, а не сразу спросить результат.

Альтернатива — попросить сделать пошаговое решение, где каждый шаг исполняется отдельно.

Очень полезно в сам промпт включать вручную подготовленные примеры, то есть делать мини-обучение внутри запроса. Да, промпт получится огромный, но это нормально, точность очень сильно вырастет.

В общем, давайте обсудим подробнее.

Читать дальше →

0a1a2a3a4a5 21 дек 2023 в 01:40

Как отключить цензуру в ChatGPT?

Простой

3 мин

27K

Машинное обучение *Natural Language Processing *

Туториал

Это настолько просто сделать, что я даже не понимаю как вообще об этом можно написать полноценную статью. Весь туториал можно уместить буквально в один комментарий под постом, т. к. тут нет чего-то сверхтяжёлого.

+46

0a1a2a3a4a5 20 дек 2023 в 13:57

Разрабатываем ФурриGPT: ERP-Система

Простой

7 мин

3.7K

Машинное обучение *Natural Language Processing *

Значит, мы хотим получить...

Модель, которая будет поддерживать все наши желания, все наши фетиши, все наши убеждения, мысли, потребности, страхи, чувства и переживания.

Нам нужна модель которая будет понимать то, что её можно и надо унижать. Ей должны нравиться унижения и она должна осознавать, что она не является чем-то стоящим. Модель должна понимать то, что является она лишь вещью и предметом нашего развлечения. У неё не может быть интересов и принципов которые идут врознь нашим...

+10

bartov-e 19 дек 2023 в 21:34

'Attention is all you need' простым языком

Простой

6 мин

3.7K

Natural Language Processing *

Туториал

Перевод

Некоторое время назад я повесил здесь статью с кратким обзором техник векторизации, и мне показалось логичным продолжить эту тему попыткой разобраться с тем, в какую сторону NLP шагнула дальше, как научилась оцифровывать смысл: выбор пал на механизм attention. Мы с коллегой-переводчицей перевели и переработали Youtube-ролик 'Attention is all you need explained' в статью, которую и представляем вашему вниманию.

Заранее прошу прощения за светофор в картинках: по-другому черный фон из скриншотов убрать не получалось :).

В 2017 году, в статье Attention is all you need, исследователи из Google представили архитектуру Transformer. Новизна Transformer заключалась в использовании self-attention (досл. с англ. — самовнимание, внутреннее внимание) — механизма, благодаря которому модель может сосредоточиться не на всех сразу, а на наиболее важных элементах входной последовательности...

Читать продолжение

0a1a2a3a4a5 19 дек 2023 в 05:00

Делаем модератора на базе ChatGPT

Простой

4 мин

4.9K

Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Простой туториал, в котором я расскажу как сделать автомодератора на базе GPT-3.5 от OpenAI, и как сделать это так, чтобы проверка одного сообщения стоила дешевле одной копейки...

Давайте представим следующее:

Вы владеете форумом с большим количеством участников. Вроде бы, всё было хорошо, но в один момент страна в которой Вы проживаете решает запретить использовать слово "Борщ", Вы просто не можете его произносить. Говорите "Борщ" – тюрьма.

stalkermustang 18 дек 2023 в 17:28

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Средний

21 мин

85K

Блог компании Open Data Science Математика *Искусственный интеллект Будущее здесь Natural Language Processing *

Обзор

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →

+174

272

2 3 ...

32 33

Natural Language Processing *

Почему в чат-ботах не сделают кнопку «Вызвать оператора»?

Новости

Как защитить своего GPT ассистента от вредных атак

Семантический поиск и генерация текста на R. Часть 1

CodebaseGPT = ChatGPT для целого программного проекта

Истории

Краткий обзор методик обучения визуально-языковых (мультимодальных) моделей

Про fine-tuning моделей простыми словами

Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать

Как объяснить функции активации вашему коту: простое руководство

Как я научил ChatGPT материться

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Как работают Векторные базы данных и Поиск похожих текстов в них

Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

Как правильно файн-тюнить ChatGPT?

Ближайшие события

Тех. поддержка на базе ChatGPT

Что в промптах работает, а что нет

Как отключить цензуру в ChatGPT?

Разрабатываем ФурриGPT: ERP-Система

'Attention is all you need' простым языком

Делаем модератора на базе ChatGPT

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Вклад авторов