Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

AndrewShmig 9 часов назад

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack

Средний

5 мин

Информационная безопасность *Машинное обучение *Natural Language Processing *

Кейс

Хакеры придумывают всё более изощренные способы атаки на искусственный интеллект. Один из наиболее интересных — это атака «плавающего окна внимания»: злоумышленники манипулируют контекстом диалога с ИИ, подталкивая его к опасным выводам и смещению фокуса. Чрезвычайно тонкий подход, позволяющий обходить защиту ИИ. Демонстрирую на примерах...

Узнать подробности

atomlib 2 дек в 18:12

Исследователи заставили ChatGPT процитировать данные, на которых он учился

Простой

8 мин

22K

Машинное обучение *Научно-популярное Искусственный интеллект Natural Language Processing *

Обзор

Несколько похожая, но иная атака от @andrewmccalip

Научная работа «Scalable Extraction of Training Data from (Production) Language Models» (arXiv:2311.17035) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.

Читать дальше →

+33

bartov-e 2 дек в 16:23

Краткий обзор техник векторизации в NLP

Простой

21 мин

2.1K

Python *Natural Language Processing *

Обзор

Перевод

Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно.

===

Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового.

Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.

+10

ph_piter 30 ноя в 22:38

Увлекательный лексический анализ языка Rust

7 мин

Блог компании Издательский дом «Питер» Занимательные задачки Алгоритмы *Rust *Natural Language Processing *

Перевод

Давайте поговорим о лексическом анализе. Сначала я собирался назвать этот пост «Реализуем токенайзер», но ветер переменился, времена изменились… и, чтобы не утонуть в потоке комментариев вида «фыр, а где мой BPE-токенизатор LLama, который вы мне обещали», ограничимся пока лексическим анализом.

Эта статья ориентирована на читателей, только начинающих пробовать свои силы в лексическом анализе Rust. Поэтому, пожалуйста, помните о целевой аудитории, прежде, чем сетовать: «хм, да я тут на коленке набросал поиск в таблице, и он работает в десять раз лучше, чем это недоразумение» и «с такими временами жизни я сам до завершения программы не доживу».

Но конструктивные комментарии и подсказки, как действительно можно было бы сделать лучше, всегда приветствуются.

Длинновато для вводного дисклеймера. Надеюсь, дочитав до этого места, вы уже хотя бы разок вздрогнули.

Довольно слов, приступим.

+14

akimovpro 30 ноя в 17:36

ChatGPT исполняется год. Вспоминаем, что произошло с продуктом за это небольшое время

Простой

4 мин

3.1K

Разработка мобильных приложений *Машинное обучение *Искусственный интеллект Natural Language Processing *

Ретроспектива

Удивительно было сегодня обнаружить в знакомом интерфейсе ChatGPT праздничную шапочку. Я уж было подумал, что OpenAI решил украсить интерфейс к новому году. Ан нет, сегодня и правда большая веха этого замечательного продукта, повлиявшего на жизни сотен миллионов человек. И захотелось вспомнить и зафиксировать все те удивительные вещи, которые за этот год произошли у ChatGPT. В одном месте это все обнаружить не нашлось, пришлось лазить по анонсам OpenAI, а также обзорам (1 и 2). Итак, с чего всё начиналось.

Digital_Design 28 ноя в 15:00

Как мы обучили нейросеть создавать «разумные» протоколы совещаний

8 мин

5.8K

Блог компании Digital Design Машинное обучение *Искусственный интеллект Natural Language Processing *

Применение искусственного интеллекта в окружающей нас действительности стремительно растет — международная консалтинговая компания McKinsey подсчитала, что среднее количество возможностей ИИ, используемых в организациях, удвоилась за последние четыре года. Занимаясь автоматизацией бизнес‑процессов, мы также начали исследования в этой области для упрощения и ускорения решения корпоративных задач. Мы уже писали ранее о первом опыте работы над автоматической генерацией протоколов совещаний. А в данной статье расскажем, как применили нейросетевые технологии для абстрактивной суммаризации, требующей минимальной доработки человеком.

YarKo_69 28 ноя в 11:08

Дообучение saiga2_7b_lora

Средний

10 мин

2.5K

Программирование *Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Из песочницы

Дообучение 7-миллиардной модели Saiga2 под свои задачи, используя сгенерированный датасет с помощью GPT. В данной статье есть все необходимые ссылки и код для предобработки и запуска обучения модели, а также квантования модели.

+15

gitarizd 28 ноя в 08:36

Agency: The Go Way to AI. Часть 1

Средний

4 мин

1.7K

Программирование *Go *Машинное обучение *Искусственный интеллект Natural Language Processing *

Из песочницы

Рост генеративного ИИ, API OpenAI и локальные LLM, влияют на то, как мы разрабатываем приложения. У разработчиков на Python и JavaScript есть много инструментов, особо популярен LangChain. Однако, у гошников вариантов меньше. LangChainGo, порт оригинального LangChain, пытается маппить питонячие концепции на го, получается не слишком идеоматично. К тому же, есть ощущение, что LangChain сам по себе переусложнен.

Из-за потребности в простом, но мощном инструменте для Go, мы разработали Agency. Эта простая гошная либа с маленьким ядром, которую мы постарались тщательно спроектировать.

FlexiTech 24 ноя в 13:29

PayPal под капотом: AI-модель для определения тональности и тегирования обращений от пользователей

Простой

3 мин

618

Блог компании FlexiTech.ai Платежные системы *Искусственный интеллект Natural Language Processing *

Кейс

Описанная в этой статье AI-модель помогла удовлетворить все требования регулятора и продолжить работу на рынке UK для крупнейшего fintech PayPal. Данное решение универсально и подходит для банков и других сервисов, где быстрая и эффективная обработка обращений клиентов и оптимизации службы поддержки — ключевой аспект финансового благополучия компании.

У нас было: более 5000 диалогов, 3,5 месяца на разработку и несколько агентов поддержки. А теперь подробнее про решение!

slivka_83 24 ноя в 09:00

Большие языковые модели (LLM) в задачах

Простой

15 мин

4.4K

Python *Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Сейчас в мире довольно много разговор о том, что LLM оставят всех нас без работы. Чтобы понять о чем речь рассмотрим на практических примерах какие задачи из коробки могут решать современные большие языковые модели (large language models, LLM).

З.Ы. Подписывайтесь на мой телеграм-канал :)

alenusch 22 ноя в 14:30

MERA — инструктивный бенчмарк для оценки фундаментальных моделей

12 мин

2.5K

Блог компании SberDevices Машинное обучение *Natural Language Processing *

Оценка ИИ — комплексная, сложная, но невероятно важная задача. Для тестирования моделей обычно используют бенчмарки — набор сложных заданий, решив которые, можно оценить способности языковых моделей. Благодаря бенчмаркам пользователи могут получить метрики по разным задачам и доменам, чтобы понять, как применять ту или иную модель; а исследователи получают объективную информацию, чтобы корректнее обучать свою модель для русского или другого языка, адаптировать ее, понимать, в какую сторону развивать исследования.

Ранее мы писали про коллаборативный проект Russian SuperGLUE нашей команды AGI NLP SberDevices, лаборатории Noah’s Ark Huawei и факультета компьютерных наук ВШЭ. Russian SuperGLUE (RSG) долгое время являлся стандартом, признанным академическими кругами и бизнесом. Однако с развитием языковых моделей становятся сложнее и способы их оценки. В качестве некоторого следующего витка развития процедуры оценки генеративных моделей для русского языка мы рассказывали про few-shot- и zero-shot-оценку на бенчмарке TAPE.

Сегодня исследователи говорят о новом поколении моделей, так называемых фундаментальных моделях. Эти модели обучались на более крупных объемах данных, что позволяет решать на них одновременно большое количество задач и взаимодействовать с ними через текстовые инструкции. Мы наблюдаем их удивительные возможности, но хотим объективно оценивать, что именно они действительно могут. Для этого мы выпустили новый инструктивный бенчмарк MERA: Multimodal* Evaluation for Russian-language Architectures.

+28

kuznetsoff87 22 ноя в 12:00

Kandinsky Video — первая российская модель генерации видео по тексту

Сложный

8 мин

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Natural Language Processing *

Обзор

Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.

Жозеф Плато, август 1833 года

В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).

+36

ddimitrov 22 ноя в 11:54

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

23K

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Natural Language Processing *

Обзор

Без чувства современности художник останется непризнанным.

Михаил Пришвин

В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.

Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.

В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

+57

Sber 21 ноя в 17:52

Генеративная «уловка-22», или Почему ИИ плохо отличает сгенерированные тексты от написанных человеком

Простой

5 мин

3.5K

Блог компании Сбер Машинное обучение *Искусственный интеллект Natural Language Processing *

Мнение

Соблазн выдать текст, написанный ИИ, за оригинальный собственный стал особенно велик в последние годы, когда нейросети сделали огромный шаг вперёд. Вместе с этим, конечно же, появилась потребность определять тексты, написанные ИИ, а не человеком. Дошло до того, что некоторые учителя не засчитывают сочинения всему классу, хотя большинство работ действительно было написано учениками. Их тексты просто вызвали ошибочное срабатывание системы — ложноположительное (false positive). В этой статье мы разберём, почему инструменты определения сгенерированных текстов так неточны и можно ли с этим что-нибудь сделать.

+14

Ilya_Ryabov 16 ноя в 10:43

Создание видео zoom in и zoom out с помощью inpainting в Kandinsky

Средний

5 мин

2.1K

Блог компании Сбер Обработка изображений *Машинное обучение *Natural Language Processing *

Из песочницы

Развитие text2image-моделей открывает новые интересные возможности для создания креативного контента. Функция inpainting в Kandinsky позволяет создавать видео zoom in и zoom out с иллюзией приближения или отдаления от единого изображения. Таким образом Sber AI с коллегами из SberDevices продолжают развивать генеративные модели и расширяют творческие возможности умных устройств семейства "Салют".

DenisBerezutskiy 14 ноя в 03:37

Улучшаем пунктуатор на стенограммах

Средний

29 мин

1.3K

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *

Из песочницы

Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.

Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.

Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.

В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.

+13

akimovpro 13 ноя в 13:51

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

Простой

11 мин

18K

Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

Обзор

Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.

Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.

Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.

Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.

Итак, что нового

+13

murat_apishev 13 ноя в 10:56

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Сложный

12 мин

4.7K

Машинное обучение *Искусственный интеллект Natural Language Processing *

Обзор

Разносторонний системный рассказ о том, какими способами можно научить модель работать с длинными последовательностями. Для специалистов, занимающихся обучением LLM, и всех, кто хочет разобраться в теме.

+29

prohor33 10 ноя в 17:24

GigaSearch или Поисковая система на GigaChat

Средний

4 мин

4.8K

Блог компании Сбер Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *

Галлюцинации — это явление, которое до недавнего времени было привилегией человеческого сознания. Однако, с развитием текстовых генеративных моделей, таких как GigaChat и ChatGPT, возникла возможность наблюдать подобные "иллюзии" и в мире искусственного интеллекта.

Есть случаи, когда галлюцинации генеративной модели вполне уместны. Например, если вы попросите модель сгенерировать детскую сказку, то наличие в ней выдуманных персонажей и событий будет весьма кстати и понравится малышу.

Но мы точно не хотим получать выдуманную информацию про реальных людей или события. Кому интересно почитать о том, как мы боремся с галлюцинациями в GigaChat — добро пожаловать под кат.

+16

koch 7 ноя в 16:01

Классификация авторства текстов. Обзор Kaggle соревнования «H2O Predict the LLM»

Простой

4 мин

1.3K

Хакатоны Машинное обучение *Natural Language Processing *

Репортаж

В день, когда Сэм Альтман в темной одежде на темном фоне рассказывал миру о запуске GPT-4-Turbo, в те же самые минуты на Kaggle завершалось небольшое, но любопытное соревнование “Predict the LLM”. Цель – узнать автора по тексту. Авторами текстов выступили 7 анонимных больших языковых моделей…

2 3 ...

31 32

Natural Language Processing *

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack

Новости

Исследователи заставили ChatGPT процитировать данные, на которых он учился

Краткий обзор техник векторизации в NLP

Увлекательный лексический анализ языка Rust

Истории

ChatGPT исполняется год. Вспоминаем, что произошло с продуктом за это небольшое время

Как мы обучили нейросеть создавать «разумные» протоколы совещаний

Дообучение saiga2_7b_lora

Agency: The Go Way to AI. Часть 1

PayPal под капотом: AI-модель для определения тональности и тегирования обращений от пользователей

Большие языковые модели (LLM) в задачах

MERA — инструктивный бенчмарк для оценки фундаментальных моделей

Kandinsky Video — первая российская модель генерации видео по тексту

Kandinsky 3.0 — новая модель генерации изображений по тексту

Ближайшие события

Генеративная «уловка-22», или Почему ИИ плохо отличает сгенерированные тексты от написанных человеком

Создание видео zoom in и zoom out с помощью inpainting в Kandinsky

Улучшаем пунктуатор на стенограммах

Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

GigaSearch или Поисковая система на GigaChat

Классификация авторства текстов. Обзор Kaggle соревнования «H2O Predict the LLM»

Вклад авторов