Хакеры придумывают всё более изощренные способы атаки на искусственный интеллект. Один из наиболее интересных — это атака «плавающего окна внимания»: злоумышленники манипулируют контекстом диалога с ИИ, подталкивая его к опасным выводам и смещению фокуса. Чрезвычайно тонкий подход, позволяющий обходить защиту ИИ. Демонстрирую на примерах...
Natural Language Processing *
Компьютерный анализ и синтез естественных языков
Новости
Исследователи заставили ChatGPT процитировать данные, на которых он учился
Несколько похожая, но иная атака от @andrewmccalip
Научная работа «Scalable Extraction of Training Data from (Production) Language Models» (arXiv:2311.17035) анализирует извлечение данных датасетов обучения из различных языковых моделей. Исследователи проверили как локальные модели, так и коммерческое решение от OpenAI. С помощью атаки на выравнивание удалось заставить ChatGPT процитировать данные, на которых обучали GPT-3.5.
Краткий обзор техник векторизации в NLP
Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно.
===
Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового.
Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.
Увлекательный лексический анализ языка Rust
Давайте поговорим о лексическом анализе. Сначала я собирался назвать этот пост «Реализуем токенайзер», но ветер переменился, времена изменились… и, чтобы не утонуть в потоке комментариев вида «фыр, а где мой BPE-токенизатор LLama, который вы мне обещали», ограничимся пока лексическим анализом.
Эта статья ориентирована на читателей, только начинающих пробовать свои силы в лексическом анализе Rust. Поэтому, пожалуйста, помните о целевой аудитории, прежде, чем сетовать: «хм, да я тут на коленке набросал поиск в таблице, и он работает в десять раз лучше, чем это недоразумение» и «с такими временами жизни я сам до завершения программы не доживу».
Но конструктивные комментарии и подсказки, как действительно можно было бы сделать лучше, всегда приветствуются.
Длинновато для вводного дисклеймера. Надеюсь, дочитав до этого места, вы уже хотя бы разок вздрогнули.
Довольно слов, приступим.
Истории
ChatGPT исполняется год. Вспоминаем, что произошло с продуктом за это небольшое время
Удивительно было сегодня обнаружить в знакомом интерфейсе ChatGPT праздничную шапочку. Я уж было подумал, что OpenAI решил украсить интерфейс к новому году. Ан нет, сегодня и правда большая веха этого замечательного продукта, повлиявшего на жизни сотен миллионов человек. И захотелось вспомнить и зафиксировать все те удивительные вещи, которые за этот год произошли у ChatGPT. В одном месте это все обнаружить не нашлось, пришлось лазить по анонсам OpenAI, а также обзорам (1 и 2). Итак, с чего всё начиналось.
Как мы обучили нейросеть создавать «разумные» протоколы совещаний
Применение искусственного интеллекта в окружающей нас действительности стремительно растет — международная консалтинговая компания McKinsey подсчитала, что среднее количество возможностей ИИ, используемых в организациях, удвоилась за последние четыре года. Занимаясь автоматизацией бизнес‑процессов, мы также начали исследования в этой области для упрощения и ускорения решения корпоративных задач. Мы уже писали ранее о первом опыте работы над автоматической генерацией протоколов совещаний. А в данной статье расскажем, как применили нейросетевые технологии для абстрактивной суммаризации, требующей минимальной доработки человеком.
Дообучение saiga2_7b_lora
Дообучение 7-миллиардной модели Saiga2 под свои задачи, используя сгенерированный датасет с помощью GPT. В данной статье есть все необходимые ссылки и код для предобработки и запуска обучения модели, а также квантования модели.
Agency: The Go Way to AI. Часть 1
Рост генеративного ИИ, API OpenAI и локальные LLM, влияют на то, как мы разрабатываем приложения. У разработчиков на Python и JavaScript есть много инструментов, особо популярен LangChain. Однако, у гошников вариантов меньше. LangChainGo, порт оригинального LangChain, пытается маппить питонячие концепции на го, получается не слишком идеоматично. К тому же, есть ощущение, что LangChain сам по себе переусложнен.
Из-за потребности в простом, но мощном инструменте для Go, мы разработали Agency. Эта простая гошная либа с маленьким ядром, которую мы постарались тщательно спроектировать.
PayPal под капотом: AI-модель для определения тональности и тегирования обращений от пользователей
Описанная в этой статье AI-модель помогла удовлетворить все требования регулятора и продолжить работу на рынке UK для крупнейшего fintech PayPal. Данное решение универсально и подходит для банков и других сервисов, где быстрая и эффективная обработка обращений клиентов и оптимизации службы поддержки — ключевой аспект финансового благополучия компании.
У нас было: более 5000 диалогов, 3,5 месяца на разработку и несколько агентов поддержки. А теперь подробнее про решение!
Большие языковые модели (LLM) в задачах
Сейчас в мире довольно много разговор о том, что LLM оставят всех нас без работы. Чтобы понять о чем речь рассмотрим на практических примерах какие задачи из коробки могут решать современные большие языковые модели (large language models, LLM).
З.Ы. Подписывайтесь на мой телеграм-канал :)
MERA — инструктивный бенчмарк для оценки фундаментальных моделей
Оценка ИИ — комплексная, сложная, но невероятно важная задача. Для тестирования моделей обычно используют бенчмарки — набор сложных заданий, решив которые, можно оценить способности языковых моделей. Благодаря бенчмаркам пользователи могут получить метрики по разным задачам и доменам, чтобы понять, как применять ту или иную модель; а исследователи получают объективную информацию, чтобы корректнее обучать свою модель для русского или другого языка, адаптировать ее, понимать, в какую сторону развивать исследования.
Ранее мы писали про коллаборативный проект Russian SuperGLUE нашей команды AGI NLP SberDevices, лаборатории Noah’s Ark Huawei и факультета компьютерных наук ВШЭ. Russian SuperGLUE (RSG) долгое время являлся стандартом, признанным академическими кругами и бизнесом. Однако с развитием языковых моделей становятся сложнее и способы их оценки. В качестве некоторого следующего витка развития процедуры оценки генеративных моделей для русского языка мы рассказывали про few-shot- и zero-shot-оценку на бенчмарке TAPE.
Сегодня исследователи говорят о новом поколении моделей, так называемых фундаментальных моделях. Эти модели обучались на более крупных объемах данных, что позволяет решать на них одновременно большое количество задач и взаимодействовать с ними через текстовые инструкции. Мы наблюдаем их удивительные возможности, но хотим объективно оценивать, что именно они действительно могут. Для этого мы выпустили новый инструктивный бенчмарк MERA: Multimodal* Evaluation for Russian-language Architectures.
Kandinsky Video — первая российская модель генерации видео по тексту
Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.
Жозеф Плато, август 1833 года
В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).
Kandinsky 3.0 — новая модель генерации изображений по тексту
Без чувства современности художник останется непризнанным.
Михаил Пришвин
В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.
Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.
В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.
Ближайшие события
Генеративная «уловка-22», или Почему ИИ плохо отличает сгенерированные тексты от написанных человеком
Соблазн выдать текст, написанный ИИ, за оригинальный собственный стал особенно велик в последние годы, когда нейросети сделали огромный шаг вперёд. Вместе с этим, конечно же, появилась потребность определять тексты, написанные ИИ, а не человеком. Дошло до того, что некоторые учителя не засчитывают сочинения всему классу, хотя большинство работ действительно было написано учениками. Их тексты просто вызвали ошибочное срабатывание системы — ложноположительное (false positive). В этой статье мы разберём, почему инструменты определения сгенерированных текстов так неточны и можно ли с этим что-нибудь сделать.
Создание видео zoom in и zoom out с помощью inpainting в Kandinsky
Развитие text2image-моделей открывает новые интересные возможности для создания креативного контента. Функция inpainting в Kandinsky позволяет создавать видео zoom in и zoom out с иллюзией приближения или отдаления от единого изображения. Таким образом Sber AI с коллегами из SberDevices продолжают развивать генеративные модели и расширяют творческие возможности умных устройств семейства "Салют".
Улучшаем пунктуатор на стенограммах
Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.
Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.
Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.
В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.
Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки
Неделю назад я получил уведомление о начале трансляции первой разработческой конференции от OpenAI. Было неудобно смотреть эфир живьём, так что я уложил детей спать, и ночью, заварив себе какао, с предвкушением открыл YouTube.
Конечно, я к тому времени не выдержал и посмотрел краткие описания анонсов, так что был готов к тому, что увижу, но скажу честно: не смотря на презентацию в стиле студенческих конференций (на финальный слайд (под катом) вообще без слёз не взглянешь), чем дольше я слушал об анонсах, тем больше у меня отвисала челюсть.
Это не просто небольшие улучшения; это действительно скачок вперед. Я слушаю про увеличение длины контекста до 128К, обновлении данных до апреля текущего года, об интеграции в API интерпретатора, нового "рисователя" DALLE-3, анализ изображений, извлечение данных из массивов, безлимитных "ассистентов" и чуть ли не подпрыгиваю на стуле от оживления: решилось огромное количество проблем, которые до этого требовали человеко-месяцы доработки довольно квалифицированной командой.
Как только презентация подходит к концу, я судорожно открываю беклог и начинаю записывать и редактировать идеи. Я уверен, что перед разработчиками открыли действительно большие возможности, которые переопределят способ разработки и восприятия продуктов. И если тема AI вас как минимум интересует и вы ещё и занимаетесь продуктовой разработкой, а перепосченных по 150 раз новостей не хватает понять, что это значит лично для вас и команды, этот обзор будет весьма кстати.
«ИИ без границ»: как научить Transformer обрабатывать длинные тексты
Разносторонний системный рассказ о том, какими способами можно научить модель работать с длинными последовательностями. Для специалистов, занимающихся обучением LLM, и всех, кто хочет разобраться в теме.
GigaSearch или Поисковая система на GigaChat
Галлюцинации — это явление, которое до недавнего времени было привилегией человеческого сознания. Однако, с развитием текстовых генеративных моделей, таких как GigaChat и ChatGPT, возникла возможность наблюдать подобные "иллюзии" и в мире искусственного интеллекта.
Есть случаи, когда галлюцинации генеративной модели вполне уместны. Например, если вы попросите модель сгенерировать детскую сказку, то наличие в ней выдуманных персонажей и событий будет весьма кстати и понравится малышу.
Но мы точно не хотим получать выдуманную информацию про реальных людей или события. Кому интересно почитать о том, как мы боремся с галлюцинациями в GigaChat — добро пожаловать под кат.
Классификация авторства текстов. Обзор Kaggle соревнования «H2O Predict the LLM»
В день, когда Сэм Альтман в темной одежде на темном фоне рассказывал миру о запуске GPT-4-Turbo, в те же самые минуты на Kaggle завершалось небольшое, но любопытное соревнование “Predict the LLM”. Цель – узнать автора по тексту. Авторами текстов выступили 7 анонимных больших языковых моделей…
Вклад авторов
-
averkij 970.0 -
snakers4 956.0 -
stalkermustang 631.0 -
rg_software 412.0 -
cointegrated 349.0 -
Irokez 280.0 -
Takagi 275.0 -
Aliaksei_Rudak 249.0 -
Rybolos 202.8 -
ddimitrov 171.0