Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

agpankova 2 сен в 12:18

Эволюция метрик качества машинного перевода. Часть 3

5 мин

324

Машинное обучение *Natural Language Processing *

Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 3: безреференсные нейросетевые метрики, сравнение адекватности различных метрик.

Parfois 2 сен в 12:00

Как работать с GPT-4 с помощью продвинутых промтов

Средний

5 мин

10K

Искусственный интеллект Natural Language Processing *

Из песочницы

ChatGPT – это один из сервисов на базе большой языковой модели GPT. Модель генерирует текст, похожий на созданный человеком, и отвечает на вопросы в разговорной манере. Чтобы профессионально использовать чат-бота, этому нужно учиться. Все мы знаем, что такое программа Excel, что там есть формулы и функции. Но немногие могут использовать все возможности в программе и быстро получать результат. Такая же ситуация с ChatGPT.

Промт-инжиниринг стал важным набором навыков, необходимых для эффективного взаимодействия с ChatGPT. Промты – это инструкции для чат-бота, которые задают правила, автоматизируют процессы и позволяют эффективно использовать диалоговые модели искусственного интеллекта. В частности, промты задают контекст разговора и сообщают модели, какая информация важна и какой должна быть желаемая форма вывода и содержание.

Например, в промте может быть указано, что GPT должен генерировать только код, соответствующий определенному стилю кодирования или парадигме программирования. Аналогичным образом можно указать, что GPT должен помечать определенные ключевые слова или фразы в сгенерированном документе и предоставлять дополнительную информацию, связанную с этими ключевыми словами. Эти подсказки облегчают получение более структурированных и детальных результатов.

В этой статье я расскажу о 16 наиболее распространенных промтах, которые применяют в промт-инжиниринге. Все примеры были протестированы в версии ChatGPT, доступной в России без VPN. В качестве такой русифицированной версии я использовал MashaGPT, которая работает с оригинальной GPT-4 через API.

alenusch 22 авг в 12:43

От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ

Простой

13 мин

3.8K

Блог компании SberDevices Машинное обучение *Natural Language Processing *

Не так давно мы рассказывали про то, как мы обучили модель-полиглот mGPT, которая говорит на 61 языке. Этим летом в открытый доступ мы выложили большую мультиязычную модель (претрейн) mGPT-13B под открытой лицензией MIT.

Сегодня мы хотим поделиться с вами семейством моделей-экспертов на основе оригинальной mGPT для языков СНГ и малых народов России. Оригинальная модель уже владела этими языками, но нам хотелось сделать максимально качественные моноязычные модели, использовав доступные открытые сеты.

Из общего набора в 61 язык мы дообучили 23 модели на дополнительных данных под каждый язык стран СНГ и малых народов России. И в этой статье мы расскажем про то, как мы это сделали и насколько лучше каждый конкретный файнтьюн знает свой язык. А сами модели можете найти на Hugging Face.

+35

badcasedaily1 21 авг в 16:52

Обработка и анализ естественного языка с помощью Python-библиотеки spaCy

9 мин

2.2K

Блог компании OTUS Python *Natural Language Processing *

Обработка естественного языка (NLP) представляет собой важную область исследований, объединяющую лингвистику, компьютерные науки и искусственный интеллект. Она посвящена разработке методов и инструментов для анализа, понимания и генерации текста человеческими искусственными системами. Важность NLP становится все более явной, поскольку она находит применение в различных сферах, включая автоматический перевод, анализ тональности, извлечение информации, вопросно-ответные системы и многое другое.

В мире обработки естественного языка существует множество инструментов и библиотек, предназначенных для упрощения этой сложной задачи. Однако библиотека spaCy выделяется своей эффективностью и производительностью. Она разработана с акцентом на скорость и точность, что делает ее предпочтительным выбором для многих разработчиков и исследователей в области NLP.

VasilyKashkin 20 авг в 16:30

Психометрические характеристики китайского клиента: тестирование программы Symanto

Средний

22 мин

603

Управление продажами *Облачные сервисы *Искусственный интеллект Natural Language Processing *

Из песочницы

В этом лонгриде представлены результаты тестирования программы Symanto с функцией психометрического анализа, которая может быть применена с целью исследования клиентской аудитории. Представлены все основные этапы работы с программой, полученные в процессе работы результаты, а также их анализ и сравнение с человеческим контент-анализом.

SpeechTechML 18 авг в 15:24

Python библиотека RuPersonaAgent для создания русскоязычного персонифицированного диалогового агента

5 мин

531

Блог компании ИТМО Python *Natural Language Processing *

Обзор

Сегодня мы расскажем о библиотеке для Питона под названием rupersonaagent. Это небольшой пакет с функциями и классами для разработки русскоязычного персонифицированного диалогового агента с динамической долговременной памятью. Каждый алгоритм, представленный в библиотеке, может быть переиспользован отдельно для других задач — например, представленные в ней методы оптимизации можно применить для различных генеративных и ранжирующих моделей.

snakers4 17 авг в 12:38

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Средний

4 мин

Машинное обучение *Звук Natural Language Processing *Голосовые интерфейсы *

Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.

В этот раз мы сделали следующее:

Ускорили все v4 модели в 3-4 раза;
Существенно повысили качество синтеза в 8 kHz;
Обновили и пересобрали нашу модель для русского языка;
Обновили модель для 9 языков народов Индии с 17 голосами;
Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);

Читать дальше →

+32

FlexiTech 16 авг в 13:33

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Средний

5 мин

1.9K

Блог компании FlexiTech.ai Обработка изображений *Машинное обучение *Искусственный интеллект Natural Language Processing *

Кейс

Наш клиент, крупный маркетплейс товаров из Китая, определил “цвет”, как один из самых важных атрибутов на сайте, именно этот параметр встречается в 23 категориях из 30.

Однако в нашем случае, фильтрация товаров по цвету является сложной задачей, потому что, карточки товаров заполняют не представители маркетплейса, а продавцы конкретных товаров, которые не всегда понимают, что заполнять данные о продукции стоит максимально подробно и понятно для каждой позиции. В свою очередь, маркетплейс также не регламентирует каких-то четких правил описания товаров. Это привело к тому, что характеристики товара заполнены неверно или неточно. Особенно наглядно это проявляется в описании цвета, где некоторые селлеры могут написать что-то непонятное, например, “цвет утреннего рассвета”.

Отметим, что данных для обучения ML-моделей, к сожалению, нет. То есть мы не можем выделить группу товаров для тренировки, в которой мы были бы заведомо уверены, что атрибуты проставлены верно. Предварительная оценка показала, что только в 31% товаров цвет был заполнен одним из значений, которые мы впоследствии хотим видеть в фильтрах, но даже это не значит, что он заполнен верно без ручной проверки.

Кроме того, товаров очень много – более 100 млн. Заполнять атрибуты вручную для каждого товара займет слишком много времени и ресурсов, которые тратить никто не готов.

Фишкой данного решения является минимальное использование обучающих данных для достижения высокой точности в классификации изображений. Это достигнуто благодаря использованию модели CLIP (Contrastive Language-Image Pretraining), которая предназначена для zero-shot и one-shot обучения, изначально созданная для сопоставления изображения и его текстового описания.

mr-pickles 14 авг в 12:45

Что LLM знают о лингвистике? Это зависит от того, какие вопросы им задают

Средний

15 мин

2.2K

Блог компании Wunder Fund Искусственный интеллект Изучение языков Natural Language Processing *

Перевод

Развитие больших языковых моделей (Large Language Model, LLM) привело к смене парадигмы в сфере обработки естественного языка (Natural Language Processing, NLP). LLM, обученные на огромных объёмах текста, взятого из интернета, могут осваивать выполнение новых задач, задействуя механизмы контекстного обучения. Это означает, что NLP‑специалисты, «натаскивая» такие модели на решение определённых задач, не занимаются обновлением их параметров. Вместо этого специалисты пишут для LLM промпты, демонстрирующие желаемое поведение моделей и содержащие инструкции или некоторое количество готовых примеров. Эти промпты передают моделям в виде входного контекста (потому это и называют «контекстным обучением»), а модели используют информацию из промптов для формирования ответов на похожие вопросы.

+10

Reshin 11 авг в 11:58

«Диалектик», независимое социалистическое медиа, рассказывает о своих NLP проектах, публикует датасеты и делится кодом

Простой

15 мин

3.8K

Блог компании Open Data Science Машинное обучение *DIY или Сделай сам IT-компании Natural Language Processing *

Репортаж

Почти сразу после публикации поста про систему поиска новостей о трудовых конфликтах в СНГ я познакомился с коллективом проекта «Диалектик». Ребята отмечали важность отслеживания зарубежных забастовок и анализа опыта мирового рабочего движения в отстаивании трудовых прав. Поэтому я начал помогать «Диалектику» своими навыками работы с алгоритмами машинного обучения.

Было решено разработать систему, которая бы автоматически находила новости о зарубежных трудовых конфликтах. Во время разработки этой системы я познакомился с другими техническими проектами «Диалектика», о которых хочу рассказать в этом посте. Почти каждый проект включает в себя анализ данных, поэтому публикуемые в открытый доступ данные и код могут быть полезными Data Science сообществу.

Читать дальше →

+24

CodeDroidX 10 авг в 07:00

Реально Бесконечное (лето) RuGPT3.5: Генерация новеллы на ходу нейросетью

Средний

24 мин

16K

Программирование *Машинное обучение *Искусственный интеллект Игры и игровые консоли Natural Language Processing *

Туториал

Я уж было подумал, что эпоха локальных трансформерных нейросетей ушла, оставив после себя невеликое наследие (можно пересчитать на пальцах), однако неделю назад RuGPT3.5 от сбера вышла в открытый доступ и обещала быть мощной моделью, о ней и пойдёт речь в этой статье.

Будет создан прототип text adventure, основанного на тексте Everlasting summer, проведена оценка потенциала RuGPT3.5 в разных аспектах подобной задачи и проведено дообучение модели для получения лучших результатов.

Перейти на другую временную линию

+30

AnatolyBelov 6 авг в 13:48

GPT без иллюзий. Насколько правдива генерация

4 мин

3.9K

Искусственный интеллект Natural Language Processing *

Известно, что генерация текста с помощью GPT (Genarative Pretrained Transformers) так или иначе основана на вероятности. Рассмотрим поподробнее, к чему приводит такой подход - насколько "правдива" или "обманчива" такая генерация.

AnatolyBelov 5 авг в 17:25

RuGPT3XL. Примеры генерации на русском языке (zero-shot coding)

6 мин

Искусственный интеллект Natural Language Processing *

Давно известно, что Сбер разработал и опубликовал свою коллекцию генеративных текстовых моделей RuGPT3.

В данной статье тестируем ruGPT-3 XL прямо на демо-странице от Сбера.

Как проводится данное исследование:
даем RuGPT3 простые запросы.
"Простые" означает, что спрашиваем естественным образом, на естественном русском языке, без затравочных примеров и определения ролей.
Такие же запросы даем ChatGPT.

LawrenceGrig 3 авг в 10:00

Дедупликация текстов: поиск неполных дубликатов

Простой

6 мин

1.1K

Блог компании Газпромбанк Управление разработкой *Управление проектами *Natural Language Processing *

Кейс

Нам надо искать неполные дубликаты.

При анализе данных могут возникнуть проблемы, если в DataFrame присутствуют дубликаты строк.

Самый простой способ выявить и удалить повторяющиеся строки — это дропнуть их с помощью Pandas, используя метод drop_duplicates(). Но как найти неполные дубликаты, не размечая при этом всех текстовых пар и избегая ложноположительных ошибок?

Нам нужен был такой алгоритм ML, который хорошо масштабируется и работает с пограничными случаями, например, когда разница в парах текстов — только в одной цифре.

Я занимаюсь задачами обработки естественного языка в Газпромбанке. Вместе с DVAMM в этом посте расскажем, какие методы дедупликации мы используем и с какими проблемами столкнулись на практике при детекции неполных дубликатов.

Читать дальше →

+17

Sivchenko_translate 2 авг в 17:53

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

17 мин

4.6K

GPGPU *Машинное обучение *Искусственный интеллект Процессоры Natural Language Processing *

Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

+21

den4ik_084720 31 июл в 18:55

Мы создали большой диалоговый датасет

Простой

8 мин

2.5K

Python *Искусственный интеллект Natural Language Processing *

Из песочницы

Те, кто когда-нибудь хотел обучить своего диалогового чат-бота, непременно сталкивались с отсутствием датасетов с адекватными диалогами. В открытом доступе, в основном, лишь наборы комментариев с Пикабу и Хабра, парсинг телеграм чатов, и диалоги из литературы. Мягко говоря, всё это "не очень". Поэтому, мы решили использовать ChatGPT для генерации подходящего датасета.

alizar 28 июл в 12:43

В каких задачах оглупел ChatGPT и как это исправить

10 мин

16K

Машинное обучение *Научно-популярное Искусственный интеллект Будущее здесь Natural Language Processing *

Объяснение GPT 3.5 и 4.0, почему женщины лучше мужчин, в марте и июне 2023 года, источник

В относительно короткой истории программного обеспечения немало примеров, когда разработчикам удавалось настолько ухудшить продукты, что теми переставали пользоваться. Например, Windows ME (2000) или RealPlayer. Возможно, сейчас на эти старые «грабли» наступила и компания OpenAi. В результате последних обновлений ChatGPT-4 стал работать объективно хуже, что подтверждается не только жалобами на Reddit, но и результатами научного исследования специалистов из Стэнфордского университета в Беркли. Одновременно с этим вышли новые версии альтернативных LLM, такие как FreeWilli2 (первая нейросеть, которая побила GPT 3.5 в отдельных бенчмарках) на базе LLaMA 2. О разработке аналогичной модели объявила Apple и другие компании.

Проблему отупения ChatGPT можно обойти, если переключиться на более ранние версии этой модели. Но не факт, что это поможет самой компании OpenAI, ведь в июне 2023 года количество пользователей ChatGPT уже снизилось (впервые с момента выпуска этого продукта).

Читать дальше →

+14

ervin-x 25 июл в 10:01

Большие языковые модели: вносим порядок в семейный балаган

21 мин

Блог компании ГК ЛАНИТ Математика *Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Часто в прикладных задачах NLU при создании эмбеддингов приходится использовать уже обученные модели. Но что если вы работаете со специфичными или нестандартными текстами? Какие модели для создания эмбеддингов выбрать и где их взять, а может быть лучше обучить их на своих данных? О том, какую модель из растущего семейства больших языковых моделей выбрать, как их обучать, а также немного о кейсах применения нашумевшей ChatGPT разбираемся в блоге ЛАНИТ под катом.

+37

averkij 20 июл в 11:02

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

Простой

3 мин

33K

Блог компании Сбер Блог компании SberDevices Open source *Искусственный интеллект Natural Language Processing *

👉 Upd. Добавили пример запуска в Colab'е.

Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat.

Про то, что такое GigaChat и как мы его обучаем, вы можете прочитать в нашей предыдущей статье. Скажу лишь, что главной его частью, ядром, порождающим креативный ответ на ваш запрос, является языковая модель обученная на огромном количестве разнообразных текстов — сотен тысяч книг, статей, программного кода и т.д. Эта часть (pretrain) затем дообучается на инструкциях, чтобы лучше соответствовать заданной форме ответа. Обучение такого претрейна занимает около 99% от всего цикла обучения и требует значительного количества ресурсов, которыми обычно обладают только крупные компании.

Этот претрейн, названный ruGPT-3.5, мы выкладываем на Hugging Face под лицензией MIT, которая является открытой и позволяет использовать модель в коммерческих целях. Поговорим о модели подробнее.

+95

agpankova 17 июл в 15:11

Эволюция метрик качества машинного перевода. Часть 2

Простой

5 мин

1.1K

Машинное обучение *Natural Language Processing *

Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 2: референсные нейросетевые метрики.

2 3 ...

28 29

Natural Language Processing *

Эволюция метрик качества машинного перевода. Часть 3

Новости

Как работать с GPT-4 с помощью продвинутых промтов

От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ

Обработка и анализ естественного языка с помощью Python-библиотеки spaCy

Истории

Психометрические характеристики китайского клиента: тестирование программы Symanto

Python библиотека RuPersonaAgent для создания русскоязычного персонифицированного диалогового агента

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Что LLM знают о лингвистике? Это зависит от того, какие вопросы им задают

«Диалектик», независимое социалистическое медиа, рассказывает о своих NLP проектах, публикует датасеты и делится кодом

Реально Бесконечное (лето) RuGPT3.5: Генерация новеллы на ходу нейросетью

GPT без иллюзий. Насколько правдива генерация

RuGPT3XL. Примеры генерации на русском языке (zero-shot coding)

Ближайшие события

Дедупликация текстов: поиск неполных дубликатов

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

Мы создали большой диалоговый датасет

В каких задачах оглупел ChatGPT и как это исправить

Большие языковые модели: вносим порядок в семейный балаган

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

Эволюция метрик качества машинного перевода. Часть 2

Вклад авторов