Как стать автором
Обновить
38.02

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Эволюция метрик качества машинного перевода. Часть 3

Время на прочтение 5 мин
Количество просмотров 324
Машинное обучение *Natural Language Processing *
Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 3: безреференсные нейросетевые метрики, сравнение адекватности различных метрик.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Новости

Как работать с GPT-4 с помощью продвинутых промтов

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 10K
Искусственный интеллект Natural Language Processing *

ChatGPT – это один из сервисов на базе большой языковой модели GPT. Модель генерирует текст, похожий на созданный человеком, и отвечает на вопросы в разговорной манере. Чтобы профессионально использовать чат-бота, этому нужно учиться. Все мы знаем, что такое программа Excel, что там есть формулы и функции. Но немногие могут использовать все возможности в программе и быстро получать результат. Такая же ситуация с ChatGPT. 

Промт-инжиниринг стал важным набором навыков, необходимых для эффективного взаимодействия с ChatGPT. Промты – это инструкции для чат-бота, которые задают правила, автоматизируют процессы и позволяют эффективно использовать диалоговые модели искусственного интеллекта. В частности, промты задают контекст разговора и сообщают модели, какая информация важна и какой должна быть желаемая форма вывода и содержание.

Например, в промте может быть указано, что GPT должен генерировать только код, соответствующий определенному стилю кодирования или парадигме программирования. Аналогичным образом можно указать, что GPT должен помечать определенные ключевые слова или фразы в сгенерированном документе и предоставлять дополнительную информацию, связанную с этими ключевыми словами. Эти подсказки облегчают получение более структурированных и детальных результатов.

В этой статье я расскажу о 16 наиболее распространенных промтах, которые применяют в промт-инжиниринге. Все примеры были протестированы в версии ChatGPT, доступной в России без VPN. В качестве такой русифицированной версии я использовал MashaGPT, которая работает с оригинальной GPT-4 через API.

Читать далее
Всего голосов 17: ↑10 и ↓7 +3
Комментарии 4

От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ

Уровень сложности Простой
Время на прочтение 13 мин
Количество просмотров 3.8K
Блог компании SberDevices Машинное обучение *Natural Language Processing *

Не так давно мы рассказывали про то, как мы обучили модель-полиглот mGPT, которая говорит на 61 языке. Этим летом в открытый доступ мы выложили большую мультиязычную модель (претрейн) mGPT-13B под открытой лицензией MIT.

Сегодня мы хотим поделиться с вами семейством моделей-экспертов на основе оригинальной mGPT для языков СНГ и малых народов России. Оригинальная модель уже владела этими языками, но нам хотелось сделать максимально качественные моноязычные модели, использовав доступные открытые сеты.

Из общего набора в 61 язык мы дообучили 23 модели на дополнительных данных под каждый язык стран СНГ и малых народов России. И в этой статье мы расскажем про то, как мы это сделали и насколько лучше каждый конкретный файнтьюн знает свой язык. А сами модели можете найти на Hugging Face.

Читать далее
Всего голосов 35: ↑35 и ↓0 +35
Комментарии 12

Обработка и анализ естественного языка с помощью Python-библиотеки spaCy

Время на прочтение 9 мин
Количество просмотров 2.2K
Блог компании OTUS Python *Natural Language Processing *

Обработка естественного языка (NLP) представляет собой важную область исследований, объединяющую лингвистику, компьютерные науки и искусственный интеллект. Она посвящена разработке методов и инструментов для анализа, понимания и генерации текста человеческими искусственными системами. Важность NLP становится все более явной, поскольку она находит применение в различных сферах, включая автоматический перевод, анализ тональности, извлечение информации, вопросно-ответные системы и многое другое.

В мире обработки естественного языка существует множество инструментов и библиотек, предназначенных для упрощения этой сложной задачи. Однако библиотека spaCy выделяется своей эффективностью и производительностью. Она разработана с акцентом на скорость и точность, что делает ее предпочтительным выбором для многих разработчиков и исследователей в области NLP.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Комментарии 6

Истории

Психометрические характеристики китайского клиента: тестирование программы Symanto

Уровень сложности Средний
Время на прочтение 22 мин
Количество просмотров 603
Управление продажами *Облачные сервисы *Искусственный интеллект Natural Language Processing *

В этом лонгриде представлены результаты тестирования программы Symanto с функцией психометрического анализа, которая может быть применена с целью исследования клиентской аудитории. Представлены все основные этапы работы с программой, полученные в процессе работы результаты, а также их анализ и сравнение с человеческим контент-анализом.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Комментарии 3

Python библиотека RuPersonaAgent для создания русскоязычного персонифицированного диалогового агента

Время на прочтение 5 мин
Количество просмотров 531
Блог компании ИТМО Python *Natural Language Processing *
Обзор

Сегодня мы расскажем о библиотеке для Питона под названием rupersonaagent. Это небольшой пакет с функциями и классами для разработки русскоязычного персонифицированного диалогового агента с динамической долговременной памятью. Каждый алгоритм, представленный в библиотеке, может быть переиспользован отдельно для других задач — например, представленные в ней методы оптимизации можно применить для различных генеративных и ранжирующих моделей.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 4K
Машинное обучение *Звук Natural Language Processing *Голосовые интерфейсы *


Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.


В этот раз мы сделали следующее:


  • Ускорили все v4 модели в 3-4 раза;
  • Существенно повысили качество синтеза в 8 kHz;
  • Обновили и пересобрали нашу модель для русского языка;
  • Обновили модель для 9 языков народов Индии с 17 голосами;
  • Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
  • Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
  • Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 15

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 1.9K
Блог компании FlexiTech.ai Обработка изображений *Машинное обучение *Искусственный интеллект Natural Language Processing *
Кейс

Наш клиент, крупный маркетплейс товаров из Китая, определил “цвет”, как один из самых важных атрибутов на сайте, именно этот  параметр встречается в 23 категориях из 30.

Однако в нашем случае, фильтрация товаров по цвету является сложной задачей, потому что, карточки товаров заполняют не представители маркетплейса, а продавцы конкретных товаров, которые не всегда понимают, что заполнять данные о продукции стоит максимально подробно и понятно для каждой позиции. В свою очередь, маркетплейс также не регламентирует каких-то четких правил описания товаров. Это привело к тому, что характеристики товара заполнены неверно или неточно. Особенно наглядно это проявляется в описании цвета, где некоторые селлеры могут написать что-то непонятное, например, “цвет утреннего рассвета”.

Отметим, что данных для обучения ML-моделей, к сожалению, нет. То есть мы не можем выделить группу товаров для тренировки, в которой мы были бы заведомо уверены, что атрибуты проставлены верно.  Предварительная оценка показала, что только в 31% товаров цвет был заполнен одним из значений, которые мы впоследствии хотим видеть в фильтрах, но даже это не значит, что он заполнен верно без ручной проверки.

Кроме того,  товаров очень много – более 100 млн. Заполнять атрибуты вручную для каждого товара займет слишком много времени и ресурсов, которые тратить никто не готов.

Фишкой данного решения является минимальное использование обучающих данных для достижения высокой точности в классификации изображений. Это достигнуто благодаря использованию модели CLIP (Contrastive Language-Image Pretraining), которая предназначена для zero-shot и one-shot обучения, изначально созданная для сопоставления изображения и его текстового описания.

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 4

Что LLM знают о лингвистике? Это зависит от того, какие вопросы им задают

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 2.2K
Блог компании Wunder Fund Искусственный интеллект Изучение языков Natural Language Processing *
Перевод

Развитие больших языковых моделей (Large Language Model, LLM) привело к смене парадигмы в сфере обработки естественного языка (Natural Language Processing, NLP). LLM, обученные на огромных объёмах текста, взятого из интернета, могут осваивать выполнение новых задач, задействуя механизмы контекстного обучения. Это означает, что NLP‑специалисты, «натаскивая» такие модели на решение определённых задач, не занимаются обновлением их параметров. Вместо этого специалисты пишут для LLM промпты, демонстрирующие желаемое поведение моделей и содержащие инструкции или некоторое количество готовых примеров. Эти промпты передают моделям в виде входного контекста (потому это и называют «контекстным обучением»), а модели используют информацию из промптов для формирования ответов на похожие вопросы.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 0

«Диалектик», независимое социалистическое медиа, рассказывает о своих NLP проектах, публикует датасеты и делится кодом

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 3.8K
Блог компании Open Data Science Машинное обучение *DIY или Сделай сам IT-компании Natural Language Processing *
Репортаж


Почти сразу после публикации поста про систему поиска новостей о трудовых конфликтах в СНГ я познакомился с коллективом проекта «Диалектик». Ребята отмечали важность отслеживания зарубежных забастовок и анализа опыта мирового рабочего движения в отстаивании трудовых прав. Поэтому я начал помогать «Диалектику» своими навыками работы с алгоритмами машинного обучения.


Было решено разработать систему, которая бы автоматически находила новости о зарубежных трудовых конфликтах. Во время разработки этой системы я познакомился с другими техническими проектами «Диалектика», о которых хочу рассказать в этом посте. Почти каждый проект включает в себя анализ данных, поэтому публикуемые в открытый доступ данные и код могут быть полезными Data Science сообществу.

Читать дальше →
Всего голосов 30: ↑27 и ↓3 +24
Комментарии 3

Реально Бесконечное (лето) RuGPT3.5: Генерация новеллы на ходу нейросетью

Уровень сложности Средний
Время на прочтение 24 мин
Количество просмотров 16K
Программирование *Машинное обучение *Искусственный интеллект Игры и игровые консоли Natural Language Processing *
Туториал

Я уж было подумал, что эпоха локальных трансформерных нейросетей ушла, оставив после себя невеликое наследие (можно пересчитать на пальцах), однако неделю назад RuGPT3.5 от сбера вышла в открытый доступ и обещала быть мощной моделью, о ней и пойдёт речь в этой статье.

Будет создан прототип text adventure, основанного на тексте Everlasting summer, проведена оценка потенциала RuGPT3.5 в разных аспектах подобной задачи и проведено дообучение модели для получения лучших результатов.

Перейти на другую временную линию
Всего голосов 32: ↑31 и ↓1 +30
Комментарии 22

GPT без иллюзий. Насколько правдива генерация

Время на прочтение 4 мин
Количество просмотров 3.9K
Искусственный интеллект Natural Language Processing *

Известно, что генерация текста с помощью GPT (Genarative Pretrained Transformers) так или иначе основана на вероятности. Рассмотрим поподробнее, к чему приводит такой подход - насколько "правдива" или "обманчива" такая генерация.

Читать далее
Всего голосов 13: ↑7 и ↓6 +1
Комментарии 21

RuGPT3XL. Примеры генерации на русском языке (zero-shot coding)

Время на прочтение 6 мин
Количество просмотров 2K
Искусственный интеллект Natural Language Processing *

Давно известно, что Сбер разработал и опубликовал свою коллекцию генеративных текстовых моделей RuGPT3.

В данной статье тестируем ruGPT-3 XL прямо на демо-странице от Сбера.

Как проводится данное исследование:
даем RuGPT3 простые запросы.
"Простые" означает, что спрашиваем естественным образом, на естественном русском языке, без затравочных примеров и определения ролей.
Такие же запросы даем ChatGPT.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 16

Ближайшие события

CROC Service Partner Day
Дата 7 сентября
Время 10:00 – 18:00
Место Москва
Okkam. О цене и ценности
Дата 12 сентября
Время 12:00 – 19:00
Место Москва
«Стачка» — IT-конференция
Дата 15 – 16 сентября
Время 09:00 – 18:30
Место Ульяновск
Business⁢ Day: Retail CPG
Дата 28 сентября
Время 09:50 – 14:00
Место Онлайн
XIX конференция разработчиков свободных программ «Базальт СПО»
Дата 29 сентября – 1 октября
Время 10:00 – 19:00
Место Переславль-Залесский Онлайн
Kokoc Hackathon
Дата 29 сентября – 1 октября
Время 19:00 – 21:00
Место Онлайн
Russia Risk Conference 2023 — 19-я конференция по риск-менеджменту
Дата 25 – 26 октября
Время 10:00 – 19:00
Место Москва Онлайн

Дедупликация текстов: поиск неполных дубликатов

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.1K
Блог компании Газпромбанк Управление разработкой *Управление проектами *Natural Language Processing *
Кейс
image

Нам надо искать неполные дубликаты.

При анализе данных могут возникнуть проблемы, если в DataFrame присутствуют дубликаты строк.

Самый простой способ выявить и удалить повторяющиеся строки — это дропнуть их с помощью Pandas, используя метод drop_duplicates(). Но как найти неполные дубликаты, не размечая при этом всех текстовых пар и избегая ложноположительных ошибок?

Нам нужен был такой алгоритм ML, который хорошо масштабируется и работает с пограничными случаями, например, когда разница в парах текстов — только в одной цифре.

Я занимаюсь задачами обработки естественного языка в Газпромбанке. Вместе с DVAMM в этом посте расскажем, какие методы дедупликации мы используем и с какими проблемами столкнулись на практике при детекции неполных дубликатов.
Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 2

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

Время на прочтение 17 мин
Количество просмотров 4.6K
GPGPU *Машинное обучение *Искусственный интеллект Процессоры Natural Language Processing *
Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention),  многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.  

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 1

Мы создали большой диалоговый датасет

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 2.5K
Python *Искусственный интеллект Natural Language Processing *

Те, кто когда-нибудь хотел обучить своего диалогового чат-бота, непременно сталкивались с отсутствием датасетов с адекватными диалогами. В открытом доступе, в основном, лишь наборы комментариев с Пикабу и Хабра, парсинг телеграм чатов, и диалоги из литературы. Мягко говоря, всё это "не очень". Поэтому, мы решили использовать ChatGPT для генерации подходящего датасета.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 6

В каких задачах оглупел ChatGPT и как это исправить

Время на прочтение 10 мин
Количество просмотров 16K
Машинное обучение *Научно-популярное Искусственный интеллект Будущее здесь Natural Language Processing *

Объяснение GPT 3.5 и 4.0, почему женщины лучше мужчин, в марте и июне 2023 года, источник

В относительно короткой истории программного обеспечения немало примеров, когда разработчикам удавалось настолько ухудшить продукты, что теми переставали пользоваться. Например, Windows ME (2000) или RealPlayer. Возможно, сейчас на эти старые «грабли» наступила и компания OpenAi. В результате последних обновлений ChatGPT-4 стал работать объективно хуже, что подтверждается не только жалобами на Reddit, но и результатами научного исследования специалистов из Стэнфордского университета в Беркли. Одновременно с этим вышли новые версии альтернативных LLM, такие как FreeWilli2 (первая нейросеть, которая побила GPT 3.5 в отдельных бенчмарках) на базе LLaMA 2. О разработке аналогичной модели объявила Apple и другие компании.

Проблему отупения ChatGPT можно обойти, если переключиться на более ранние версии этой модели. Но не факт, что это поможет самой компании OpenAI, ведь в июне 2023 года количество пользователей ChatGPT уже снизилось (впервые с момента выпуска этого продукта).
Читать дальше →
Всего голосов 20: ↑17 и ↓3 +14
Комментарии 14

Большие языковые модели: вносим порядок в семейный балаган

Время на прочтение 21 мин
Количество просмотров 3K
Блог компании ГК ЛАНИТ Математика *Машинное обучение *Искусственный интеллект Natural Language Processing *
Туториал

Часто в прикладных задачах NLU при создании эмбеддингов приходится использовать уже обученные модели. Но что если вы работаете со специфичными или нестандартными текстами? Какие модели для создания эмбеддингов выбрать и где их взять, а может быть лучше обучить их на своих данных? О том, какую модель из растущего семейства больших языковых моделей выбрать, как их обучать, а также немного о кейсах применения нашумевшей ChatGPT разбираемся в блоге ЛАНИТ под катом. 

Читать далее
Всего голосов 37: ↑37 и ↓0 +37
Комментарии 0

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 33K
Блог компании Сбер Блог компании SberDevices Open source *Искусственный интеллект Natural Language Processing *

👉 Upd. Добавили пример запуска в Colab'е.

Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat.

Про то, что такое GigaChat и как мы его обучаем, вы можете прочитать в нашей предыдущей статье. Скажу лишь, что главной его частью, ядром, порождающим креативный ответ на ваш запрос, является языковая модель обученная на огромном количестве разнообразных текстов — сотен тысяч книг, статей, программного кода и т.д. Эта часть (pretrain) затем дообучается на инструкциях, чтобы лучше соответствовать заданной форме ответа. Обучение такого претрейна занимает около 99% от всего цикла обучения и требует значительного количества ресурсов, которыми обычно обладают только крупные компании.

Этот претрейн, названный ruGPT-3.5, мы выкладываем на Hugging Face под лицензией MIT, которая является открытой и позволяет использовать модель в коммерческих целях. Поговорим о модели подробнее.

Читать далее
Всего голосов 103: ↑99 и ↓4 +95
Комментарии 90

Эволюция метрик качества машинного перевода. Часть 2

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 1.1K
Машинное обучение *Natural Language Processing *
Обзор

Как правильнее всего измерять качество машинного перевода? Многие слышали о BLEU, но на самом деле метрик много. В этой статье расскажем, какие существуют метрики, как они эволюционировали и какие сегодня наиболее адекватны. Часть 2: референсные нейросетевые метрики.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 2

Вклад авторов