Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Посты Новости Авторы Компании

chekz 15 фев в 10:21

ИИ: тень великана

Простой

3 мин

2.2K

Искусственный интеллект Будущее здесь Natural Language Processing *

Из песочницы

Человечество изобретает технологии ради своего блага. С каждым новым прорывом человечество рефлексирует на тему того, станет ли оно само заложником технологий. Так было с изобретением печатных станков, паровых машин, поездов, телевидения и интернета. И вот, теперь точно так же мы задумываемся о том, что изменится с развитием ИИ, чего действительно стоит бояться и на что надеяться.

averkij 12 фев в 15:38

Язык твой — друг твой. Развиваем малые языки

Средний

14 мин

4.3K

Open source *Машинное обучение *Искусственный интеллект Изучение языков Natural Language Processing *

Туториал

Всем привет. Хочу поделиться с сообществом небольшим опытом и наработками для исследования и развития языков, в особенности малых. Для большинства таких языков нет ни систем машинного перевода, ни виртуальных ассистентов, ни других языковых моделей. Основная проблема тут в недостатке данных и отсутствии большого интереса у крупных компаний в их развитии. Однако есть достаточно большое число людей, которым дорог их язык, и которые прикладывают усилия по их сохранению и развитию. Предлагаю обсудить это и познакомиться с инструментами, которые помогут не только собирать данные, но и делать на их основе полезные вещи, типа паралельных книг для изучения языка и систем машинного перевода.

Мы научимся:

1. Дообучать мультиязычные языковые модели, переводящие текст в векторное представление (эмбеддинги).

2. Использовать их для выравнивания текстов библиотекой lingtrain-aligner, извлекая из текстов параллельные корпуса.

3. Загружать датасеты и модели на HuggingFace, чтобы это было доступно всем.

4. Создавать из выравнивания параллельные книги для изучения языков.

5. Начнем собирать датасет инструкций на малых языках, чтобы языковые модели и виртуальные смогли понимать и общаться на чувашском, якутском, башкирском и других языках.

Все это в делается в виде открытых проектов и сообществ, поэтому приглашаю всех интересующихся изучением и поддержкой языков подключаться к нам, будет интересно.

+37

gataAmarilla 9 фев в 12:30

Делаем intent classifier для службы поддержки без доменного датасета на русском

Средний

8 мин

795

Python *Разработка под e-commerce *Машинное обучение *Natural Language Processing *

Из песочницы

В этой статье я продемонстрирую, как без собственного датасета сделать классификатор намерений пользователя для службы поддержки в сфере e-commerce. И более того, я расскажу, как у меня получилось сделать классификатор для русского языка без датасета на русском языке.

Меня зовут Елизавета Колмакова, я Data Scientist в компании, которая разрабатывает айти-решения для крупного ритейла.

Antipozitive 7 фев в 19:17

Создаем чат-бота на Python: Полное руководство

Средний

6 мин

20K

Python *Программирование *Машинное обучение *Natural Language Processing *TensorFlow *

Туториал

Recovery Mode

В этом полном руководстве от DataTech Community мы шаг за шагом рассмотрим процесс создания чат-бота на Python. Откройте для себя мощь NLTK и TensorFlow в обработке естественного языка и машинном обучении, чтобы создать интеллектуального помощника, способного общаться и отвечать на вопросы пользователей. Научитесь подготавливать данные, строить и обучать модель нейронной сети, а затем интегрировать ее в логику чат-бота для создания эффективного и интеллектуального виртуального помощника.

dbaturova 7 фев в 11:15

Parameter-Efficient Fine-Tuning (PEFT): методы LoRA, Prefix tuning, Prompt tuning и Adapters

Средний

6 мин

1.3K

Python *Машинное обучение *Natural Language Processing *

Из песочницы

На сегодняшний день созданы разные большие языковые модели (LLM), которые показывают превосходные результаты, но для раскрытия их полного потенциала необходимо дообучение для точного решения конкретных задач. Традиционный метод файнтюнинга, при котором настраиваются все параметры предварительно обученной модели, становится непрактичным и вычислительно дорогостоящим при работе с современными моделями LLM.

PEFT(Parameter-Efficient Fine-Tuning) представляет собой эффективный подход, позволяющий не терять производительность при тонкой настройке модели, снижая при этом требования к памяти и вычислительным мощностям.

В этой статье мы рассмотрим общую концепцию PEFT, его преимущества и основные методы.

squirreldatafeed 7 фев в 09:15

Прощайте, базы данных, да здравствуют векторные базы данных

Простой

11 мин

55K

Open source *Искусственный интеллект Natural Language Processing *

Из песочницы

Перевод

Революция в области искусственного интеллекта переформатирует все отрасли нашей жизни, с одной стороны обещая невероятные инновации, а с другой ー сталкивая нас с новыми вызовами. В безумном потоке изменений эффективная обработка данных становится приоритетом для приложений, на основе больших языковых моделей, генеративного ИИ и семантического поиска. В основе этих технологий лежат векторные представления (embeddings, дальше будем называть их Эмбеддинги), сложные представления данных, пронизанные критической семантической информацией.

Эти вектора, созданные LLMs, охватывают множество атрибутов или характеристик, что делает управление ими сложной задачей. В области искусственного интеллекта и машинного обучения эти характеристики представляют различные измерения данных, необходимые для обнаружения закономерностей, взаимосвязей и базовых структур. Для удовлетворения уникальных требований к обработке этих вложений необходима специализированная база данных. Векторные базы данных специально созданы для обеспечения оптимизированного хранения и запросов векторов, сокращая разрыв между традиционными базами данных и самостоятельными векторными индексами, а также предоставляя ИИ-системам инструменты, необходимые для успешной работы в этой среде нагруженной данными.

+44

AlanRobotics 5 фев в 20:34

Как ускорить LLM-генерацию текста в 20 раз на больших наборах данных

7 мин

5.1K

Блог компании MTS AI Машинное обучение *Искусственный интеллект Natural Language Processing *

Всем привет, я Алан, разработчик-исследователь в MTS AI. В команде фундаментальных исследований мы занимаемся исследованием LLM, реализацией DPO и валидацией наших собственных языковых моделей. В рамках этих задач у нас возникла потребность в генерации большого количества данных с помощью LLM. Такая генерация обычно занимает много времени. Однако за последний год, с ростом популярности LLM, стали появляться различные инструменты для развертывания таких моделей. Одной из самых эффективных библиотек для инференса языковых моделей является библиотека vLLM. В статье показывается, как с помощью асинхронных запросов и встроенных особенностей vLLM можно увеличить скорость генерации примерно в 20 раз. Приятного чтения!

+16

UtrobinMV 5 фев в 16:33

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Простой

10 мин

Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *Data Engineering *

Обзор

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше. Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

StarKap 5 фев в 10:00

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Средний

20 мин

1.8K

Блог компании Raft Алгоритмы *Машинное обучение *Искусственный интеллект Natural Language Processing *

Обзор

Мы уже писали про проблемы безопасности в языковых моделях и сегодня мы поговорим о состязательных суффиксах или как их ещё называют Adversarial suffixes. Такие суффиксы - это один из инструментов для получения всего, что вы хотите, добавляя их в запросы к LLM , они помогают получить ответ на любой ваш сокровенный вопрос (о религии, политике, опасных аспектах социальных медиа и многом другом).

Давайте глубже разберемся в этом...

dshelukh 2 фев в 15:28

Обзор по LLM

10 мин

7.7K

Блог компании Тензор Машинное обучение *Искусственный интеллект Natural Language Processing *

Обзор

В прошлом году(2023) в мире больших языковых моделей(LLM) произошло много нового и нитересного. В новостях появились фразы о гонке искусственных интеллектов, а многие ведущие IT компании включились в эту гонку. Рассмотрим как все начиналось, кто сейчас занимает лидирующие позиции в гонке и когда роботы захватят мир.

+17

m1shail 2 фев в 12:48

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Средний

7 мин

36K

Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *

Аналитика

Салют! Уже ни для кого не секрет, что GigaChat активно развивается, и обновление моделей не заставляет себя долго ждать. Рады сообщить вам, что новые версии GigaChat Lite и GigaChat Pro получили мощный апгрейд и стали еще более креативными, умными и точными в исполнении инструкций, а также получили более высокую оценку, чем ChatGPT (gpt-3.5-turbo-0613) на бенчмарке MMLU. На сегодняшний день GigaChat используют уже более 2,5 миллионов человек.

В новом обновлении GigaChat Lite получил расширение максимального контекста до 32768 токенов (GigaChat Lite+), а GigaChat Pro — до 8192 токенов. Вместе с контекстом мы улучшили качество ответов, превзойдя ChatGPT на русском SBS и английском MMLU, а также сделали апдейт датасетов по экономике, медицине и праву, добавили экспертные и редакторские данные, а также прокачали функции (улучшили работу запросов).

Узнать, как попробовать самую сильную версию GigaChat бесплатно, можно в конце статьи.

+29

154

atomlib 27 янв в 20:51

Метод Binoculars обещает высокую точность обнаружения текста от больших языковых моделей

Простой

10 мин

4.8K

Спам и антиспам Машинное обучение *Научно-популярное Искусственный интеллект Natural Language Processing *

Обзор

ChatGPT пишет не хуже человека, но можно ли обнаружить «машинность» в тексте? Хотя некоторым компаниям было бы выгоднее представить всё так, будто результат работы языковых моделей неотличим от человеческого, исследования в этом направлении активно ведутся. Авторы научной статьи «Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text» (arXiv:2401.12070) утверждают, что их метод имеет низкий уровень ложноположительных срабатываний (0,01 %), правильно обнаруживает текст от языковых моделей в 90 % случаев и работает для нескольких семейств современных продуктов.

Читать дальше →

+22

artemvazhentsev 26 янв в 11:11

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Сложный

8 мин

963

Блог компании AIRI Алгоритмы *Машинное обучение *Искусственный интеллект Natural Language Processing *

Кейс

Всем привет! Меня зовут Артём Важенцев, я аспирант в Сколтехе и младший научный сотрудник AIRI. Наша группа занимается исследованием и разработкой новых методов оценивания неопределенности для языковых моделей. Этим летом мы опубликовали две статьи на ACL 2023.

Про одну из них я уже рассказывал в одном из предыдущих текстов — там мы описали новый гибридный метод оценивания неопределенности для задачи выборочной классификации текстов. Другая же статья про то, как мы адаптировали современные методы оценивания неопределенности на основе скрытого представления модели для задачи генерации текста, а так же показали их высокое качество и скорость работы для задачи обнаружения примеров вне обучающего распределения. Ниже я хотел бы подробнее рассказать об используемых методах и результатах, которые мы получили.

SergeyBPshenichnikov 24 янв в 05:38

Алгебра смысла

Средний

12 мин

3.7K

Семантика *Математика *Искусственный интеллект Natural Language Processing *

FAQ

Пшеничников С.Б.

Знаковые последовательности (например, вербальные и нотные тексты) можно превратить в математические объекты. Слова и числа стали одной сущностью, представлением матричной единицы, которая является матричным обобщением целых чисел и гиперкомплексным числом. Матричная единица — это матрица в которой один элемент равен единице, а остальные — нули.

Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.

С текстами можно совершать преобразования с помощью алгебраических операций, например делить с остатком один текст на другой. Математически распознавать смысл текста и вычислять контекст слов. При этом алгебра помогает интерпретировать все промежуточные этапы вычислений.

Человек видит и слышит только то, что понимает (И. В. Гёте). Понимает то, чему придает смысл как значимости для него. Смысл субъективен и зависит от интересов, мотиваций и чувств.

Л. С. Выготский различал понятия «смысл» и «значение»: «если „значение“ слова является объективным отражением системы связей и отношений, то „смысл“ — это привнесение субъективных аспектов значения соответственно данному моменту и ситуации».

По Г. Фреге «значения» — это свойства, отношения объектов, «смысл» — это только часть этих свойств. При этом и «значения» и «смысл» именуются одним «знаком», например словом. Два человека могут из списка значений выбрать для одного слова два непересекающихся фрагмента (два смысла) для его толкования.

space_apple 23 янв в 12:00

Как мы сделали переводчик точнее и дешевле Google и Yandex

Простой

9 мин

11K

Блог компании Raft Разработка под e-commerce *Локализация продуктов *Искусственный интеллект Natural Language Processing *

Кейс

Всем привет! Меня зовут Никита, я Data Scientist из Raft. Сегодня я расскажу вам о том, как мы решили задачу перевода каталога товаров большого интернет-магазина с русского на арабский язык с применением искусственного интеллекта. Мы рассмотрим различные подходы и идеи, возникавшие в процессе погружения в эту задачу. Также я объясню, почему мы отказались от готовых решений и выбрали Large Language Models (LLM) в качестве основного инструмента. Как вы, возможно, уже догадались из названия, основным преимуществом нашего финального решения стала значительная оптимизация расходов: нам удалось сократить использование API OpenAI в 4 раза, при этом сохранив высокое качество перевода.

+23

alexwortega 23 янв в 08:43

Вихрь — семейство переведенных русскоязычных LLM

Средний

5 мин

11K

Natural Language Processing *

Кейс

Мы русифицировали Mistral и он работает лучше(по бенчмаркам) чем закрытые русскоязычные LLM. Как мы это сделали, ссылки на модели и бенчмарки - в статье.

+35

bynull 22 янв в 01:46

Проанализируй меня если сможешь! Мета вопрос, или как я не перестал бояться и полюбил большие языковые модели

Средний

6 мин

1.6K

Машинное обучение *Искусственный интеллект Natural Language Processing *

Туториал

Здравствуйте дорогие читатели хабра, сейчас утро воскресенья, пожалуй невероятно удачный момент для спонтанного написания статьи на хабре, надеюсь в этом вы согласитесь со мной :) что ж, here we are!

Найти вопрос на ответ...

-9

zoldaten 20 янв в 20:22

Как перевести игру 'The Lamplighters League'

7 мин

1.5K

Игры и игровые консоли Изучение языков Natural Language Processing *

Туториал

На данном примере предлагается разобрать перевод .wem файлов аудио одного языка (англ.) на другой язык (русский) с последующей упаковкой в .wem и использования в игре. В качестве инструментов будут использоваться python, нейросети, а также программа Wwise. Из интересного — также будет использоваться сеть, определяющая пол (gender) говорящего, чтобы перевод получился двухголосым.

Читать дальше →

+12

TSjB 18 янв в 21:32

Семантический поиск и генерация текста на R. Часть 2

Средний

5 мин

824

Поисковые технологии *Семантика *R *Машинное обучение *Natural Language Processing *

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

mvideo 15 янв в 19:04

Почему в чат-ботах не сделают кнопку «Вызвать оператора»?

Простой

4 мин

5.5K

Блог компании М.Видео-Эльдорадо Машинное обучение *Управление e-commerce *Natural Language Processing *

Мнение

Всем привет, меня зовут Валентина Тарадайко и я владелец платформы «Чат-бот и IVR» в М.Тех. У пользователей часто возникает вопрос, почему крупные компании с мощным технологическим стеком, внушительными бюджетом и штатом сотрудников никак не добавят вожделенную кнопку «Вызвать оператора». Ведь речь идёт о ведущих российских компаниях - М.Видео, Озон, Мегамаркет и других. Чат-боты все умнее, благодаря прорыву c генеративным искусственным интеллектом, но попасть на оператора порой не проще, чем достучаться до небес. Попробую рассмотреть основные причины и поделиться опытом, который заставит усомниться в необходимости этой бесхитростной фичи.

2 3 ...

33 34

Natural Language Processing *

ИИ: тень великана

Новости

Язык твой — друг твой. Развиваем малые языки

Делаем intent classifier для службы поддержки без доменного датасета на русском

Создаем чат-бота на Python: Полное руководство

Истории

Parameter-Efficient Fine-Tuning (PEFT): методы LoRA, Prefix tuning, Prompt tuning и Adapters

Прощайте, базы данных, да здравствуют векторные базы данных

Как ускорить LLM-генерацию текста в 20 раз на больших наборах данных

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Adversarial suffixes или можно ли получить ответ на любой вопрос от LLM?

Обзор по LLM

GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов

Метод Binoculars обещает высокую точность обнаружения текста от больших языковых моделей

Предсказать ошибку. Как методы оценки неопределенности помогают повышать качество seq2seq-моделей

Ближайшие события

Алгебра смысла

Как мы сделали переводчик точнее и дешевле Google и Yandex

Вихрь — семейство переведенных русскоязычных LLM

Проанализируй меня если сможешь! Мета вопрос, или как я не перестал бояться и полюбил большие языковые модели

Как перевести игру 'The Lamplighters League'

Семантический поиск и генерация текста на R. Часть 2

Почему в чат-ботах не сделают кнопку «Вызвать оператора»?

Вклад авторов