Natural Language Processing *

Компьютерный анализ и синтез естественных языков

honyaki 18 августа в 14:24

Не стоит ждать, что в обозримом будущем системы ИИ полностью овладеют человеческим языком

Блог компании SkillFactoryЧитальный залНаучно-популярноеИскусственный интеллектNatural Language Processing*

Перевод

Представьте себе: при помощи SkillFactory вы стали инженером машинного обучения или специалистом в Data Science. Это далось вам нелегко, даже тяжело, и вы часто слышали нотки недоверия в словах ваших друзей и знакомых, но, несмотря ни на что, решились. А через несколько лет в искусственном интеллекте произошёл прорыв, после которого смысл вашего труда почти сошёл на нет, ваша зарплата упала, а все перспективы исчезли.

Простые и ясные примеры этого материала рассказывают, почему ничего подобного не случится ни сегодня, когда у знаменитой GPT-3 появились превосходящие её конкуренты — LaMDA и MUM, — ни в обозримом будущем, то есть ИИ останется мощным вспомогательным инструментом, которому для работы необходимы люди.

1.9K

honyaki 14 августа в 17:48

Как превратить книгу о Гарри Поттере в граф знаний

Блог компании SkillFactoryPython*Программирование*Визуализация данныхNatural Language Processing*

Перевод

Tutorial

Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.

+11

7.1K

vicvoronov 12 августа в 23:00

Генераторы литературного контента на рынке финансовой информации

Искусственный интеллектФинансы в ITNatural Language Processing*

Появление промышленных генераторов литературного контента (ГЛК) связано с успехами в создании алгоритмов синтеза и обработки текстовой информации на основе методов ИИ. После многих десятилетий научных исследований, в начале 2010-х гг. почти одновременно несколько конкурирующих исследовательских групп вывели на рынок свои первые промышленные системы ГЛК. Сегодня же использование роботов в финансовой журналистике уже никого не удивляет.

Использование технологий ГЛК на рынке финансовой информации довольно неожиданно (даже для своих создателей) показало очень высокую эффективность. Отметим, что эта эффективность сегодня оценивается без учета существенных затрат, «утопленных» в НИОКР. Такой подход дает сверхнизкие оценки текущих затрат на единицу генерируемого контента. В связи с этим можно заранее предположить, что ГЛК позволят обеспечить финансовой аналитикой (и другими услугами, например, в сфере маркетинга) любое количество компаний.

+11

1.6K

AlekseyKorshuk 10 августа в 08:31

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

Python*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

В этой статье я расскажу о том, как создавался проект HuggingArtists и что у него под капотом.
Мне будет очень приятно, если вы поставите сразу звезду в репозитории:

Читать дальше →

1.2K

NewTechAudit 9 августа в 14:39

NER для русского языка в Spacy 3: удобно и легко

Python*Программирование*Машинное обучение*Natural Language Processing*

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков в сравнении с германскими или романскими языками.

+14

1.5K

alexwortega 7 августа в 13:04

Краткий пересказ Towards Pretrained Transformers As universal Computation Engines

Natural Language Processing*

Recovery mode

Данная статья представляет собой вольный пересказ https://arxiv.org/abs/2103.05247

Аннотация

Данная статья является разбором свежей статьи от исследователей из университета Беркли "Pretrained Transformers As Universal Computation Engines". В статье решается задача дообучения трансформеров на новые виды информации, такие как: изображения, битовые операции, математические выражения и последовательности белков.

Архитектура трансформер стала основой существующих успехов глубокого обучения, породив череду моделей обработки естественного языка таких как GPT, BERT или T5, которые сейчас представлены в зоопарке русскоязычных моделей сбера. Впоследствии архитектура трансформера стала применяться и в задачах задачах компьютерного зрения (CLIP, ImageGPT, Dall·E).

Идея данной статьи происходит из того, что гигантские языковые модели обучаются на больших массивах данных, в том числе, Википедии, Reddit и т. д. Поэтому модели обладают широкими фактологическим знаниями, например, о годах рождения известных личностей.

725

aarmaageedoon 6 августа в 16:11

Обзор методов чистки данных

Блог компании МТСData Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции шума и, в целом, занимаюсь подготовкой и обработкой датасетов.

В этой статье будут рассмотрены методы чистки данных – noise reduction – и результаты тестирования алгоритмов.

Чистка данных – значение и применение

Чистка данных – это процесс удаления шума из датасетов, который появляется в результате неправильно размеченных примеров. Источники такого шума могут быть разными: случайные ошибки аннотатора – человека или машины, которые размечают данные в соответствии с задачей, – неслучайные ошибки из-за плохого понимания задачи или двусмысленного примера, ошибки автоматической разметки.

Несмотря на то, что существует много способов разметки и контроля качества данных, подобный шум всегда будет присутствовать в датасетах. В задачах классификации одна из причин шума – невозможность однозначно провести границу между классами. Для большинства современных моделей наличие шума в данных объемом до 10% – несерьезная проблема. Поэтому, если датасет создан грамотно или найденный набор данных надежен, результат будет удовлетворительным.

Но что делать, если нужно решить специфическую задачу, для которой доступен только один датасет сомнительного качества? Или вам недоступны средства для качественной разметки, вы вынуждены размечать данные вручную и хотите проверить себя? На помощь придут алгоритмы чистки данных.

3.6K

saluev 23 июля в 17:00

Генератор абсурда за пять минут с NLTK и TreeTagger

Блог компании JoomPython*Программирование*Natural Language Processing*

Этот текст, при его очевидной абсурдности и лишённости смысла, мог показаться вам смутно знакомым. Это начало поэмы «Москва – Петушки», в котором слова, принадлежащие одной части речи, перемешаны между собой в случайном порядке.

Насколько сложно в наш век всеобщего проникновения машинного обучения и NLP набросать такую игрушку? О, это очень легко.

Читать дальше →

+10

3.3K

nkarpov 22 июля в 13:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

1.4K

stranger777 21 июля в 20:58

Как мыслит GPT? Визуализируем скрытые слои

Блог компании SkillFactoryВизуализация данныхЧитальный залИскусственный интеллектNatural Language Processing*

Перевод

В стремлении прояснить языковые модели Transformer с помощью пакета Ecco авторы показывают механизм генерации предложений внутри предварительно обученной языковой модели. После генерации предложения возможно визуализировать представление о том, как модель пришла к каждому слову — речь идёт о столбце на рисунке выше. Строки — это слои модели. Чем темнее элемент строки, тем выше ранг токена в слое. Слой 0 расположен на самом верху. Слой 47 — в самом низу. К старту курса о машинном и глубоком обучении показываем и рассказываем о том, как мыслит GPT.

2.8K

Dmitry_zm 15 июля в 10:00

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Блог компании СберБлог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

В зоопарке русскоязычных моделей прибавление: в открытом доступе появилась модель text2text-генерации ruT5 и модели-энкодеры ruRoBERTa и ruBERT, формирующие семантическое пространство текста. Модели можно использовать для создания классификаторов текстов, кластеризации, извлечения информации, суммаризации и многих других NLP-задач.

Ещё в начале пути создания виртуальных ассистентов Салют мы, команда NLP R&D SberDevices, поняли, что нужно обучать базовые языковые модели для русского языка, ориентируясь на успешные модели для английского. Опыта в этом, надо сказать, у нас было немного. Прошло два года, и сейчас мы обучили множество моделей, которыми хотим поделиться с вами.

С нашими «гптшками» вы уже знакомы, и про них мы уже рассказывали. Сейчас мы решили расширить наш открытый зоопарк и остальными моделями. Их все легко дообучать и использовать в проме на одной GPU, в том числе в Colab. Мы надеемся, что эти модели будут полезны русскому NLP-сообществу и помогут родиться многим интересным решениям.

В этой статье мы поделимся общими характеристиками и результатами замеров моделей на разных задачах.

Все модели размещены в формате PyTorch-Transformers. Вы можете скачать их в HF transformers.

Colab с примерами.

Читать дальше →

+15

2.7K

alexivan3232 12 июля в 13:08

Особенности создания синтаксического анализатора русского текста

Natural Language Processing*

Из песочницы

В данной статье приводится краткое описание основных особенностей, проблем и сложностей, которые автору пришлось решать при реализации программы морфологической и синтаксической обработки текстов на русском языке.

Была поставлена задача создания программы морфологической и синтаксической обработки грамотно составленных текстов на русском языке с перспективой последующего объединения с семантическим анализатором. В связи с тем, что русский язык имеет некоторую логику построения, то виделось возможным обработать данную языковую логику классическим программным способом (без использования нейросетей), при этом учитывались следующие соображения. Классическая программа обладает максимальной гибкостью при создании изощренных алгоритмов обработки; сами алгоритмы ориентируются на формализованные конструкции словосочетаний, обрабатывают не конкретные слова, а типы слов, что позволяет легко справляться с новыми словами, возникающими в языке достаточно часто. Данный подход видится целесообразным и при дальнейшем развитии программы – включение семантического анализатора в общий сквозной процесс обработки текстов.

В результате данная задача была в целом выполнена (пока без семантической обработки). Резюмируя пройденный этап, важно отметить ключевые технические задачи в рамках синтаксического разбора, которые требовали решения: выделение из всего множества единственно верной (наиболее вероятной) связи главного и зависимого слова плюс параллельный с этим выбор единственной морфологической формы слова среди множества возможных омонимов.

1.5K

stranger777 11 июля в 17:47

Как новый метод упаковки в BERT ускоряет обработку естественного языка в 2 раза

Блог компании SkillFactoryPython*Программирование*Машинное обучение*Natural Language Processing*

Перевод

Используя новый алгоритм упаковки, в Graphcore ускорили обработку естественного языка более чем в 2 раза при обучении BERT-Large. Метод упаковки удаляет заполнение, что позволяет значительно повысить эффективность вычислений. В Graphcore предполагают, что это также может применяться в геномике, в моделях фолдинга белков и других моделях с перекошенным распределением длины, оказывая гораздо более широкое влияние на различные отрасли и приложения. В новой работе Graphcore представили высокоэффективный алгоритм гистограммной упаковки с неотрицательными наименьшими квадратами (или NNLSHP), а также алгоритм BERT, применяемый к упакованным последовательностям. К старту курса о машинном и глубоком обучении представляем перевод обзора соответствующей публикации на ArXiv от её авторов. Ссылку на репозиторий вы найдёте в конце статьи.

1.9K

kitaisky 10 июля в 12:09

BERT для классификации русскоязычных текстов

Машинное обучение*Natural Language Processing*

Из песочницы

Файнтюнинг русскоязычного BERT для задачи классификации. Туториал для быстрого старта без лишних подробностей.

+10

2.3K

Christina29 8 июля в 14:25

Как ИИ учится литературному творчеству, или Любовные письма от тостера

Блог компании SberDevicesМашинное обучение*Научно-популярноеИскусственный интеллектNatural Language Processing*

Довольно долго считалось, что творчество — это удел людей, а животные и уж тем более машины творить не могут. Но так ли это? Ответ на этот вопрос зависит от определения творчества. Давайте разберёмся, при каком определении машины обретают возможность творить, и как у них обстоят дела с текстовыми произведениями — поэзией и прозой.

Под творчеством в самом простом случае понимают создание новых изображений, текстов, музыки и других объектов культуры. Но, согласитесь, это слишком широкое определение: согласно ему даже обыкновенный игральный кубик может что-то сотворить! Если сопоставить каждой из его граней ноту, можно получить мелодию. Она, правда, не будет соответствовать требованиям классической гармонии и вряд ли кому-то понравится, а та, которая понравится, будет просто исключением, как в «Теореме о бесконечных обезьянах».

Дальше ещё интереснее

1.1K

honyaki 6 июля в 20:50

Семантический поиск: от простого сходства Жаккара к сложному SBERT

Блог компании SkillFactoryПрограммирование*Математика*Научно-популярноеNatural Language Processing*

Перевод

В материале, переводом которого мы решили поделиться к старту курса о машинном и глубоком обучении, простым языком рассказывается о семантическом поиске, статья охватывает шесть его методов; начиная с простых сходства по Жаккару, алгоритма шинглов и расстояния Левенштейна, автор переходит к поиску с разреженными векторами — TF-IDF и BM25 и заканчивает современными представлениями плотных векторов и Sentence-BERT. Простые примеры сопровождаются кодом и иллюстрациями, а в конце вы найдёте ссылки на соответствующие блокноты Jupyter.

+12

4.3K

Durham 1 июля в 00:14

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Алгоритмы*Машинное обучение*Искусственный интеллектБудущее здесьNatural Language Processing*

Не так давно Сбер, а затем и Яндекс объявили о создании сверхбольших русских языковых моделей, похожих на GPT-3. Они не только генерируют правдоподобный текст (статьи, песни, блоги и т. п.), но и решают много разнообразных задач, причем эти задачи зачастую можно ставить на русском языке без программирования и дополнительного обучения — нечто очень близкое к «универсальному» искусственному интеллекту. Но, как пишут авторы Сбера у себя в блоге, «подобные эксперименты доступны только компаниям, обладающим значительными вычислительными ресурсами». Обучение моделей с миллиардами параметров обходится в несколько десятков, а то сотен миллионов рублей. Получается, что индивидуальные разработчики и маленькие компании теперь исключены из процесса и могут теперь только использовать обученные кем-то модели. В статье я попробую оспорить этот тезис, рассказав о результатах попытки обучить модель с 30 миллиардами параметров на двух картах RTX 2080Ti.

+40

9.7K

cointegrated 28 июня в 09:53

Перефразирование русских текстов: корпуса, модели, метрики

Python*Семантика*Программирование*Машинное обучение*Natural Language Processing*

Автоматическое перефразирование текстов может быть полезно в куче задач, от рерайтинга текстов до аугментации данных. В этой статье я собрал русскоязычные корпуса и модели парафраз, а также попробовал создать собственный корпус, обучить свою модель для перефразирования, и собрать набор автоматических метрик для оценки их качества.

В итоге оказалось, что модель для перевода перефразирует лучше, чем специализированные модели. Но, по крайней мере, стало более понятно, чего вообще от автоматического перефразирования можно хотеть и ожидать.

+16

3.5K

averkij 27 июня в 19:44

Написал приложение для создания параллельных книг, которое вас удивит

Разработка веб-сайтов*Программирование*GitHubИзучение языковNatural Language Processing*

title

Здравствуй, читатель. Хотелось бы ненадолго отвлечь твое внимание от новостей и историй данной технической статьей. Поэтому пусть такой "кликбейтный" затравочный заголовок не вводит тебя в заблуждение.

В этой статье я расскажу как сделать параллельную книгу, имея на руках два текста на разных языках. Я написал веб-приложение, которое упрощает процесс выравнивания, превращая сырые тексты в книги и параллельные корпуса. Хочу поделиться с сообществом этим проектом, а также узнать ваше мнение. Технические детали я описывал здесь и здесь, код приложения открытый. Поехали.

Установка

Приложение я оформил в виде docker контейнера, поэтому запустить его у себя на машине не должно составить труда. Также можно запустить приложение из исходников, инструкция есть в репозитории.

Итак, для запуска приложения у себя на компьютере нужно выполнить следующие команды:

docker pull lingtrain/aligner:v4
docker run -v C:\app\data:/app/data -v C:\app\img:/app/static/img -p 80:80 lingtrain/aligner:v4

C:\app\data и C:\app\img — это папки на вашем компьютере.

Контейнер скачается с репозитория Docker Hub и запустится на 80-м порту. Откроем приложение в вашем любимом браузере по адресу localhost.

Lingtrain app 1

Сделаем три шага: загрузка, выравнивание, генерация.

Смотреть демо

+74

17K

king_menin 24 июня в 12:50

ruCLIP — мультимодальная модель для русского языка

Блог компании SberDevicesОбработка изображений*Машинное обучение*Искусственный интеллектNatural Language Processing*

Известно, что глубокие нейронные сети (DNN) и модели компьютерного зрения, в частности, хорошо справляются с конкретными задачами, но зачастую не могут сделать обобщение при работе с новыми. Так, модель, которая хорошо работает с данными о продуктах питания, может показать себя не очень хорошо на спутниковых изображениях и т. д..

В начале этого года OpenAI опубликовала модель под названием CLIP (Contrastive Language–Image Pre-training). В статье авторы модели привели потрясающие результаты по точности zero-shot-классификации изображений, а также сопоставили тексты и картинки в рамках одной системы. Однако модель OpenAI работает только с английским языком. Можно ли быстро адаптировать её для работы с русским?

Команды R&D SberDevices и Sber AI увлеклись этим вопросом. В этой статье мы расскажем про первые результаты наших исследований CLIP для русского языка, опишем ключевые идеи предложенной модели и поделимся с вами кодом для её использования — решения задач zero-shot image classification.

Что же можно сделать с помощью ruCLIP?

+29

2.8K

2 3 ...

13 14

Natural Language Processing *

Не стоит ждать, что в обозримом будущем системы ИИ полностью овладеют человеческим языком

Новости

Как превратить книгу о Гарри Поттере в граф знаний

Генераторы литературного контента на рынке финансовой информации

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

NER для русского языка в Spacy 3: удобно и легко

Краткий пересказ Towards Pretrained Transformers As universal Computation Engines

Обзор методов чистки данных

Генератор абсурда за пять минут с NLTK и TreeTagger

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Как мыслит GPT? Визуализируем скрытые слои

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Особенности создания синтаксического анализатора русского текста

Как новый метод упаковки в BERT ускоряет обработку естественного языка в 2 раза

BERT для классификации русскоязычных текстов

Как ИИ учится литературному творчеству, или Любовные письма от тостера

Семантический поиск: от простого сходства Жаккара к сложному SBERT

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

Перефразирование русских текстов: корпуса, модели, метрики

Написал приложение для создания параллельных книг, которое вас удивит

Установка

ruCLIP — мультимодальная модель для русского языка

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги