Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Как заменить регулярные выражения нейронной сетью

Python*Программирование*Машинное обучение*Natural Language Processing*

Наиболее часто используемый инструмент для поиска подстроки определенного вида в тексте – это регулярные выражения. Но можно ли вместо регулярного выражения использовать нейронную сеть, которая бы выполняла ту же самую задачу?

Задача: найти в тексте описание стоимости недвижимости, то есть численное обозначение и стоимость, записанную прописью. Например, 2 050 000 (два миллиона пятьдесят тысяч) руб., 00 коп. Задача усложняется тем, что «рубли» и «копейки» могут быть в любом месте (перед скобками или после) и могут быть сокращены.

Чтобы решить данную задачу, будем использовать NLP (Natural Language Processing), морфологический анализатор и нейронную сеть. Подключаем соответствующие библиотеки:

averkij 2 сентября в 10:21

Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями

Обработка изображений*Машинное обучение*Искусственный интеллектИзучение языковNatural Language Processing*

Tutorial

Lingtrain books

Upd 10.09.2021. Добавил ещё одну подборку Colab'ов для генерации картинок

Статья будет интересна все любителям программирования, иностранных языков и красивых книг. Сначала мы сделаем параллельную книгу, имея на руках два обычных текста. Затем мы проиллюстрируем ее картинками в стиле pixel art на основе лишь текстовых подсказок.

Книгу можно сделать более чем на сотне языков с восстановлением и подсветкой связей между предложениями:

Lingtrain

А теперь давайте сделаем такую книгу сами.

Смотреть демо

+48

6.4K

alexwortega 30 августа в 18:00

Видеосказки от ИИ: разбор бейзлайна трека Creative AI в рамках AIIJC

Блог компании СберМашинное обучение*Искусственный интеллектNatural Language Processing*

Привет, Хабр!

Сегодня мы, команда Sber AI, расскажем про бейзлайн генерации сказок с озвучкой и картинками, который мы предложили в рамках трека по Creative AI международного соревнования для школьников Artificial Intelligence International Junior Contest (AIIJC): рассмотрим аспекты обучения conditional ruGPT-3, генерацию музыки, генерацию изображения по текстовой строке, а также обсудим некоторые проблемы, с которыми пришлось столкнуться во время обучения и дообучения моделей.

В этом посте мы хотим разобрать (и разобраться сами), как можно использовать и объединять генеративные (и не только) модели для решения одной большой задачи — генерации контента. Мы подобрали большое количество материалов про каждую конкретную модель, чтобы ими можно было пользоваться сразу.

1.1K

einhorn 28 августа в 20:28

Расставляем ударения с помощью Natasha и Spacy

Python*Машинное обучение*Изучение языковNatural Language Processing*

Из песочницы

Представьте себя на месте изучающего русский язык иностранца. Ударение станет одним из ваших самых страшных ночных кошмаров.

Однажды я написал приложение для изучения русского, одной из функций которого была расстановка ударений. Я просто проверял каждое слово по словарю. Однако, это часто приводило к ситуации неоднозначности, когда ударение зависит от контекста. Например: "два сло́ва", но "длинные слова́".

Время подключать нейросети.

+17

3.8K

constantin_01 27 августа в 09:33

Декларативный и императивный подходы к построению QA чатбота

Natural Language Processing*

В статье рассматривается теоретический и практический аспекты двух подходов к построению вопросно-ответной системы. Первый подход — императивный, он предполагает полное описание инструкций для решения каждой задачи, когда как второй подход, декларативный, требует лишь правильно сформулированной задачи и набора базовых логический правил. Практический аспект обоих подходов изучается на основе реального приложения для автоматизации ответов на вопросы студентов и сотрудников университета.

895

honyaki 18 августа в 14:24

Не стоит ждать, что в обозримом будущем системы ИИ полностью овладеют человеческим языком

Блог компании SkillFactoryЧитальный залНаучно-популярноеИскусственный интеллектNatural Language Processing*

Перевод

Представьте себе: при помощи SkillFactory вы стали инженером машинного обучения или специалистом в Data Science. Это далось вам нелегко, даже тяжело, и вы часто слышали нотки недоверия в словах ваших друзей и знакомых, но, несмотря ни на что, решились. А через несколько лет в искусственном интеллекте произошёл прорыв, после которого смысл вашего труда почти сошёл на нет, ваша зарплата упала, а все перспективы исчезли.

Простые и ясные примеры этого материала рассказывают, почему ничего подобного не случится ни сегодня, когда у знаменитой GPT-3 появились превосходящие её конкуренты — LaMDA и MUM, — ни в обозримом будущем, то есть ИИ останется мощным вспомогательным инструментом, которому для работы необходимы люди.

2.2K

honyaki 14 августа в 17:48

Как превратить книгу о Гарри Поттере в граф знаний

Блог компании SkillFactoryPython*Программирование*Визуализация данныхNatural Language Processing*

Перевод

Tutorial

Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.

+11

7.5K

vicvoronov 12 августа в 23:00

Генераторы литературного контента на рынке финансовой информации

Искусственный интеллектФинансы в ITNatural Language Processing*

Появление промышленных генераторов литературного контента (ГЛК) связано с успехами в создании алгоритмов синтеза и обработки текстовой информации на основе методов ИИ. После многих десятилетий научных исследований, в начале 2010-х гг. почти одновременно несколько конкурирующих исследовательских групп вывели на рынок свои первые промышленные системы ГЛК. Сегодня же использование роботов в финансовой журналистике уже никого не удивляет.

Использование технологий ГЛК на рынке финансовой информации довольно неожиданно (даже для своих создателей) показало очень высокую эффективность. Отметим, что эта эффективность сегодня оценивается без учета существенных затрат, «утопленных» в НИОКР. Такой подход дает сверхнизкие оценки текущих затрат на единицу генерируемого контента. В связи с этим можно заранее предположить, что ГЛК позволят обеспечить финансовой аналитикой (и другими услугами, например, в сфере маркетинга) любое количество компаний.

+11

1.7K

AlekseyKorshuk 10 августа в 08:31

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

Python*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

В этой статье я расскажу о том, как создавался проект HuggingArtists и что у него под капотом.
Мне будет очень приятно, если вы поставите сразу звезду в репозитории:

Читать дальше →

1.4K

NewTechAudit 9 августа в 14:39

NER для русского языка в Spacy 3: удобно и легко

Python*Программирование*Машинное обучение*Natural Language Processing*

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков в сравнении с германскими или романскими языками.

+14

1.7K

alexwortega 7 августа в 13:04

Краткий пересказ Towards Pretrained Transformers As universal Computation Engines

Natural Language Processing*

Данная статья представляет собой вольный пересказ https://arxiv.org/abs/2103.05247

Аннотация

Данная статья является разбором свежей статьи от исследователей из университета Беркли "Pretrained Transformers As Universal Computation Engines". В статье решается задача дообучения трансформеров на новые виды информации, такие как: изображения, битовые операции, математические выражения и последовательности белков.

Архитектура трансформер стала основой существующих успехов глубокого обучения, породив череду моделей обработки естественного языка таких как GPT, BERT или T5, которые сейчас представлены в зоопарке русскоязычных моделей сбера. Впоследствии архитектура трансформера стала применяться и в задачах задачах компьютерного зрения (CLIP, ImageGPT, Dall·E).

Идея данной статьи происходит из того, что гигантские языковые модели обучаются на больших массивах данных, в том числе, Википедии, Reddit и т. д. Поэтому модели обладают широкими фактологическим знаниями, например, о годах рождения известных личностей.

755

aarmaageedoon 6 августа в 16:11

Обзор методов чистки данных

Блог компании МТСData Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Приветствую! Меня зовут Игорь Буянов, я NLP-разработчик в команде MTS AI. В рамках рабочих проектов группы обработки естественного языка я провожу исследования в области активного обучения, редукции шума и, в целом, занимаюсь подготовкой и обработкой датасетов.

В этой статье будут рассмотрены методы чистки данных – noise reduction – и результаты тестирования алгоритмов.

Чистка данных – значение и применение

Чистка данных – это процесс удаления шума из датасетов, который появляется в результате неправильно размеченных примеров. Источники такого шума могут быть разными: случайные ошибки аннотатора – человека или машины, которые размечают данные в соответствии с задачей, – неслучайные ошибки из-за плохого понимания задачи или двусмысленного примера, ошибки автоматической разметки.

Несмотря на то, что существует много способов разметки и контроля качества данных, подобный шум всегда будет присутствовать в датасетах. В задачах классификации одна из причин шума – невозможность однозначно провести границу между классами. Для большинства современных моделей наличие шума в данных объемом до 10% – несерьезная проблема. Поэтому, если датасет создан грамотно или найденный набор данных надежен, результат будет удовлетворительным.

Но что делать, если нужно решить специфическую задачу, для которой доступен только один датасет сомнительного качества? Или вам недоступны средства для качественной разметки, вы вынуждены размечать данные вручную и хотите проверить себя? На помощь придут алгоритмы чистки данных.

3.9K

saluev 23 июля в 17:00

Генератор абсурда за пять минут с NLTK и TreeTagger

Блог компании JoomPython*Программирование*Natural Language Processing*

Этот текст, при его очевидной абсурдности и лишённости смысла, мог показаться вам смутно знакомым. Это начало поэмы «Москва – Петушки», в котором слова, принадлежащие одной части речи, перемешаны между собой в случайном порядке.

Насколько сложно в наш век всеобщего проникновения машинного обучения и NLP набросать такую игрушку? О, это очень легко.

Читать дальше →

+10

3.5K

nkarpov 22 июля в 13:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

1.5K

stranger777 21 июля в 20:58

Как мыслит GPT? Визуализируем скрытые слои

Блог компании SkillFactoryВизуализация данныхЧитальный залИскусственный интеллектNatural Language Processing*

Перевод

В стремлении прояснить языковые модели Transformer с помощью пакета Ecco авторы показывают механизм генерации предложений внутри предварительно обученной языковой модели. После генерации предложения возможно визуализировать представление о том, как модель пришла к каждому слову — речь идёт о столбце на рисунке выше. Строки — это слои модели. Чем темнее элемент строки, тем выше ранг токена в слое. Слой 0 расположен на самом верху. Слой 47 — в самом низу. К старту курса о машинном и глубоком обучении показываем и рассказываем о том, как мыслит GPT.

2.8K

Dmitry_zm 15 июля в 10:00

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Блог компании СберБлог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

В зоопарке русскоязычных моделей прибавление: в открытом доступе появилась модель text2text-генерации ruT5 и модели-энкодеры ruRoBERTa и ruBERT, формирующие семантическое пространство текста. Модели можно использовать для создания классификаторов текстов, кластеризации, извлечения информации, суммаризации и многих других NLP-задач.

Ещё в начале пути создания виртуальных ассистентов Салют мы, команда NLP R&D SberDevices, поняли, что нужно обучать базовые языковые модели для русского языка, ориентируясь на успешные модели для английского. Опыта в этом, надо сказать, у нас было немного. Прошло два года, и сейчас мы обучили множество моделей, которыми хотим поделиться с вами.

С нашими «гптшками» вы уже знакомы, и про них мы уже рассказывали. Сейчас мы решили расширить наш открытый зоопарк и остальными моделями. Их все легко дообучать и использовать в проме на одной GPU, в том числе в Colab. Мы надеемся, что эти модели будут полезны русскому NLP-сообществу и помогут родиться многим интересным решениям.

В этой статье мы поделимся общими характеристиками и результатами замеров моделей на разных задачах.

Все модели размещены в формате PyTorch-Transformers. Вы можете скачать их в HF transformers.

Colab с примерами.

Читать дальше →

+15

3.1K

alexivan3232 12 июля в 13:08

Особенности создания синтаксического анализатора русского текста

Natural Language Processing*

Из песочницы

В данной статье приводится краткое описание основных особенностей, проблем и сложностей, которые автору пришлось решать при реализации программы морфологической и синтаксической обработки текстов на русском языке.

Была поставлена задача создания программы морфологической и синтаксической обработки грамотно составленных текстов на русском языке с перспективой последующего объединения с семантическим анализатором. В связи с тем, что русский язык имеет некоторую логику построения, то виделось возможным обработать данную языковую логику классическим программным способом (без использования нейросетей), при этом учитывались следующие соображения. Классическая программа обладает максимальной гибкостью при создании изощренных алгоритмов обработки; сами алгоритмы ориентируются на формализованные конструкции словосочетаний, обрабатывают не конкретные слова, а типы слов, что позволяет легко справляться с новыми словами, возникающими в языке достаточно часто. Данный подход видится целесообразным и при дальнейшем развитии программы – включение семантического анализатора в общий сквозной процесс обработки текстов.

В результате данная задача была в целом выполнена (пока без семантической обработки). Резюмируя пройденный этап, важно отметить ключевые технические задачи в рамках синтаксического разбора, которые требовали решения: выделение из всего множества единственно верной (наиболее вероятной) связи главного и зависимого слова плюс параллельный с этим выбор единственной морфологической формы слова среди множества возможных омонимов.

1.6K

stranger777 11 июля в 17:47

Как новый метод упаковки в BERT ускоряет обработку естественного языка в 2 раза

Блог компании SkillFactoryPython*Программирование*Машинное обучение*Natural Language Processing*

Перевод

Используя новый алгоритм упаковки, в Graphcore ускорили обработку естественного языка более чем в 2 раза при обучении BERT-Large. Метод упаковки удаляет заполнение, что позволяет значительно повысить эффективность вычислений. В Graphcore предполагают, что это также может применяться в геномике, в моделях фолдинга белков и других моделях с перекошенным распределением длины, оказывая гораздо более широкое влияние на различные отрасли и приложения. В новой работе Graphcore представили высокоэффективный алгоритм гистограммной упаковки с неотрицательными наименьшими квадратами (или NNLSHP), а также алгоритм BERT, применяемый к упакованным последовательностям. К старту курса о машинном и глубоком обучении представляем перевод обзора соответствующей публикации на ArXiv от её авторов. Ссылку на репозиторий вы найдёте в конце статьи.

1.9K

kitaisky 10 июля в 12:09

BERT для классификации русскоязычных текстов

Машинное обучение*Natural Language Processing*

Из песочницы

Файнтюнинг русскоязычного BERT для задачи классификации. Туториал для быстрого старта без лишних подробностей.

+10

2.5K

Christina29 8 июля в 14:25

Как ИИ учится литературному творчеству, или Любовные письма от тостера

Блог компании SberDevicesМашинное обучение*Научно-популярноеИскусственный интеллектNatural Language Processing*

Довольно долго считалось, что творчество — это удел людей, а животные и уж тем более машины творить не могут. Но так ли это? Ответ на этот вопрос зависит от определения творчества. Давайте разберёмся, при каком определении машины обретают возможность творить, и как у них обстоят дела с текстовыми произведениями — поэзией и прозой.

Под творчеством в самом простом случае понимают создание новых изображений, текстов, музыки и других объектов культуры. Но, согласитесь, это слишком широкое определение: согласно ему даже обыкновенный игральный кубик может что-то сотворить! Если сопоставить каждой из его граней ноту, можно получить мелодию. Она, правда, не будет соответствовать требованиям классической гармонии и вряд ли кому-то понравится, а та, которая понравится, будет просто исключением, как в «Теореме о бесконечных обезьянах».

Дальше ещё интереснее

1.2K

2 3 ...

13 14

Natural Language Processing *

Как заменить регулярные выражения нейронной сетью

Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями

Видеосказки от ИИ: разбор бейзлайна трека Creative AI в рамках AIIJC

Расставляем ударения с помощью Natasha и Spacy

Декларативный и императивный подходы к построению QA чатбота

Не стоит ждать, что в обозримом будущем системы ИИ полностью овладеют человеческим языком

Как превратить книгу о Гарри Поттере в граф знаний

Генераторы литературного контента на рынке финансовой информации

HuggingArtists | Генерируем текст песен с трансформером за 5 минут

NER для русского языка в Spacy 3: удобно и легко

Краткий пересказ Towards Pretrained Transformers As universal Computation Engines

Обзор методов чистки данных

Генератор абсурда за пять минут с NLTK и TreeTagger

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Как мыслит GPT? Визуализируем скрытые слои

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Особенности создания синтаксического анализатора русского текста

Как новый метод упаковки в BERT ускоряет обработку естественного языка в 2 раза

BERT для классификации русскоязычных текстов

Как ИИ учится литературному творчеству, или Любовные письма от тостера

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги