Как стать автором

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Статьи Авторы Компании

NewTechAudit 4 апреля в 11:41

Q-Learning в сфере оптимизации бизнес-процессов

Python *Программирование *Машинное обучение *Читальный зал Natural Language Processing *

Расскажу про алгоритм обучения с подкреплением Q-learning и его применении в сфере майнинга процессов. Алгоритм позволяет оптимизировать бизнес-процесс, превращая его из хаотичного графа, с большим количеством связей и ветвлений, в понятный и однозначный оптимальный путь исполнения.

Читать далее

+1

1K

AlekseyKorshuk 4 апреля в 11:22

Optimum Transformers: как экономить от 20к$ в год на NLP

Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

Недавно компания 🤗 Hugging Face (стартап, стоящий за библиотекой transformers) выпустила новый продукт под названием "Infinity". Он описывается как сервер для выхода в “production”. Публичная демонстрация доступна на YouTube (ниже приведены скриншоты с таймингами и настройками, использованными во время демонстрации). Все основано на обещании, что продукт может выполнять работу с NLP с задержкой в 1 миллисекунду на графическом процессоре. По словам ведущего демонстрации, сервер Hugging Face Infinity стоит не менее 20.000$ в год за одну модель, развернутую на одной машине (общедоступная информация о ценовой масштабируемости отсутствует).

Мне стало любопытно немного покопаться и проверить, возможно ли достичь таких показателей? Спойлер: да, возможно, и с помощью этой статьи его легко воспроизвести и адаптировать к вашим РЕАЛЬНЫМ проектам.

А для тех, кому лень все это читать и хочется все получить из коробки... Ссылка на GitHub. Поставьте зведу сразу, а потом читайте 🤗

Читать далее

+12

1.5K

Ananiev_Genrih 4 апреля в 09:50

Tidy stemming велосипед, который поехал

Data Mining *R *Natural Language Processing *

Когда в NLP задачах речь доходит до стемминга, то никто особо не заморачивается - берет готовую реализацию, и она работает. Правда работает она только в тех случаях, когда текст является "классическим", то есть это человекочитаемый текст без огромного числа сокращений слов , и сами слова не являются транслитерацией с чужого языка.

Но что делать когда в качестве текста приходит например массив названий продуктов из внешних баз данных большого числа поставщиков и надо как-то автоматизировать классификацию (разные по написанию продукты свести к одному эталонному)?

Например возьмём винную продукцию где мало того-что много франко-итальянских написаний на русском, так и еще сокращения достигают до 20% от исходного полного слова (ограничения на длину строки в учетных системах поставщиков).

Это касается не только вина а любых продуктов, прочитайте в чеке названия продуктов которые вы купили в магазине, а теперь представьте что у вас есть второй чек из другого магазина с тем же продуктом и теперь надо провести стемминг чтобы максимально близко свести в многомерном пространстве одно наименование к другому.

Здесь классический стемминг остается не у дел, а вот о его замене в этой статье и поговорим.

Читать далее

+7

763

ProCATT 31 марта в 11:05

Нейросети-кодеры: к чему готовиться программистам?

Программирование *Natural Language Processing *

Recovery mode

Развитие искусственного интеллекта доросло до качественного прорыва, когда нейросети становятся «слегка сознательными». Из-за чего бизнесмены строят фантастические планы и считают будущие прибыли, программисты тренируют красноречие, а стратеги ищут способ защитить человечество от машинного самоуправства.

Началось все с невинной задачки: надо было понять, как вырастет мировой рынок AI в ближайшие годы. За самыми смелыми прогнозами я полез в отчет Кэти Вуд. Ее аналитики обещают, что рынок вырастет более чем в десять раз, с 10,5 до 108 триллионов долларов к 2030 году. При этом стоимость специализированного аппаратного и программного обеспечения, а также услуг по обучению нейросетей будет радикально падать. Искусственный интеллект будет брать количеством, забравшись в самые неожиданные сферы нашей жизни.

Немного фактов. Сейчас одна из самых продвинутых нейросетей для генерации текста – это GPT-3, содержащая 175 млрд токенов. В 2015 году, когда GPT только создавалась, стоимость обучения такой нейросети составила бы $875 млн, и на это потребовались бы годы. А в 2020 году такое обучение было проведено, и оно обошлось в $4,6 млн. По прогнозам ARK, в 2030 году затраты на подобную задачу снизятся до 500 долларов, а время – до нескольких часов. Понимаете, да? В 9200 раз меньше. Закон Мура с экспонентой тихо курят в сторонке.

Читать далее

-7

12K

meacca 26 марта в 14:48

Нейросетевой подход к моделированию транзакций расчетного счета

Блог компании Альфа-Банк Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *

Из песочницы

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с помощью карт. Оплата ЖКХ, оплата образования, крупные покупки и другие денежные переводы – это примеры транзакций, которые никак не привязаны к карте клиента, но при этом они ассоциируются с другой банковской сущностью – расчетным счетом.

Про то, как мы в Альфа-Банке применяем карточные транзакции в моделировании, мы уже рассказывали в этом посте. Логичным развитием идеи использования карточной транзакционной истории клиента является использование данных, которые содержатся в клиентской истории транзакций расчетного счета.

Читать далее

+6

2.6K

sergeykamov 25 марта в 09:00

Apache NLPCraft, подготовка к выходу мультиязычной версии 1.0

Open source *Java *API *Apache *Natural Language Processing *

Apache NlpCraft — библиотека с открытым исходным кодом, предназначенная для интеграции языкового интерфейса в пользовательские приложения.

Подробнее с проектом можно ознакомиться на его сайте или, напрмер, по ссылкам на хабре. Состояние проекта - Apache инкубация. Так как java NLP сообщество весьма ограничено, продукт имеет небольшое, но достаточно активное количество пользователей.

Читать далее

+1

657

NewTechAudit 25 марта в 08:00

Сказки от TENSORFLOW и LSTM

Машинное обучение *Natural Language Processing *TensorFlow *

Представляем разбор применения алгоритмов машинного обучения с использованием технологий LSTM для создания текстов.

В итоге должен получиться генератор более-менее осмысленного текста. Способы создания текстов на специальную, определенную пользователем, тему затронуты не будут – но в целом, текст будет создан в том стиле, в котором написана «обучающая выборка».

Кстати об обучающей выборке: в качестве оной будут использованы народные сказки братьев Гримм. Эти тексты будут обработаны, разбиты на биграммы уровня символов, из которых будет составлен словарь из уникальных биграмм.

Читать далее

+1

1.1K

Prolegomenbl 24 марта в 18:12

О глупости «программирования на естественном языке»

Блог компании JUG Ru Group История IT Natural Language Processing *

Перевод

От переводчиков. Хотя Эдсгер Дейкстра — одна из главных личностей в истории IT, эта его коротенькая публикация ранее не попадала на Хабр, да и сами мы узнали о ней лишь благодаря докладу на нашей конференции. Но при этом она выглядит очень любопытным документом эпохи, показывая, что ещё несколько десятилетий назад люди думали о перспективе писать программы на «обычном языке». Поэтому мы решили восполнить пробел и перевести.

С первых же дней появления автоматических вычислительных машин были люди, которые считали недостатком тот факт, что программирование требует внимательности и точности, свойственных любому формального символизму. Они критиковали механического слугу за то неукоснительное выполнение данных ему инструкций, когда достаточно было бы поразмышлять мгновение, чтобы заметить, что в этих инструкциях есть очевидная ошибка. «Но мгновение — это долго, а размышлять — болезненный процесс». (А. Э. Хаусман). Они страстно надеялись и ждали появления более разумных машин, которые отказались бы приступать к таким бессмысленным действиям, какие в то время вызывались банальной опечаткой.

Читать далее

+62

19K

just_ai 23 марта в 12:58

Как создать своего бота: 4 способа для новичков и профи

Блог компании Just AI Разработка под e-commerce *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы

Чем выше спрос на разговорные интерфейсы, тем больше решений на рынке для разработки ботов. Но не всегда понятно, какое выбрать — речь даже не про конкретный продукт или вендора, а про сам инструмент. Например, можно купить уже готового бота, заказать разработку, сделать все своими силами в конструкторе, с помощью фреймворка или диалоговой платформы. Мы подготовили подробнейший гайд по основным способам создания бота.

Читать далее

+6

12K

vladbalv 22 марта в 10:01

Путеводитель по основным трендам 2021 года в области обработки естественного языка и не только

Блог компании ГК ЛАНИТ Машинное обучение *Читальный зал Искусственный интеллект Natural Language Processing *

Перевод

Когда-то давно люди много путешествовали, посещали новые города и страны, им удавалось насладиться культурой других народов, пообщаться с ними на языке жестов. Исследовать новый для себя город можно по-разному. Например, бесцельно гулять по его улицам, впитывая атмосферу, состоящую из множества разных мелочей. И это отличный способ, если времени на осмотр много и точно знаешь, что рано или поздно еще вернешься. В противном случае полезно оптимизировать визит, используя путеводители, карты достопримечательностей и статьи других путешественников.

Число исследований в области машинного обучения с каждым годом растет. Конечно, приятно было бы прогуляться по каждой статье или ветке исследований отдельно, но времени на это просто может не хватить, а «посетить» 2021 год еще раз, увы, не удастся. Следовательно, необходимо также искать «путеводители» - статьи, подсвечивающие некоторые тренды, понимание которых важно для будущих направлений исследований. В начале года одна из таких статей «гуляла» по различным каналам и чатам. Мне захотелось перевести ее на русский и поделиться с вами. Далее приведу перевод этой статьи с моими комментариями.

Читать далее

+38

3.5K

blognetology 19 марта в 19:19

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Блог компании Нетология Искусственный интеллект Natural Language Processing *Голосовые интерфейсы Data Engineering *

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.

Читать далее

+1

1.2K

blognetology 17 марта в 12:53

NLP-инженер: чем он занимается и как помогает компаниям становиться умнее

Блог компании Нетология Машинное обучение *Искусственный интеллект Natural Language Processing *Data Engineering *

NLP-инженер (NLP от англ. natural language processing) — специалист, обладающий компетенциями в сферах прикладной математики, лингвистики и разработки программного обеспечения. Сегодня предлагаем поближе познакомиться с профессией NLP-инженера, узнать об основных задачах и роли в компании. Помог разобраться в непростой теме Иван Харченко, руководитель математико-лингвистического отдела системы управления репутацией и медиа анализа «СКАН-Интерфакс».

Читать далее

+1

1.5K

nurtdinovadf 3 марта в 13:46

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Машинное обучение *Развитие стартапа Звук Natural Language Processing *Голосовые интерфейсы

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать дальше →

+26

4.3K

Sanek22 3 марта в 10:38

Идея для языка программирования искусственного интеллекта. Свойство-ориентированный подход

Программирование *Искусственный интеллект Natural Language Processing *

В данной статье предлагается новый свойство-ориентированный подход к организации объектной модели в языках программирования. Основная идея - вынести свойство из объекта и сделать понятия свойства и объекта равноправными. Это позволит получить крайнюю гибкость и универсальность описания предметных областей, приблизив это описание к восприятию объектов и свойств человеком.

Свободу свойствам от объектов!

Читать далее

+6

3.3K

salaxieb 1 марта в 10:53

Что новенького по сущностям? Новости последней конференции EMNLP

Блог компании Домклик Data Mining *Natural Language Processing *

В ноябре 2021 проходила конференция EMNLP — одно из главных мероприятий для тех, кто занимается NLP. Хоть команде Домклик и не удалось провести отвязную неделю в Доминикане, я и мои коллеги смогли поучаствовать в конференции удалённо. Как рассказывают сами организаторы, претенденты на участие со всего мира весь 2021 год присылали свои статьи. Из 1500 полученных работ отобрали около 400, чтобы допущенные участники сделали десятиминутную видеопрезентацию. В итоге зрители в течение пяти дней непрерывно и концентрированно получают информацию о том, куда продвинулась наука обработки естественного языка.

Спектр тем огромен, просмотреть и понять все презентации тяжело физически. В этой статье мы подготовили для вас обзор работ только по распознаванию именованных сущностей (NER) и извлечению связей (RE).

Читать далее

+46

881

NewTechAudit 25 февраля в 13:29

Распознавание лиц на RASPBERRY PI

Python *Программирование *Машинное обучение *Natural Language Processing *

Биометрия везде. Современные мегаполисы в России и мире окутаны сетями камер, подключенными к различным системам распознавания лиц. Насколько это правильно с точки зрения этики — каждый решает сам, но факт в том, что такие методы не только помогают раскрывать преступления, но и предотвращать их совершение.

С каждым годом расширяется область применения таких систем. Например, пользователи могут приобрести у Google систему Nest — Nest Cam IQ Indoor, стоимостью 349 долларов с интеграцией в умный дом и возможностью распознавания лиц по подписке (за 10 долларов в месяц). И отечественных аналогов для частного пользования немало. Различные СКУД (системы контроля и управления доступом) от Ростелекома, HikVision, VisionLabs и других фирм. Описание зачастую мутное, опыт работы в реальных условиях можно найти на YouTube по запросу «Умный домофон не пускает мужчину домой».

Читать далее

+3

4.9K

sveta_pavlos 21 февраля в 14:09

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Data Mining *Big Data *IT-компании Natural Language Processing *Data Engineering *

Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

Читать далее

-3

515

DenisIndenbom 18 февраля в 23:16

AntiToxicBot — бот, распознающий токсичных пользователей в телеграм чатах. Немного об архитектуре нейросети бота.Часть 2

Python *Natural Language Processing *

Есть известная проблема с токсичными людьми в чатах. У модераторов чатов не всегда получается отслеживать и банить токсичных людей, хотелось бы автоматизировать процесс.

В прошлой статье было мало уделено архитектуре нейросети. Цель данной статьи рассказать больше об архитектуре сети и её компонентов, который использует бот для определения токсичных сообщений.

Читать далее

+2

3.2K

0x7o 18 февраля в 16:50

gamio. Русскоязычное текстовое приключение с GPT2

Python *Программирование *Машинное обучение *Искусственный интеллект Natural Language Processing *

Моя попытка создать аналог aidungeon, novelai, holo AI для русского языка. Хоть я и пытался сделать всё с абсолютного нуля, получилось не плохо.

В данном посте я затрону технические проблемы и расскажу про самые ранние попытки создать gamio.ru

Читать далее

+3

1.5K

Enfriz 14 февраля в 13:33

Вычисление стихотворного размера

Программирование *.NET *Алгоритмы *C# *Natural Language Processing *

Привет, Хабр! Расскажу о решении нестандартной задачи: алгоритм определения силлабо-тонического стихотворного размера по строке на русском языке. Опишу все нюансы и неочевидные подводные камни, с которыми столкнулся.

Читать далее

+87

6.9K

1