Как стать автором
Обновить

OpenAI открыла код системы распознавания речи Whisper

Время на прочтение2 мин
Количество просмотров6.9K

OpenAI опубликовала исходный код системы распознавания речи Whisper. Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей для использования под лицензией MIT.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии4

OpenAI выпустила нейросеть, которая кратко пересказывает книги

Время на прочтение2 мин
Количество просмотров22K

В OpenAI представили нейросеть на основе GPT-3, которая способна генерировать краткие изложения книг. Разработчики отмечают, что подобные модели нужны для контролируемого масштабирования систем искусственного интеллекта. Работа данной нейросети покажет, насколько она справляется с работой, которую. обычно выполняют люди.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии6

OpenAI заставила GPT-3 вести себя лучше и выполнять инструкции

Время на прочтение2 мин
Количество просмотров3.7K

OpenAI заявила, что обучила свою языковую модель GPT-3 следовать инструкциям, благодаря чему она выдает меньше нежелательного текста.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии1

Исследование: мозг понимает язык с помощью «автокоррекции»

Время на прочтение2 мин
Количество просмотров4.4K

Исследователи Массачусетского технологического института применили модели искусственного интеллекта для изучения того, как и почему наш мозг понимает язык. Выяснилось, что человеческий мозг может работать примерно так же, как и функция автокоррекции на смартфоне.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии5

Bloomberg выпустило чат-бота для финансового рынка BloombergGPT

Время на прочтение2 мин
Количество просмотров3.7K

Агентство Bloomberg представило чат-бота BloombergGPT. Это большая языковая модель с 50 млрд параметров, созданная для финансового рынка. Модель обучена работе с широким спектром данных и поддерживает выполнение разнообразных задач обработки естественного языка в финансовой отрасли.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии1

Украинский стартап Grammarly оценили в $13 млрд

Время на прочтение1 мин
Количество просмотров10K

Основанная выходцами из Украины IT-компания Grammarly, которая разработала онлайн-сервис улучшения бизнес-текстов на английском языке, привлекла еще $200 млн. Таким образом. ее общая оценка достигла $13 млрд.

Читать далее
Всего голосов 10: ↑9 и ↓1+17
Комментарии7

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

Время на прочтение3 мин
Количество просмотров4K


Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: [email protected].

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.
Читать дальше →
Всего голосов 5: ↑4 и ↓1+6
Комментарии2

DeepMind утверждает, что ее языковая модель на 280 млрд параметров превосходит аналоги в 25 раз крупнее

Время на прочтение3 мин
Количество просмотров6K

AI-лаборатория DeepMind опубликовала три исследовательские работы, посвященные возможностям больших языковых моделей. Компания пришла к выводу, что дальнейшее масштабирование этих систем должно привести к множеству улучшений.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии11

Обучение трансформеров, зоопарк ML-моделей, RAG-подходы, железо для LLM и другие темы на Conversations 2023

Время на прочтение2 мин
Количество просмотров1.6K

8 декабря в Москве и в онлайн-формате состоится Conversations – ежегодная конференция по разговорному, а теперь и генеративному AI для разработчиков и бизнеса.

Вызовы и достижения разработки LLM, диалоговые платформы и новые фреймворки, инфраструктура для запуска LLM, нейросетевая обработка и модели распознавания речи, обучение трансформеров, RAG-подходы и многое другое в лайнапе Conversations в этом году. 

Вас ждет экспертиза от команд GigaChat и YaGPT, ВКонтакте, Selectel, MTS AI, Лаборатория Касперского, Тинькофф, Zerocracy, Yandex Cloud, Boto, 3itech и других. Для подогрева интереса делимся некоторыми подробностями докладов, а еще промокодом на скидку!

Читать далее
Рейтинг0
Комментарии0

Исследователи выяснили, что системы ИИ не различают предложения с перемешанными словами

Время на прочтение2 мин
Количество просмотров3.7K

Исследователи из Обернского университета пришли к выводу, что многие ИИ, предназначенные для обработки естественного языка (Natural Language Processing, NLP), не замечают, когда слова в предложении перемешиваются, а его значение меняется. Это показывает, что ИИ на самом деле не понимают язык, и создает проблемы в обучении систем NLP.

Читать далее
Всего голосов 8: ↑7 и ↓1+12
Комментарии20

В рамках реструктуризации платформа Grammarly увольняет 230 сотрудников

Время на прочтение1 мин
Количество просмотров1.7K

Платформа для помощи в общении на английском языке на базе искусственного интеллекта Grammarly объявила о сокращении 230 сотрудников в рамках реструктуризации. В компании объяснили, что увольнения станут частью инициативы по увеличению внимания «к созданию рабочих мест с поддержкой ИИ».

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

OpenSource на поле против OpenAI:  Function Calls здесь и сейчас для самых маленьких… ресурсов

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.7K

Вызов функций на локально развернутых LLM возможен. Прочитайте статью и узнайте, как это можно реализовать и насколько хорошо это работает!

Читать далее
Всего голосов 7: ↑6 и ↓1+8
Комментарии2

Обработка текстов на естественных языках

Время на прочтение30 мин
Количество просмотров32K


Сегодня мы затрагиваем такую интересную тему, как естественные языки. Сейчас в эту область вкладываются очень большие деньги и в ней решают немало разнообразных задач. Она привлекает внимание не только индустрии, но и научного сообщества.
Читать дальше →
Всего голосов 34: ↑34 и ↓0+34
Комментарии31

Строго типизированные комбинаторы для построения парсера и синтезатора естественного языка

Время на прочтение13 мин
Количество просмотров7K
Известные ParserCombinator'ы и Parboiled предназначены исключительно для разбора формальных языков. Мы же решаем задачу разбора естественного языка и при этом хотим, чтобы с помощью той же грамматики можно было осуществлять синтез фраз на естественном языке, отражающих требуемую нам семантику. Было бы удобно иметь возможность описывать языковые конструкции вместе с правилами абстрагирования/конкретизации.

Например,

  1. Преобразование числительных в число («десять» -> 10:Int)
  2. и обратно (10:Int -> «десять» («десятый», «десяток» ...))
  3. Преобразование числительных вместе с единицей измерения («десять рублей» <-> NumberWithMeasurement(10, RUB))
  4. Неполный адрес («ул. Яблочная» <-> Address(street=«Яблочная»))
  5. Адрес в пределах города («улица Яблочная дом сто двадцать три квартира сорок пять» <-> Address(street=«Яблочная», building=123, flat=45))
  6. Телефон (256-00-21 («двести пятьдесят шесть ноль ноль двадцать один») <-> NumericalSequence(256,0,0,21))

Причём хотелось бы иметь следующие системные свойства:

  • единственность описания правил абстрагирования/конкретизации
  • строго типизированное представление семантики на всех уровнях абстракции
  • наличие альтернативных форм представления семантики и возможность повлиять на выбор формы представления семантики
  • согласование словоформ для получения фразы на чистом русском языке
  • возможность формирования вторичных структур на основе исходных правил. В частности, мы бы хотели формировать грамматики разбора, соответствующие правилам.

Под катом — описание подхода, реализованного в библиотеке synapse-typed-expressions. Рассмотрены только числительные, но подход естественным образом распространяется на другие вышеупомянутые формальные языковые конструкции.
Читать дальше →
Всего голосов 20: ↑16 и ↓4+12
Комментарии2

Разбитие текста на предложения лингво-независимым методом на примере библиотеки AIF

Время на прочтение9 мин
Количество просмотров16K
В прошлой статье мы уже рассказывали о новой NLP библиотеке. Однако тогда мы рассказали «обовсем» и не о чем конкретном. Сегодня мы поговорим о теоретических аспектах разбития предложения на токены лингво-независимыми алгоритмами. Теоретические выкладки будут подкреплены практической реализацией в библиотеке AIF. Поехали…
Читать дальше →
Всего голосов 27: ↑23 и ↓4+19
Комментарии12

SpeechMarkup API — превращаем речь в данные

Время на прочтение8 мин
Количество просмотров18K

В статье пойдет речь о том, как из любого запроса на естественном языке получить реальные данные, с которыми может работать ваше приложение. А именно, о REST API сервиса SpeechMarkup, который преобразует обычную строчку текста в JSON со всеми найденными смысловыми сущностями с конкретными данными в каждой из них.

Да-да, это та самая технология, которая лежит в основе любого голосового ассистента и используется в поисковиках.
Она позволяет однозначно интерпретировать запрос, а затем вернуть вашему приложению результат в виде обычного набора данных.

В статье я расскажу, для чего можно использовать данный API и приведу небольшой пример работающего приложения.

Читать дальше →
Всего голосов 31: ↑28 и ↓3+25
Комментарии49

Извлечение данных из фотохостинга

Время на прочтение6 мин
Количество просмотров23K
Наткнулся однажды на этот пост и мне подумалось — раз у нас есть такая прекрасная, полностью открытая галерея частных данных (Radikal.ru), не попытаться ли извлечь из нее эти данные в удобном для обработки виде? То есть:

  • Скачать картинки;
  • Распознать текст на них;
  • Выделить из этого текста полезную информацию и классифицировать ее для дальнейшего анализа.


И в результате, после нескольких вечеров, работающий прототип был сделан. Много технических деталей:
Читать дальше →
Всего голосов 27: ↑23 и ↓4+19
Комментарии6

Подборка статей о машинном обучении: кейсы, гайды и исследования за май 2020

Время на прочтение3 мин
Количество просмотров3.9K

Продолжаем собирать для вас самые интересные новости и инструменты из области машинного обучения, написанные на доступном языке.
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии0

InterSystems iKnow. Часть вторая. Создание простого домена

Время на прочтение11 мин
Количество просмотров3.7K
Это продолжение моего рассказа про Natural Language Processing технологию Intersystems iKnow, начало здесь. Во второй части вы найдете описание практической работы с iKnow. Мы создадим домен, настроим его, загрузим текст. Затем, посмотрим и проанализируем результаты. Подробнее об этом под катом…
Читать дальше →
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

«Диалог» компьютерных лингвистов и специалистов по анализу данных впервые пройдет онлайн и бесплатно

Время на прочтение4 мин
Количество просмотров2.1K
Текущая ситуация в мире не повод останавливать диалог, особенно если его можно вести онлайн. С 17 по 20 июня состоится 26-ая Международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». В этот раз она пройдет онлайн и будет бесплатной. Много лет основным организатором конференции выступает ABBYY: мы заинтересованы в развитии компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP) и проведении исследований в этих областях. Подробнее о том, что такое «Диалог» и зачем он нужен, мы уже говорили на Хабре.

Сегодня расскажем об интересных событиях, которые запланированы на предстоящей конференции: докладах, темах дискуссий и трех технологических соревнованиях в рамках Dialogue Evaluation – по извлечению семантических отношений из деловых текстов, автоматическому поиску гиперонимов и морфосинтаксическому анализу текстов. Поехали!
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии0
1
23 ...