Голосовые интерфейсы

управляем устройствами при помощи голосовых команд

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Блог компании МТС Алгоритмы *Звук Natural Language Processing *Голосовые интерфейсы

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

1.1K

neuroonet 16 октября в 03:25

Синтезированные ИИ голоса актеров позволяют обходиться без иностранной озвучки

Блог компании Neuro.net Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Следующий фильм или ТВ-шоу, которые вы будете смотреть, могут оказаться "работой" искусственного интеллекта. Представьте, что актеры Голливуда, Болливуда или любых других студий говорят на родном для вас языке в любом из новых фильмов или шоу. На самом деле, это вполне реальная история, вот только голоса могут не принадлежать человеку - все это дипфейки, правда, не мошеннические, а созданные самими киностудиями с использованием ИИ.

Уже сейчас видео- и голосовые дипфейки вполне сносно копируют оригинал А в ближайшем будущем эти технологии станут еще более совершенными. Компании смогут получать копии голосов актеров, говорящих на самых разных языках. И это будут не лишенные выражения "голоса" вроде современных цифровых агентов, а очень реалистичные голоса, снабженные эмоциями. Цифровые актеры смогут плакать, смеяться, бормотать - причем максимально близко к оригинальной озвучке.

Olga_Karchevskaya 13 октября в 18:18

Как робот-оператор научился помогать людям во время пандемии

Блог компании VS Robotics Искусственный интеллект Здоровье Будущее здесь Голосовые интерфейсы

Весной 2020 года, на заре пандемии, мы начали делать голосовой справочник по коронавирусной инфекции, самоизоляции и всему, что связано с covid19 на основе нашего робота-оператора. Мы привлекли к созданию вопросно-ответной базы несколько десятков волонтёров, получилось грандиозно.

-5

709

stanislav_as 5 октября в 11:00

Как мы проверили качество распознавания речи у Яндекса, Гугла, Тинькофф, Amazon и др

Блог компании Наносемантика Машинное обучение *Искусственный интеллект Звук Голосовые интерфейсы

Всем привет! Я руковожу «Наносемантикой», сегодня хотел бы поделиться с вами результатами нашего сравнения сервисов распознавания речи (ASR). Мы собрали и разметили тестовый датасет на русском языке, прогнали через сервисы ASR, проанализировали результаты работы разных вендоров, собрали основные выводы.

Получилось интересно, подробности в статье.

4.1K

Sber 27 сентября в 18:37

Как мы сделали доступными все технологии Сбера на единой платформе: итоги первого года работы SmartMarket

Блог компании Сбер Программирование *Интерфейсы *IT-компании Голосовые интерфейсы

Год назад, в сентябре 2020 года команда SberDevices выпустила семейство виртуальных ассистентов Салют. В семействе три персонажа — Сбер, Афина и Джой. Они доступны на умных устройствах Sber, устройствах под управлением Салют ТВ и в мобильных приложениях СберБанк Онлайн и Сбер Салют.

Вместе с этим запуском мы запустили первую версию платформы SmartMarket. С инструментами SmartMarket внешние разработчики и бизнес получили возможность создавать приложения для виртуальных ассистентов Салют.

Иван Смирнов, руководитель NLP-Platform и SmartMarket рассказывает, как мы собрали вместе инструменты и технологии Сбера и к чему удалось прийти за год.

-3

snakers4 13 сентября в 14:37

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Читать дальше →

+11

1.3K

neuroonet 2 сентября в 20:52

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Блог компании Neuro.net Научно-популярное Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.

Читать дальше →

2.3K

APPKODE 31 августа в 09:23

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Интерфейсы *Usability *Искусственный интеллект Голосовые интерфейсы

Привет! Меня зовут Юля Мицкевич, я операционный директор команды дизайна и разработки разговорных продуктов TORTU компании KODE.

Наша команда уже более 3 лет занимается проектированием и разработкой VUI: от чат-ботов и телефонных систем до виртуальных ассистентов. Мы помогаем бизнесу обрести свой голос. Активно участвуем в проектировании навыков для Сбера, Тинькофф, HeadHunter, Mail.ru Group, Delivery Club и других крупных компаний. Также развиваем профессиональное сообщество: ведём Telegram-канал 'Hey Voice!'

В июне этого года я выступала на Conversation – крупнейшей конференции по разговорному AI, где рассказала, как организовать процесс разработки VUI так, чтобы избежать дорогостоящих ошибок и двойной работы. Делюсь опытом нашей команды, которая узнала много нового о себе и голосе, когда впервые начала заниматься VUI.

Tkinai 25 августа в 10:00

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Блог компании SberDevices Машинное обучение *Искусственный интеллект Голосовые интерфейсы

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

1.9K

Snusmumrick97 19 августа в 10:00

Светодиодная матрица: управляем домашним уютом с помощью голоса

Блог компании SberDevices Разработка под Arduino *Умный дом DIY или Сделай сам Голосовые интерфейсы

Tutorial

Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки...

Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.

Поехали!

+10

3.9K

The_HardWare_guy 29 июля в 14:47

Как устроена аппаратная часть SberBox Top: разбираем девайс

Блог компании SberDevices Производство и разработка электроники *Гаджеты Умный дом Голосовые интерфейсы

За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет.

Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева.

Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.

Поехали!

6.7K

neuroonet 29 июля в 02:39

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

Блог компании Neuro.net Алгоритмы *Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.

Читать дальше →

+12

4.1K

neuroonet 24 июля в 01:00

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Блог компании Neuro.net Машинное обучение *Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.

Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».

Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.

+10

5.4K

nkarpov 22 июля в 13:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

1.7K

APPKODE 13 июля в 17:19

Как стать крутым VUI-дизайнером: пошаговое руководство

Дизайн Голосовые интерфейсы

Впервые люди познакомились с голосовым ассистентом 10 лет назад, когда Apple презентовала Siri. Тогда никто не ожидал, что voice tech станет движущей силой инноваций. Высокий спрос привёл к тому, что компании начали активно развивать экспертизу в проектировании голосовых интерфейсов и искать специалистов, которые в этом разбираются.

Делимся опытом нашей VUI-команды TORTU и рассказываем, как попасть в индустрию, прокачать свой скилл и стать крутым VUI-дизайнером.

1.7K

neuroonet 13 июля в 11:45

Голосовой ИИ: технологии под капотом цифрового агента

Блог компании Neuro.net Алгоритмы *Машинное обучение *Голосовые интерфейсы

Привет, Хабр! Сегодня мы предлагаем поговорить про так называемый голосовой искусственный интеллект и про технологии, которые делают его «умным». Кроме того, поговорим и о «магии» нашей голосовой платформы — о том, что позволяет голосовому агенту вести нормальную беседу с человеком.

Технологии достигли настолько высокого уровня, что даже профессионалы, которые занимаются разработкой голосовых технологий, зачастую затрудняются отличить робота от человека. Кстати, эта статья подготовлена по выступлению СТО Neuro.net Игоря Десятникова на Tech Week 2021. Если не хочется читать статью — вот видео, если же нужны подробности, то все самое интересное — под катом.

+14

1.4K

cointegrated 2 июля в 14:35

Лучшие навыки Алисы и советы от их разработчиков

Программирование *Разработка игр *Интерфейсы *Яндекс API *Голосовые интерфейсы

Я уже довольно давно разрабатываю навыки для Яндекс.Алисы, но пока не создал ни одного популярного. Недавно мне стало интересно: а какие навыки становятся самыми популярными, и кто те люди, которые их создают? Чтобы ответить на этот вопрос, я проанализировал каталог Алисы и опросил 20 разработчиков, чьи навыки набрали наибольшее количество оценок "пять". Похоже, что к их советам стоит прислушаться.

+15

9.4K

Barrayar 1 июля в 18:55

Игровые навыки у голосовых помощников

Блог компании VK Гаджеты Голосовые интерфейсы

Любая технология, ставшая популярной, чему-то этим обязана. Одной из причин популярности голосовых помощников стали так называемые игровые навыки — умение играть с пользователями. Давайте поговорим о современном состоянии этой отрасли, чем интересны голосовые навыки и как они могут развиваться в ближайшем будущем.

+16

1.5K

u53r 29 июня в 11:39

Капсула Мини: разбираем новую умную колонку

Блог компании VK Гаджеты Голосовые интерфейсы

Привет, Хабр! В моей прошлой статье я разбирал умную колонку Капсула с Марусей на борту. Недавно мне в руки попала еще не вышедшая новая версия. И мне уже не терпится посмотреть, что же у нее внутри! А также сравнить с Капсулой, которую я разбирал ранее. Сегодня новая колонка уже вышла официально, и я могу опубликовать свой разбор. Итак, приступим.

Читать дальше →

+29

7.9K