Голосовые интерфейсы

управляем устройствами при помощи голосовых команд

snakers4 13 сентября в 14:37

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы

quality_growth

Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.

В этот раз мы можем порадовать вас:

Как большими, так и маленькими моделями;
Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Читать дальше →

+10

946

neuroonet 2 сентября в 20:52

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Блог компании Neuro.net Научно-популярное Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Системы, которые способны выполнять рутинные операции вместо человека, помогают поддерживать глобальную экономику. Собственно, они делают это десятилетиями — такие системы работают на благо цивилизации давно. Но что насчет систем, которые могут общаться и взаимодействовать с пользователем? Если говорить о полноценном общении, то пока что его нет, причина здесь одна — наша речь слишком сложная.

Каждый, кто пробовал взаимодействовать с цифровыми ассистентами вроде Alexa и Siri, видел и ощущал разницу между «общением» с ними и полноценным разговором с человеком. Но прогресс не стоит на месте. В ближайшем или не очень будущем продвинутые ИИ-собеседники обязательно появятся, ведь к этому все и идет. В целом, эта технология способна изменить мир. Под катом — обсуждение трех инновационных технологий, которые стимулируют развитие всей отрасли.

Читать дальше →

APPKODE 31 августа в 09:23

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Интерфейсы *Usability *Искусственный интеллект Голосовые интерфейсы

Привет! Меня зовут Юля Мицкевич, я операционный директор команды дизайна и разработки разговорных продуктов TORTU компании KODE.

Наша команда уже более 3 лет занимается проектированием и разработкой VUI: от чат-ботов и телефонных систем до виртуальных ассистентов. Мы помогаем бизнесу обрести свой голос. Активно участвуем в проектировании навыков для Сбера, Тинькофф, HeadHunter, Mail.ru Group, Delivery Club и других крупных компаний. Также развиваем профессиональное сообщество: ведём Telegram-канал 'Hey Voice!'

В июне этого года я выступала на Conversation – крупнейшей конференции по разговорному AI, где рассказала, как организовать процесс разработки VUI так, чтобы избежать дорогостоящих ошибок и двойной работы. Делюсь опытом нашей команды, которая узнала много нового о себе и голосе, когда впервые начала заниматься VUI.

876

Tkinai 25 августа в 10:00

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Блог компании SberDevices Машинное обучение *Искусственный интеллект Голосовые интерфейсы

Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.

1.7K

Snusmumrick97 19 августа в 10:00

Светодиодная матрица: управляем домашним уютом с помощью голоса

Блог компании SberDevices Разработка под Arduino *Умный дом DIY или Сделай сам Голосовые интерфейсы

Tutorial

Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки...

Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.

Поехали!

+10

3.4K

The_HardWare_guy 29 июля в 14:47

Как устроена аппаратная часть SberBox Top: разбираем девайс

Блог компании SberDevices Производство и разработка электроники *Гаджеты Умный дом Голосовые интерфейсы

За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет.

Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева.

Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.

Поехали!

6.1K

neuroonet 29 июля в 02:39

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

Блог компании Neuro.net Алгоритмы *Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Голосовые агенты становятся все совершеннее, буквально каждый месяц появляются новые интересные наработки. Одна из них — немецкий проект по созданию детектора лжи для колл-центров. Речь идет о создании системы, которая может с высокой степенью вероятности определить, говорит звонящий в колл-центр абонент правду либо же пытается приврать/приукрасить свои утверждения или скрыть намерения.

Система базируется на специфическом дата-сете, сформированном из аудио-записей нескольких десятков преподавателей и студентов. Добровольцы участвовали в дебатах, обсуждая острые темы вроде смертной казни и платного обучения, а произносимые речи записывались на диктофон. О результатах проекта — под катом.

Читать дальше →

+12

neuroonet 24 июля в 01:00

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Блог компании Neuro.net Машинное обучение *Искусственный интеллект Будущее здесь Голосовые интерфейсы

Перевод

Голосовые агенты становятся все более совершенными. Мы уже рассказывали о том, насколько хорошо они понимают собеседника-человека и способны воспроизводить речь. Использовать цифровых агентов можно не только в качестве «сотрудника» колл-центра, но и в качестве актеров озвучки/дубляжа. Хороший пример — работа компании WellSaid Labs, о которой и рассказывается в этой статье.

Компания WellSaid Labs на своем сайте уведомляет посетителей, что у нее в запасе «восемь новых цифровых актеров озвучки». Тобин «энергичен и проницателен». Пейдж «уравновешенна и выразительна». Ава «отточенная, уверенная в себе и профессиональная».

Каждый цифровой агент использует голос реального актера, конечно, с согласия последнего. Теперь компании могут лицензировать эти голоса, чтобы рассказывать обо всем, что нужно бизнесу. Они просто вводят текст в голосовой движок, и на выходе получается четкий аудиоклип с естественным звучанием.

+10

5.2K

nkarpov 22 июля в 13:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

1.5K

APPKODE 13 июля в 17:19

Как стать крутым VUI-дизайнером: пошаговое руководство

Дизайн Голосовые интерфейсы

Впервые люди познакомились с голосовым ассистентом 10 лет назад, когда Apple презентовала Siri. Тогда никто не ожидал, что voice tech станет движущей силой инноваций. Высокий спрос привёл к тому, что компании начали активно развивать экспертизу в проектировании голосовых интерфейсов и искать специалистов, которые в этом разбираются.

Делимся опытом нашей VUI-команды TORTU и рассказываем, как попасть в индустрию, прокачать свой скилл и стать крутым VUI-дизайнером.

1.5K

neuroonet 13 июля в 11:45

Голосовой ИИ: технологии под капотом цифрового агента

Блог компании Neuro.net Алгоритмы *Машинное обучение *Голосовые интерфейсы

Привет, Хабр! Сегодня мы предлагаем поговорить про так называемый голосовой искусственный интеллект и про технологии, которые делают его «умным». Кроме того, поговорим и о «магии» нашей голосовой платформы — о том, что позволяет голосовому агенту вести нормальную беседу с человеком.

Технологии достигли настолько высокого уровня, что даже профессионалы, которые занимаются разработкой голосовых технологий, зачастую затрудняются отличить робота от человека. Кстати, эта статья подготовлена по выступлению СТО Neuro.net Игоря Десятникова на Tech Week 2021. Если не хочется читать статью — вот видео, если же нужны подробности, то все самое интересное — под катом.

+14

1.3K

cointegrated 2 июля в 14:35

Лучшие навыки Алисы и советы от их разработчиков

Программирование *Разработка игр *Интерфейсы *Яндекс API *Голосовые интерфейсы

Я уже довольно давно разрабатываю навыки для Яндекс.Алисы, но пока не создал ни одного популярного. Недавно мне стало интересно: а какие навыки становятся самыми популярными, и кто те люди, которые их создают? Чтобы ответить на этот вопрос, я проанализировал каталог Алисы и опросил 20 разработчиков, чьи навыки набрали наибольшее количество оценок "пять". Похоже, что к их советам стоит прислушаться.

+15

7.9K

Barrayar 1 июля в 18:55

Игровые навыки у голосовых помощников

Блог компании Mail.ru Group Гаджеты Голосовые интерфейсы

Любая технология, ставшая популярной, чему-то этим обязана. Одной из причин популярности голосовых помощников стали так называемые игровые навыки — умение играть с пользователями. Давайте поговорим о современном состоянии этой отрасли, чем интересны голосовые навыки и как они могут развиваться в ближайшем будущем.

+16

1.4K

u53r 29 июня в 11:39

Капсула Мини: разбираем новую умную колонку

Блог компании Mail.ru Group Гаджеты Голосовые интерфейсы

Привет, Хабр! В моей прошлой статье я разбирал умную колонку Капсула с Марусей на борту. Недавно мне в руки попала еще не вышедшая новая версия. И мне уже не терпится посмотреть, что же у нее внутри! А также сравнить с Капсулой, которую я разбирал ранее. Сегодня новая колонка уже вышла официально, и я могу опубликовать свой разбор. Итак, приступим.

Читать дальше →

+29

7.6K

MaximML 27 июня в 15:49

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

Python *MongoDB *Голосовые интерфейсы

Из песочницы

Как (и зачем?) написать голосовой дневник, используя open source инструменты.

5.6K

KseniaKuza 21 июня в 01:40

Распознавание эмоций в записях телефонных разговоров

Анализ и проектирование систем *1С-Битрикс Машинное обучение *Микросервисы *Голосовые интерфейсы

Из песочницы

В этой статье хочу рассказать о том, как я создавала сервис для распознавания эмоций на основе анализа записей деловых телефонных разговоров.

Читать

3.5K

snakers4 18 июня в 13:40

Мы сделали наш публичный синтез речи еще лучше

Машинное обучение *Звук Natural Language Processing *Голосовые интерфейсы

6cc6e0011d4d26aeded6f052080b1890

Обновление — забыл ссылку на репозиторий и на колаб с примерами.

Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.

Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.

Если коротко:

Мы сделали наш вокодер в 4 раза быстрее;
Мы сделали пакетирование моделей более удобным;
Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;

+63

8.2K

tony_vi 10 июня в 13:34

Сценарии для виртуальных ассистентов Салют на NodeJS и фреймворке SaluteJS

Блог компании SberDevices Open source *Node.JS *Natural Language Processing *Голосовые интерфейсы

Tutorial

Привет! В одной из прошлых статей мы рассказывали о создании клиентской части навыков для виртуальных ассистентов на веб-технологиях и обещали вернуться с обзором создания сценарной части на NodeJS. Торжественно сдерживаем своё обещание!

Недавно мы выложили в открытый доступ фреймворк SaluteJS. Он позволяет создавать сценарии для виртуальных ассистентов Салют, используя стандартные методы JavaScript. Поскольку взаимодействие с NLP-платформой реализовано по http, мы подумали, что было бы круто писать сценарии примерно так же, как мы пишем обычные веб-сервисы, используя NodeJS. Вы можете интегрировать SaluteJS с любыми фреймворками вроде next.js, express, hapi или koa. Интеграция выполняется посредством middleware, где вы можете выражать обработку команд ассистента и голосовых команд пользователя, которые приходят в виде обычного http-запроса. Ниже покажу на конкретном примере, как это работает.

Погнали!

1.7K

maija_ra 3 июня в 09:15

Как можно запустить MVP личного кабинета в WhatsApp и получить новый инструмент для проверки гипотез

Блог компании «Ренессанс страхование» Мессенджеры *Oracle *API *Голосовые интерфейсы

Всем привет, меня зовут Майя и я аналитик в «Ренессанс страхование», команда цифровых каналов коммуникаций.

В 2020-м многие развивали онлайн-сервисы и мы тоже максимально оцифровывались и запускали новые сервисы, в том числе в мессенджерах. Основным мессенджером для нас стал WhatsApp с бизнес-аккаунтом WhatsApp Business API. Именно в нем мы успешно запустили MVP личного кабинета к новой бонусной программе. Расскажу каким стеком воспользовались и какие результаты запуска получили.

905

atmoPunk 2 июня в 20:00

Навык для Алисы «Проведи стендап»

Управление разработкой *Голосовые интерфейсы

Из песочницы

Никогда вам не хотелось автоматизировать проведение стенд апа? В статье я расскажу о своей попытке это сделать.

2 3 ...

6 7

Голосовые интерфейсы

Последние обновления моделей распознавания речи из Silero Models

Голосовые ИИ-технологии: 3 перспективных направления, которые постепенно меняют мир

Учиться на ошибках: 3 кейса, которые научили нас грамотно проектировать VUI

Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица

Светодиодная матрица: управляем домашним уютом с помощью голоса

Как устроена аппаратная часть SberBox Top: разбираем девайс

Новое слово в сфере голосового ИИ: разработан прототип детектора лжи для колл-центров

ИИ в качестве актера озвучки звучит очень по-человечески. И цифровых агентов уже можно нанять

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Как стать крутым VUI-дизайнером: пошаговое руководство

Голосовой ИИ: технологии под капотом цифрового агента

Лучшие навыки Алисы и советы от их разработчиков

Игровые навыки у голосовых помощников

Капсула Мини: разбираем новую умную колонку

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

Распознавание эмоций в записях телефонных разговоров

Мы сделали наш публичный синтез речи еще лучше

Сценарии для виртуальных ассистентов Салют на NodeJS и фреймворке SaluteJS

Как можно запустить MVP личного кабинета в WhatsApp и получить новый инструмент для проверки гипотез

Навык для Алисы «Проведи стендап»

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги