Как стать автором
Обновить
43.57

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга
Уровень сложности

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 5.3K
Машинное обучение *Искусственный интеллект Будущее здесь Голосовые интерфейсы *

Не так давно компания «Наносемантика» представила свою новую нейросеть - «Жириновский», способную на синтез текста, синтез речи, и компиляцию всего указанного в видеоряд (Lip Sync).

И в статье специалисты компании продемонстрировали возможности «Жириновского», задав несколько вопросов из разных сфер жизни, в которых проект может быть задействован в будущем.

Читать далее
Всего голосов 45: ↑14 и ↓31 -17
Комментарии 30

Новости

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 4.2K
Блог компании Yandex Cloud & Yandex Infrastructure Машинное обучение *Облачные сервисы *Искусственный интеллект Голосовые интерфейсы *

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык. 

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

Читать дальше
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 13

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 655
Блог компании МТТ Облачные сервисы *Голосовые интерфейсы *
Обзор

Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 3

Создаем бота: какая ответственность лежит на проектировании разговорных интерфейсов

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1.3K
Блог компании Just AI Управление проектами *Голосовые интерфейсы *
Обзор

Привет, Хабр! Меня зовут Юля, и я дизайнер диалоговых интерфейсов в команде Just AI. В этой статье я расскажу о том, какая ответственность возложена на этап дизайна, как сценарий бота помогает в процессе разработки, о принципах эффективной сценарной работы и о подводных камнях подхода «проектирую сразу в коде».

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Истории

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Уровень сложности Простой
Время на прочтение 1 мин
Количество просмотров 31K
Open source *Законодательство в IT Голосовые интерфейсы *
Мнение

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить
Всего голосов 221: ↑204 и ↓17 +187
Комментарии 196

Внутри MajorDom v1.0 — Разбираем архитектуру новой системы умного дома

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 2.8K
Python *Разработка под Arduino *Разработка на Raspberry Pi *Умный дом Голосовые интерфейсы *

В предыдущей статье я рассказал о том, как возникла идея создания умного дома. Теперь я хочу более подробно рассмотреть архитектуру первой версии этой системы.

МажорДом состоит из нескольких ключевых компонентов: девайсы, хаб, облако, мост, мобильное приложение и голосовой ассистент.

Девайсы обеспечивают управление физическими устройствами в доме. С помощью радиомодулей и протокола "Мерлин", они обмениваются данными, получают команды от хаба и отправляют ему события.

Читать далее
Всего голосов 6: ↑0 и ↓6 -6
Комментарии 2

MajorDom v1.0 — От голосового помощника к умному дому

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.9K
Разработка под Arduino *Разработка на Raspberry Pi *Умный дом Голосовые интерфейсы *
Ретроспектива

Статья на английском / read in english

В 2019 году я впервые узнал про возможность распознавания и синтеза речи на языке python. Гугл ассистент, сири, кортана и другие ассистенты тогда были еще более ограниченными и беспомощными, чем сейчас. О добавлении своих команд речи не шло от слова совсем. Тогда я и загорелся идеей создать своего голосового помощника, который не будет уступать даже Джарвису Тони Старка.

Читать далее
Всего голосов 5: ↑1 и ↓4 -3
Комментарии 1

Как сделать голосового бота техподдержки и не разочароваться?

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 965
Блог компании Just AI Анализ и проектирование систем *Service Desk *Natural Language Processing *Голосовые интерфейсы *
Туториал

Привет, Хабр! Меня зовут Алексей Борщов и я занимаюсь проектированием голосовых диалоговых систем в компании Just AI. Как вы уже догадались по заголовку, речь сейчас пойдет о процессе создания голосового бота техподдержки, который может быть использован как для внутрикорпоративной, так и для внешней (клиентской) поддержки. И начнем мы с очевидного вопроса – а зачем он вообще нужен?

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Комментарии 0

Адаптация языковой модели vosk

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 2K
Open source *Python *Машинное обучение *Голосовые интерфейсы *
Из песочницы

Приветствую, Хабр. В данной статье хочу рассмотреть процесс добавления слов в языковую модель vosk'а (vosk - библиотека для распознавания речи, в основе которой kaldi).

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 8

«Что нам стоит „Капсулу“ построить?» — как мы создавали VK Капсулу Нео

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 3.2K
Блог компании VK Производство и разработка электроники *Гаджеты Голосовые интерфейсы *
Кейс

Многие подсознательно воспринимают умные колонки как что-то несложное в разработке. «Ну правда, что там такого: динамик, микрофон, светодиоды да Wi-Fi». Мы в VK захотели создать инновационный продукт, и в итоге прошли интересный путь от идеи до выхода на рынок нашей малышки для всех и каждого — VK Капсулы Нео. С виду вполне типичная умная колонка таит в себе технологические решения, которые в будущем постараются повторить в своих продуктах другие компании. 

Меня зовут Борис Каганович, я директор по разработке и производству умных устройств в VK. В этой статье я расскажу о том, как появилась идея создать колонку и какой путь мы прошли от идеи продукта до его реализации.

Читать далее
Всего голосов 38: ↑31 и ↓7 +24
Комментарии 22

Собака лает — ветер носит, или решил ли Bark синтез речи?

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 4.3K
Машинное обучение *Искусственный интеллект Голосовые интерфейсы *
Аналитика

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

Синтез на всех популярных языках от английского до китайского;

Возможность GPT-style управления выдаваемым аудио;

Возможность дикторов "говорить" на иностранных языках;

Войс-клонинг "этичненько" залочен;

Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 7

Как одно агентство голосового робота попробовало

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.5K
Интернет-маркетинг *Повышение конверсии *Управление продажами *Искусственный интеллект Голосовые интерфейсы *
Мнение

Возможно вы знаете, что у нас кадровое агентство по подбору программистов. Сегодня расскажу наш опыт того как мы решили использовать высокие технологии совместно с маркетингом на пользу агентству. Речь пойдёт о голосовом роботе, с типа искусственным интеллектом.

Во‑первых, 2022год был наполненным различными событиями, с вытекающими потребностями и задачами. Например, иностранные заказчики персонала, внезапно взволновались и начали разрывать контракты. Часть росссийских компаний попали под прямые и косвенные санкции и начали резать косты. Но компании нужно как‑то жить, поэтому нужно искать заказчиков.

Факт второй — то что кадровых агентств в России поубавилось, правда как и много чего другого... Единственную статистику которой я могу оперировать в цифрах — это статистика по Новосибу. Как‑то смотрел что у нас в 2019–2021года, на весь Новосибирск было около 100–120 кадровых агентств, а в СФО примерно 300 — 400. А вот на апрель 2023 в Новосибирске, из живых боюсь что осталось порядка 20, ну плюс минус ещё 10, а в СФО не более 100 агентств. И похоже что подобная картинка наблюдается по России.

Жить хочется всем, а жить хорошо хочется ещё больше, поэтому нужны клиенты. Если сидеть на попе ровно, не искать заказы, то скорее всего ещё живые агентства разберут заказчиков которые до тебя могут не дойти. Вот и поддавшись «осенним позитивным» настроениям, мы решили по активничать.

Как вы поняли, история началась в сентябре 2022года. На меня вышла компания которая предоставляет таких голосовых «ботов». Поразмышляв, и заплатив порядка 50тыс руб за сборку робота и первоначальный бюджет на звонки — взялись за работу.

Читать далее
Всего голосов 10: ↑1 и ↓9 -8
Комментарии 14

openHAB + Алиса = OH Cloud

Время на прочтение 6 мин
Количество просмотров 1.4K
Софт Умный дом Интернет вещей Лайфхаки для гиков Голосовые интерфейсы *

Доброго времени суток, уважаемые хабровчане!

Сегодня я хотел бы рассказать про навык (интеграцию) голосового помошника Яндекс Алисы с умным домом, построенным на openHAB. Как мы все знаем, управление умным домом с помощью голосовых команд прочно вошло в нашу жизнь - GoogleHome, Homekit, Умный дом с Алисой и прочее прочее давно уже на слуху у каждого. Не обошел этот тренд и опенсурс систем умного дома, но именно голосовой ассистент Яндекса из коробки нигде не поддерживается.

И если для HomeAssistant давно уже был написан компонент Yandex Smart Home , позволяющий интегрировать Алису в умный дом, то в случае с openHAB все гораздо печальнее.

Единственным способом интеграции Алисы в openHAB был навык от KnopkaDom, но судьба его, к сожалению, сложилась не очень. На данным момент навык не работает как должно, сайт недоступен, и дальнейшее развитие проекта крайне туманно.

Идея создать простую и удобную, а главное надежную, интеграцию Алисы в УД openHAB витала в воздухе давно, но только сегодня получилось ее осуществить! Всем, кому стало интересно, добро пожаловать под кат.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 2

Почему 90% звонков бесполезны, и как правильно применять конструктор ботов

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 1.4K
Блог компании МТТ Облачные сервисы *Голосовые интерфейсы *
Мнение

Звонки от спамеров воспринимают негативно более 76% абонентов, пишут Tinkoff Data. 65% опрошенных раздражают такие звонки вне зависимости от того, звонит робот или человек. И всё это от того, что компании просто не умеют настраивать сценарии или используют неправильную стратегию общения с клиентами. А если совсем честно — в большинстве компаний просто нет достаточной культуры продвижения своих услуг. 

Читать далее
Всего голосов 20: ↑9 и ↓11 -2
Комментарии 28

Исторический момент: ChatGPT обрёл «суперсилу Wolfram»

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 25K
Блог компании Инфосистемы Джет Поисковые технологии *Машинное обучение *Искусственный интеллект Голосовые интерфейсы *
Обзор
Перевод

Четвёртая версия ChatGPT одних заставила пищать от восторга, а других повергла в уныние. Кто-то уже нашёл этой системе множество творческих применений, а кто-то пророчит, что эта нейросеть лишит работы кучу людей. Теперь возможности ChatGPT стали ещё шире: систему интегрировали с Wolfram | Alpha, легендарным движком для вычисления ответов в самых разных областях знания. Мы перевели для вас огромную подробную статью об этом от одного из разработчиков Wolfram | Alpha.

Читать далее
Всего голосов 62: ↑57 и ↓5 +52
Комментарии 35

Ирина, голосовой помощник — теперь и со вкусом GPT-3

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 13K
Open source *Python *Умный дом Голосовые интерфейсы *

«Лама... Альпака...Чатгпт...» — раздавалась в уютненьком чатике по Ирине.

Хабр был не лучше — статьи по работе с GPT множились как грибы, а в комментах раздавались возгласы в духе «Дайте мне голосового помощника, с которым можно болтать!»

Если честно, еще в первой статье про Ирину я говорил, что небольшой фанат именно общения с виртуальным помощником. Помощник должен выполнять команды, казалось мне.

Тем не менее, и меня заинтересовало, насколько весело будет именно болтать с GPT, но самому в коде и платном API‑доступе разбираться не хотелось. Но сегодня утром меня снабдили и примером, и ключиком...

‑-

Это продолжение моих статей о разработке голосового помощника Ирины, не зависящего от крупных корпораций. У нас есть печеньки:

— Полностью оффлайн SpeechToText и TextToSpeech
— Поддержка плагинов
— Готовые команды «таймер», «погода» и ряд прочих. Поддержка HomeAssistant.
— Поддержка работы в клиент‑серверном режиме — сервер + куча микрофонов + Телеграм‑клиент, например.

Расскажу, что улучшилось за прошедший год с момента прошлой статьи.

TL;DR> Добавлен плагин для общения с GPT-3 нейросетью. Сделан пакет упрощенной установки под Windows — «скачай и запусти». Сделано два веб‑клиента — один распознает слова прям в браузере (тяжелый), другой отправляет весь звуковой поток на сервер (легкий) — так что можно запускать клиенты, например, на смартфоне. Добавлен TTS Silero v3 — имхо, лучшее озвучивание доступное в открытом доступе. Сделан докер‑образ для быстрого запуска Ирины без установки зависимостей. Добавлено нечеткое распознавание фраз. Обновлена VOSK‑модель распознавания голоса на специально натренированную для Ирины.

Читать далее
Всего голосов 38: ↑38 и ↓0 +38
Комментарии 13

Что не так с умными колонками и голосовыми ассистентами?

Время на прочтение 8 мин
Количество просмотров 36K
Машинное обучение *Искусственный интеллект Умный дом Голосовые интерфейсы *
Мнение

Если вы когда-нибудь слышали фразу "дьявол в деталях", вы понимаете, что условная Лада Гранта от условного Мерседеса отличается не более, чем на несколько процентов. Фактически обе машины ездят и возят своих пассажиров - это и есть главная их функция. Но внимание к мелочам и продуманный пользовательский опыт (UX) это и есть те самые несколько процентов, которые так разительно влияют на наше восприятие продукта.

Попробуем применить этот угол зрения к умным колонкам и голосовым ассистентам. И попытаемся понять, почему же все они пока ещё Гранты. И чего именно им не хватает до Мерседесов.

Что же с ним не так и как это исправить?
Всего голосов 77: ↑63 и ↓14 +49
Комментарии 344

Как я сделал синтез своего голоса

Уровень сложности Простой
Время на прочтение 12 мин
Количество просмотров 15K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Звук Голосовые интерфейсы *
Кейс

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

Читать дальше
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 8

Как мы делали AEC для воспроизведения звука через HDMI на Станции Макс

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 9.8K
Блог компании Яндекс Производство и разработка электроники *Умный дом Звук Голосовые интерфейсы *


В недавнем апдейте прошивки для Яндекс Станции Макс мы добавили поддержку вывода звука по кабелю HDMI при просмотре фильмов. Если у вашего телевизора хорошая акустика (или к нему подключена качественная аудиосистема), теперь можно слушать аудиодорожку через неё. Это обновление мы выпустили только сейчас, потому что оно потребовало нетривиальных технических решений. Например, нужно было сделать эхоподавление для HDMI. Вот об этом и поговорим — сначала обсудим историю технологий и проблемы с подавлением собственного звука устройства, а затем перейдём к нашему решению.
Читать дальше →
Всего голосов 35: ↑35 и ↓0 +35
Комментарии 12

Выпускные проекты наших «бауманцев»

Время на прочтение 11 мин
Количество просмотров 6.3K
Блог компании VK Учебный процесс в IT Голосовые интерфейсы *

Новая порция выпускных проектов, на этот раз — студентов нашего образовательного проекта в МГТУ им. Баумана. Ребята сами опишут свои разработки, а посмотреть видео с защиты можно здесь. Если вы хотите попасть на учебу в образовательные центры VK, информацию об открытых наборах и курсах можно найти здесь.

Читать далее
Всего голосов 24: ↑21 и ↓3 +18
Комментарии 3

Вклад авторов