Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

Статьи Посты Новости Авторы Компании

MR_VF 27 окт в 00:06

Ад Топинамбура

Простой

7 мин

5.5K

Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

Кейс

Нейросети все прочнее укрепляются в нашей жизни. Многие уже попробовали писать с помощью нейросети сочинения на заданную тему, и её тексты становятся всё лучше и лучше.

Если брать визуальные возможности нейросетей, то последняя версия GPT-4V(ision) научилась распознавать изображения. С помощью некоторых сетей, обрабатывающих видео, уже создаются клипы на музыкальные произведения. Конечно, видеоряд, можно сказать, на любителя. Недавно появились сервисы, позволяющие изменить язык в видео так, что даже выражение и движения губ соответствуют языку. Ну а нейросети поисковика Бинг и Google вполне себе умеет копаться в поисках информации в Сети. С помощью голосовых нейросетей музыканты подменяют голоса в известных песнях.

Превращение холста и создание симфоний видео уже более-менее понятны. В плане же создания литературы, как мне кажется, нейросети тоже продвинулись вперёд. Давайте разберём то, чего мне удалось найти нового в сочинении текстов. За подопытного возьмем Microsoft Bing.

AnatolyBelov 20 окт в 10:56

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

5 мин

4.5K

Python *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

Распознаем речь по аудиозаписям диалогов сотрудников и клиентов.
Сохраняем по разным дорожкам, в тексте и с таймингом.
Модель Whisper, работаем в Colab.
Личный опыт.

ritabelkova 13 окт в 13:25

Перебивание как фича: как голосовому боту выжить в мире, где ему не дают договорить

Средний

7 мин

1.9K

Блог компании Just AI Управление разработкой *Голосовые интерфейсы *

Туториал

Меня зовут Маргарита Белкова, я дизайнер-скриптолог в компании Just AI. И в этой статье я бы хотела рассказать о феномене перебиваний и о перебивании как фиче. Мы постоянно сталкиваемся с этим явлением в реальном общении, но как быть, когда это происходит в разговорах с голосовыми ботами? Разберем, как устроена эта функция голосового бота, какие виды бывают и в каких точках сценария перебивания наиболее уместны.

AlexxIT 9 окт в 09:00

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Простой

7 мин

13K

Яндекс API *Разработка для интернета вещей *Гаджеты Умный дом Голосовые интерфейсы *

В прошлой статье мы с вами добавляли голосовое управление кофеварке Jura. Но это была лишь тренировка в ожидании доставки по-настоящему космического устройства - умной кровати Ergomotion от Аскона.

+30

Arseny_AI 29 сен в 14:50

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Средний

18 мин

1.7K

Блог компании AIRI Алгоритмы *Машинное обучение *Робототехника Голосовые интерфейсы *

Кейс

Всем привет! Этим летом мы с командой участвовали в летней школе AIRI, где нам было предложено реализовать учебный проект. Мы выбрали себе задачу на стыке языковых моделей и робототехники. В частности, мы реализовали полноценный фреймворк, в котором можно строить собственные пайплайны для построения системы генерации плана с помощью языковых моделей, причем с интерфейсом ввода на основе распознавания русской речи. Кроме того, мы придумали собственную систему валидирования и подсчета метрик качества выполнения задач.

Работа оказалась настолько сложной и интересной, что нам захотелось рассказать о ней большему числу людей, а не только тем, кто был на школе. Ну а чтобы контекст работы был немного понятнее, мы добавили в наше повествование небольшой обзор методов планирования (в том числе с помощью языковых моделей), а также распознавания речи. Надеемся, наш рассказ будет интересным и полезным. Погнали!

Alexey_Cherepetckoi 27 сен в 11:51

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

Простой

5 мин

606

Блог компании Fix Price Голосовые интерфейсы *

Кейс

Привет, Хабр! На связи ведущий методолог Fix Price Алексей Черепецкой, и сегодня я расскажу вам о том, чем бизнесу могут быть полезны голосовые боты, а также где и как мы используем эту технологию у себя. И конечно, остановимся подробнее на технических решениях и интересных моментах.

MarkParker5 20 сен в 12:27

S.T.A.R.K. — первый фреймворк для создания голосового ассистента

Простой

3 мин

6.3K

Python *Программирование *Умный дом Natural Language Processing *Голосовые интерфейсы *

Обзор

Перевод

Сегодня я рад представить вам S.T.A.R.K. (Speech and Text Algorithmic Recognition Kit). Если вы когда-либо мечтали создать голосового ассистента, который будет автономным, приватным, продвинутым и невероятно интуитивным, S.T.A.R.K. - лучшее решение.

AlexxIT 19 сен в 09:04

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Простой

6 мин

16K

Яндекс API *Разработка для интернета вещей *Гаджеты Умный дом Голосовые интерфейсы *

Умная кофемашина это одно из самых глупых устройств на рынке. Обычно, сразу после включения, в них есть стадия автоматической промывки. И ещё одна перед выключением. Это значит, что вы не можете оставить в кофемашине кружку и приготовить напиток удалённо.

Но, при наличии умной колонки на кухне, открывается полёт для фантазии. Особенно, когда кофемашина из списка старших моделей и умеет более десятка напитков, где каждый напиток регулируется большим набором параметров.

+48

LyudmilaAlt 13 сен в 12:44

Голосовой поиск: путь к удобству и оперативности в цифровой эпохе

Простой

5 мин

522

Блог компании Altcraft Интернет-маркетинг *Управление продажами *Голосовые интерфейсы *

Recovery Mode

Раньше обращение человека к компьютеру голосом можно было увидеть только в фантастическом кино. В настоящее время больше половины пользователей предпочитают голосовые запросы. Это очень удобно: не нужно отвлекаться от текущих дел, чтобы напечатать свой вопрос, поэтому ежедневно люди разговаривают со своими девайсами. Да и сказать гораздо быстрее, чем ввести текст, даже если в настоящий момент руки свободны.

Распространено убеждение, что голосовой ввод заменяет собой текст. На самом деле письменный формат остаётся основным: компьютер умеет всего лишь фиксировать речь, но не обрабатывать её. Алгоритмы переводят сказанную фразу в тестовый формат, а только потом анализируют и ищут в глобальной сети ответ на запрос.

BosonBeard 13 сен в 12:31

«Oh no! code» или как создать голосового помощника без единой строчки кода с помощью VoiceBox

Простой

10 мин

1.7K

Блог компании МТТ Программирование *API *Сотовая связь Голосовые интерфейсы *

Кейс

В последнее время на меня практически из каждого утюга льется реклама различных курсов по no-code разработке, в которой радостно рассказывают, что программировать скоро сможет каждый и это светлое будущее человечества. Но так получилось, что я хоть и не разработчик, но свой путь к азам программирования начал с учебника по Turbo Pascal 7. Поэтому на no-code я смотрю с некоторым подозрением.

Я решил изучить данный вопрос, как всегда, посмотрев на него с необычной стороны.

denis-19 22 авг в 11:01

«Яндекс ТВ Станция» и «Яндекс ТВ Станция Про» поступили в продажу

6 мин

9.7K

Производство и разработка электроники *Гаджеты Умный дом Голосовые интерфейсы *

22 августа 2023 года в открытую продажу поступили два новых устройства «Яндекса» с «Алисой»: «Яндекс ТВ Станция» и «Яндекс ТВ Станция Про».

+11

snakers4 17 авг в 12:38

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Средний

4 мин

4.9K

Машинное обучение *Звук Natural Language Processing *Голосовые интерфейсы *

Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.

В этот раз мы сделали следующее:

Ускорили все v4 модели в 3-4 раза;
Существенно повысили качество синтеза в 8 kHz;
Обновили и пересобрали нашу модель для русского языка;
Обновили модель для 9 языков народов Индии с 17 голосами;
Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);

Читать дальше →

+32

telecomgod 15 авг в 09:20

Когда робот тебя обманывает

Простой

6 мин

1.3K

Блог компании МТТ Облачные сервисы *Искусственный интеллект Голосовые интерфейсы *

Обзор

Многие пользователи до сих пор не представляют, что ИИ-боты могут лгать. Причем не случайно дезинформировать человека, а лгать преднамеренно, что может быть задумано разработчиками. И проблема здесь в том, что после того как пользователь узнает о том, что робот ему солгал, у него может полностью пропасть доверие к ИИ.

kventinel 26 июл в 10:58

Как мы научили Алису реагировать на быстрые команды

9 мин

14K

Блог компании Яндекс Машинное обучение *Искусственный интеллект Звук Голосовые интерфейсы *

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате.

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!

+31

Bottookku 25 июл в 19:45

Как подружить Asterisk с потоковым распознаванием от Яндекс SpeechKit через EAGI и Python

3 мин

Python *Яндекс API *Asterisk *Голосовые интерфейсы *

Из песочницы

До этого самого времени, я никогда не писал код на Pyhton и Node JS. И поэтому мне было очень сложно скрестить эти системы. И поэтому решил написать об этом пост, так как готовых примеров в Яндексе нет за исключением MRCP про которого было немало нелестных отзывов от пользователей этой системы, но пруфы в данное время предоставить не могу. Я решил не пользоваться этим костылем и изобрести велосипед на костылях сам. Для этого мне в помощь прослужила сама документация с Яндекса и некоторые примеры с StackOverflow.

Читать дальше →

mvideo 11 июл в 11:52

Ума палата: Алиса, Маруся и другие

Простой

8 мин

Блог компании М.Видео-Эльдорадо Гаджеты Искусственный интеллект Голосовые интерфейсы *

Ретроспектива

Если вы до сих пор не пользуетесь голосовым помощником, то вы лишаете себя множества полезных возможностей. Мы не станем рассказывать о том, как облегчают жизнь Siri, Алиса или Google Assistant, для этого у нас имеется воображение. Все, что вы можете представить об этих человекоголосых роботах уже реализовано, или будет доступно в обозримом будущем. Сегодня мы расскажем о российских голосовых помощниках

+25

virtual_explorer 27 июн в 13:25

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

6 мин

4.3K

Блог компании FirstVDS Искусственный интеллект Звук Будущее здесь Голосовые интерфейсы *

Пару недель назад Meta* представила ИИ-модель Voicebox, которая генерирует и редактирует устную речь. Они говорят, что это очередная революция в сфере генеративных ИИ. Модель не только создает речь в точном стиле и голосе любого человека по короткому образцу, но также умеет автоматически удалять шум, поправлять оговорки, понимать контекст. Авторы проекта охарактеризовали Voicebox как «прорыв в моделях речевого ИИ» и «самый универсальный ИИ для генерации речи».

В нашем распоряжении оказался документ с подробностями о реализации этого проекта. Спешим ознакомить с ним вас.

+17

ligofff 22 июн в 17:54

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Простой

4 мин

16K

Машинное обучение *Искусственный интеллект Будущее здесь Голосовые интерфейсы *

Не так давно компания «Наносемантика» представила свою новую нейросеть - «Жириновский», способную на синтез текста, синтез речи, и компиляцию всего указанного в видеоряд (Lip Sync).

И в статье специалисты компании продемонстрировали возможности «Жириновского», задав несколько вопросов из разных сфер жизни, в которых проект может быть задействован в будущем.

-20

eran 15 июн в 12:23

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Простой

8 мин

5.3K

Блог компании Yandex Cloud & Yandex Infrastructure Машинное обучение *Облачные сервисы *Искусственный интеллект Голосовые интерфейсы *

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык.

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

+27

telecomgod 13 июн в 10:12

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Простой

4 мин

1.1K

Блог компании МТТ Облачные сервисы *Голосовые интерфейсы *

Обзор

Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

2 3 ...

11 12

Голосовые интерфейсы *

Ад Топинамбура

Новости

Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт

Перебивание как фича: как голосовому боту выжить в мире, где ему не дают договорить

Разговоры с кроватью, про Яндекс Алису и умный дом Home Assistant

Истории

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Голос разума: как мы в Fix Price применяем голосовых роботов-помощников

S.T.A.R.K. — первый фреймворк для создания голосового ассистента

Диалоги с кофеваркой, про Яндекс Алису и умный дом Home Assistant

Голосовой поиск: путь к удобству и оперативности в цифровой эпохе

«Oh no! code» или как создать голосового помощника без единой строчки кода с помощью VoiceBox

«Яндекс ТВ Станция» и «Яндекс ТВ Станция Про» поступили в продажу

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Когда робот тебя обманывает

Ближайшие события

Как мы научили Алису реагировать на быстрые команды

Как подружить Asterisk с потоковым распознаванием от Яндекс SpeechKit через EAGI и Python

Ума палата: Алиса, Маруся и другие

Meta* Voicebox: голосовой генеративный ИИ, которого боится сама компания

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Вклад авторов