Как стать автором
Обновить
46.48
Рейтинг

Голосовые интерфейсы

управляем устройствами при помощи голосовых команд

Сначала показывать
Порог рейтинга

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Машинное обучение *Развитие стартапа Звук Natural Language Processing *Голосовые интерфейсы

image


Сейчас для всех желающих доступны два наших сервиса для распознавания речи:


  • Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
  • Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.


Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

Читать дальше →
Всего голосов 28: ↑27 и ↓1 +26
Просмотры 3.4K
Комментарии 15

Новости

Как создать голосовой навык для Яндекс.Алисы, используя Spring Boot и Яндекс.Облако

Java *Облачные сервисы Голосовые интерфейсы
Из песочницы

В статье рассказывается, как разработать навык для платформы Яндекс.Диалоги, используя Java и фреймворк Spring Boot, а затем развернуть его в Яндекс.Облаке.

Для примера описывается приложение, которое помогает запоминать английские слова. Алиса проверяет, как пользователь пытается перевести случайно подобранные русские или английские слова.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Просмотры 4.5K
Комментарии 3

Хитрости разработки смартапов для SmartMarket

Голосовые интерфейсы

Начиная с сентября 2020 года подразделение Сбера SberDevices развивает собственную платформу для разработки приложений, основанных на семействе виртуальных ассистентов (Сбер, Афина и Джой) или смартапов. SberDevices предоставляет набор инструментов для разработки таких приложений - SmartApp Studio, SmartApp Code и другие, а также маркетплейс для загрузки и продажи приложений - SmartMarket. В этой статье я расскажу о локальном тестировании смартапа без необходимости приобретения устройства от Сбера.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 610
Комментарии 0

Как в Тинькофф разрабатывают навыки голосового ассистента Олега

Блог компании TINKOFF Голосовые интерфейсы
Из песочницы

Привет! Я Тамара, дизайнер навыков голосового финансового ассистента Олега. Сегодня я расскажу, из чего состоит работа дизайнера диалогов и какое будущее ждет голосовых ассистентов. Это будет полезно тем, кто интересуется голосовыми интерфейсами, работает в этой сфере или думает попробовать. 

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 2.9K
Комментарии 11

Ирина — опенсорс русский голосовой помощник. Offline-ready

Open source *Python *Голосовые интерфейсы

- Ирина, таймер...
- Ставлю таймер на пять минут.

Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.

TL;DR> Ирина вполне неплохо работает дома 24x7.

Потребуется установить Python 3.5+ и зависимости через pip (немного знаний Python).

Скиллы "из коробки": таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, "подбрось кубик/монетку".

Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.

Интересно? Поехали >
Всего голосов 110: ↑108 и ↓2 +106
Просмотры 15K
Комментарии 86

Написание навыка для голосового помощника «Маруся»

API *Голосовые интерфейсы
Из песочницы

Всем привет, меня зовут Денис. Я хотел бы рассказать о своем опыте разработки навыка для голосового помощника "Маруся".

«Маруся» — голосовой помощник, разработанный в компании Mail.ru Group. Запущен 17 июня 2019 года в тестовом режиме.

Пункт 1: ознакомление с API Маруси.

С полной схемой взаимодействия с Марусей можно ознакомиться в документации. Здесь я опишу основные моменты:

Фаза вызова скилла строится по следующей схеме.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.7K
Комментарии 0

Охота на Вампуса. Переосмысление классической игры для Алисы

Разработка игр *Интерфейсы *Голосовые интерфейсы

Привет! Меня зовут Кирилл Богатов, я дизайнер голосовых интерфейсов в команде TORTU и заядлый геймер. Когда эти две страсти сталкиваются, рождаются необычные концепты для голосовых игр.

Месяц назад я выпустил игру «Охота на Вампуса» для голосового ассистента Алисы. Игра получила много положительных отзывов и побывала в топ-10 развлекательных навыков. В этой статье я поэтапно расскажу о процессе её создания: от переосмысления идей первоисточника — до технической реализации.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 2.1K
Комментарии 2

TOO LITTLE. TOO LATE: топ-5 технологий «сегодня», которые обеспечат победу в борьбе за потребителя «завтра»

Исследования и прогнозы в IT AR и VR Голосовые интерфейсы
Из песочницы

«Это слишком инновационно для нас. Это очень нишево и неэффективно. Это быстро надоест и забудется» – часто говорят о новых технологиях. И вдруг то, что еще вчера казалось незначительным, буквально «взрывает» мир, меняет наши привычки и надолго проникает во все сферы жизни. Как отличить хайп от продукта с высоким потенциалом? Как понять, в какую технологическую новинку инвестировать время и деньги? Как разглядеть за «сырым» стартапом технологии, которые изменят опят пользователя, откроют новые источники роста и станут фундаментом трансформации вашего бизнеса? Елена Коршак рассказала о пяти реальных, но недооцененных технологиях, с которыми брендам нужно познакомиться «сегодня», чтобы не сожалеть «завтра».

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Просмотры 1.6K
Комментарии 2

А ты используешь VAD? Что это такое и зачем он нужен

Python *Машинное обучение *Искусственный интеллект Голосовые интерфейсы

Очень часто при работе мы обращаем внимание на то, что все люди знают, что такое распознавание речи, но не знают, что такое Voice Activity Detector (VAD) или детектор речи. А ведь именно VAD на самом деле самый важный алгоритм при работе с речью людей в естественной среде обитания.


Как ни странно, если поискать поддерживаемые и высококачественные решения данной задачи в публичном доступе — найдутся буквально пара проектов достаточного уровня. Но вот незадача — академические решения тяжелы (и иногда работают запретительно долго) и зачастую принимают только целые аудио на вход (нельзя использовать потоково). Решение от Google (WebRTC) очень быстрое но плохо отличает речь от шума (но его можно использовать потоково). А некоторые коммерческие решения "привязаны" к личному кабинету и шлют какую-то телеметрию.


Мы решили исправить это недоразумение и сделать уникальный VAD мирового уровня (судите сами по метрикам), который работает на 1 ядре процессора с задержкой в 1 миллисекунду на кусочках аудио от 30 миллисекунд. В этой статье мы расскажем вам, что такое VAD, покажем на примерах как использовать его и наглядно потестировать на своем голосе.

Читать дальше →
Всего голосов 22: ↑22 и ↓0 +22
Просмотры 3.9K
Комментарии 6

Android: как подружить ваше приложение с Google Ассистентом?

Блог компании ПСБ XML *Разработка под Android *Kotlin *Голосовые интерфейсы

Многие из вас прекрасно знают, что такое Google Ассистент. Это голосовой помощник, подобный Siri, Алисе, Алексе и другим. Когда пользователь что-то говорит, Google Ассистент понимает это с помощью natural language understanding (NLU). NLU преобразует человеческую речь в специальную структуру данных, которую уже можно обработать.

У разработчиков Android есть возможность интегрировать NLU в свои приложения через специальный api, который называется App Actions. Точнее, существует два вида интеграции: мы можем получить и использовать Deep Link из речи пользователя или получить данные из приложения, не открывая его, и показать их прямо в Google Ассистенте через Slice.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 4.4K
Комментарии 7

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

Блог компании Яндекс Машинное обучение *Научно-популярное Искусственный интеллект Голосовые интерфейсы
✏️ Технотекст 2021


Четыре года назад мы запустили Алису. С самого начала она обладала собственным, узнаваемым голосом. Хотя проблемы тоже были: интонации хромали, эмоции скакали от слова к слову, а омонимы и вовсе ставили синтез в тупик. Алиса звучала пусть и не как робот, но ещё и не как человек.

Исследования показывают, что желание общаться с голосовым помощником напрямую зависит от того, насколько точно он имитирует речь людей. Поэтому мы постоянно работаем над «очеловечениванием» голоса Алисы. С тех пор сменилось несколько поколений нашего голосового синтеза. Мы научились расставлять интонации, отличать «замОк» от «зАмка» и многое другое.

Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра.
Читать дальше →
Всего голосов 81: ↑78 и ↓3 +75
Просмотры 21K
Комментарии 52

Альфа-Банк провёл Alfa Digital Open 2021 – главный цифровой форум года

Блог компании Альфа-Банк Конференции IT-компании Голосовые интерфейсы

Привет!

На сегодня у нас для вас две новости.

Во-первых, мы провели Alfa Digital Open, самый большой онлайн-форум на тему цифровых технологий в Альфа-Банке. Во-вторых, представляем голосового финансового помощника — его зовут Альф, а свой голос ему подарил Всеволод Кузнецов, известный вам по озвучке множества голливудских фильмов, а главное — Геральта из Ривии в русскоязычных версиях “Ведьмак 2: Убийцы королей” и “Ведьмак 3: Дикая Охота”.

Давайте по порядку.

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 1.3K
Комментарии 0

Мультимодальность для человекоподобного робота

Анализ и проектирование систем *Usability *Робототехника Искусственный интеллект Голосовые интерфейсы
Из песочницы

"Итак, восстание машин победило: вы когда-нибудь видели робота, доказывающего людям, что он робот?" В этой шутке и есть доля того, что мы сейчас делаем. Наш робот стремится не просто доказывать какой бы то ни было факт языком аргументов, но и использовать древнейший способ быть убедительным за счет харизмы и быть харизматичным за счет умелого использования инструментов мультимодальности.

Узнай больше
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.3K
Комментарии 4

Telegram-бот Silero бесплатно переводит речь в текст

Мессенджеры *Машинное обучение *Развитие стартапа Искусственный интеллект Голосовые интерфейсы

header


Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).


Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.


Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

попробовать
Всего голосов 51: ↑50 и ↓1 +49
Просмотры 19K
Комментарии 56

Голосовое управление

Python *Машинное обучение *Голосовые интерфейсы
Из песочницы

Алиса, Siri, Маруся - это далеко не весь список проектов в области голосовых помощников. С каждым днем проектов становиться больше, а функционал шире и кажется настал тот момент, когда всерьез можно подумать о переводе компьютера на голосовое управление.

В рамках данного цикла статей я разберу создание голосового ассистента, работающего локально на вашем компьютере и имеющего широкий функционал, начиная с "запусти музыку" и заканчивая "создай новый проект в PyCharm".

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 7.3K
Комментарии 13

Генеративные диалоговые модели: как мы разговорили виртуальных ассистентов Салют

Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы

Порой люди обращаются к искусственному интеллекту не для того, чтобы заказать еду, найти подходящий фильм или решить какую-то ещё свою задачу, а для того, чтобы просто поболтать. Например, потому что грустно, а рядом нет тех, с кем было бы удобно про это поговорить. И пусть виртуальные помощники пока не заменяют настоящих друзей или близких людей (они и не должны), но всё же они могут поднять настроение, помочь снизить уровень напряжения. Чтобы такое общение было живым и действительно интересным, мы разработали и применяем мощные разговорные модели на русском языке для виртуальных ассистентов Салют в режиме «Собеседник». Так, за Сбера с пользователем общается SBERT (retrieval-модель), за Джой — ruGPT-3 (генеративная модель), а за Афину — обе сразу. Поговорим сегодня о генеративной части.

Передаю слово моему коллеге, руководителю RnD NLP SberDevices Валерию Терновскому.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2.2K
Комментарии 2

NLP в нашей жизни: почему важно научить машину понимать человеческий язык?

Блог компании Visiology Машинное обучение *Искусственный интеллект Голосовые интерфейсы

Привет, Хабр! Сегодня мы хотим поговорить о зеленом купечестве и воздухонепроницаемом тринадцатом веке. Нашей задачей будет разделить арахисовый угол, являющийся краеугольным знанием будущего века. Но, не боясь этого затмения, мы сегодня прикоснемся к безопасному, неугасающему артефакту задач….всё, хватит. Генерировать подобный бред не составляет ничего сложного для нейросети, но при этом оказывается непростой задачей для человека. В этом посте мы как раз обсудим, почему так происходит, чем отличается естественная речь, почему технологии NLP становятся все более полезными с каждым днём, а главное — какие препятствия приходится преодолевать, чтобы машина поняла нас и смогла “сказать” что-то действительное осмысленное.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.6K
Комментарии 2

Мир против интентов

Научно-популярное Искусственный интеллект Мозг Natural Language Processing *Голосовые интерфейсы
Из песочницы

Я давно собирался и наконец-то решился высказать и доказать одну крамольную мысль. Датасайентисты из области NLU и NLP могут заранее готовит кирпичи, чтобы швырнуть ими в меня. Будет много жареного!

Начнём с главного - мир ошибается. Де факто! Диалоговые технологии развиваются не в том направлении и не теми темпами. Сайентисты научили алгоритмы превращать звук голоса в текст, а текст обратно в слышимую речь. Но между этими двумя частями находится задача понимания СМЫСЛА сказанного - того, что было заложено в произнесённый текст. “Рот” и “уши” сделать сумели, а к “голове” их прикрепить не получается. Вернее, то что подают за решение, решением не является. То что выдают за современные технологии IT-гиганты такой “детский сад”, что мама дорогая! Как это не стыдно выкладывать в мир таким компаниям как Гугл, Майкрософт и Яндекс. Примитивизм и убогость голосовых навыков просто удручает.

Узнать всё
Всего голосов 31: ↑15 и ↓16 -1
Просмотры 2.5K
Комментарии 42

Распознавание речи в Telegram «на лету»

Мессенджеры *Go *Голосовые интерфейсы

Задача распознавания голосовых сообщений в Telegram уже давно не новая. На эту тему написано много статей, разработано немало Telegram-ботов. С некоторыми решениями я ознакомился во время работы над функцией распознавания голосовых напоминаний для бота @RemindMegaBot и заметил, что в этих решениях используется не всегда оправданный подход:

Для распознавания речи аудиофайл загружается на диск.

Возникает справедливый вопрос — неужели нельзя обойтись без записи файла на диск? Ведь это освободит операционную систему от лишних операций и сократит время обработки данных!

Почему же разработчики используют именно такой подход?

Читать далее
Всего голосов 9: ↑5 и ↓4 +1
Просмотры 6.6K
Комментарии 3

Вклад авторов