Озвучка текста голосом, распознавание и синтез речи в текст

Речевые технологии для бизнеса

Сервисы распознавания речи и генератора голоса по тексту помогут вам проанализировать звонки клиентов или добавить голосовое управление к приложению.

01

Распознавание речи

Voice ASR
(Automatic Speech Recognition) — автоматическое распознавание речи

Перевод речи в текст

Загрузите файл с записью голоса и быстро получите результат в виде текстового файла.
Понятные расшифровки

Voice ASR экономит время на редактирование: сервис автоматически разобьет текст на предложения и расставит знаки.

02

Синтез речи

Voice TTS
(Text-to-speech) — генератор
естественной речи

Естественное звучание речи

Благодаря технологиям машинного обучения голос похож на естественную речь человека.
Любой язык разработки

Единый API, который не зависит от платформы и языка разработки.

Преимущества голосовой платформы VK Cloud Solutions

Стабильная и протестированная технология

Сервис построен с применением технологий знакомого пользователям голосового помощника Маруся. Теперь вы можете использовать его возможности для вашего бизнеса: наложите Cloud Voice на необходимую бизнес-логику и интегрируйте в ваше приложение или сервис.

Постоянное улучшение качества

Качество сервиса постоянно улучшается. Модели машинного обучения в основе Voice постоянно дообучаются на новых данных, а значит, качество распознавания и синтеза речи улучшается. Вам не нужно что-то обновлять, вы получаете все улучшения автоматически.

Если вы хотите узнать больше о возможностях сервиса, оставьте заявку на консультацию

Сценарии использования

Технологии распознавания голоса и синтеза речи полезны компаниям в разных отраслях

Озвучить контент на сайте или в приложении

Иногда у пользователей нет времени читать новости или статьи, но они готовы их слушать за рулем или на тренировке. Добавьте в ваше приложение или сайт автоматическое озвучивание текста и другого контента, чтобы увеличить охват.

Привлечь в приложение пользователей голосовым управлением

Добавьте к своему мобильному приложению голосовые команды, например «Убавь громкость», «Покажи историю моих покупок» или «Повтори прошлый заказ».

Проанализировать частые запросы клиентов

С помощью технологии Voice ASR расшифруйте записи разговоров с клиентами и затем проанализируйте все расшифровки с помощью искусственного интеллекта. Вы сможете оценивать качество работы операторов, отслеживать использование нецензурной лексики и общую тональность общения.

Адаптировать сервис для людей с ограниченными возможностями

Сделайте ваш сервис доступным для слабовидящих людей. Добавьте голосовое управление, подсказки и воспроизведение текста в речь.

Любые сценарии использования сервиса

Если вам нужна помощь в реализации сценариев использования сервиса, оставьте заявку. Наши эксперты помогут разработать необходимую бизнес-логику и интегрировать ее в ваше приложение или сервис.

Сервис оплачивается по факту использования

Вы платите только за количество символов озвученного текста или количество распознанных минут аудио

3 000 ₽
на тестирование сервиса

После активации аккаунта мы свяжемся с вами и начислим 3000 рублей на ваш счет VK Cloud Solutions, чтобы вы смогли протестировать сервис.

Уточните у нас

Если у вас остались вопросы или нужен индивидуальный расчет, оставьте заявку на консультацию.

FAQ

Как можно протестировать технологию?

Зарегистрируйтесь на платформе VK Cloud Solutions и получите бонусные рубли после полной верификации аккаунта. Их вполне хватит для тестирования сервиса.

Как начать работать с Cloud Voice?

Нужно войти в аккаунт платформы VK Cloud Solutions, в левом меню выбрать сервис Machine Learning и вкладку Voice API. Затем можно распознавать и синтезировать голос с помощью API. Документацию и примеры использования можно найти в разделе «Методы API».

Какие аудиоформаты поддерживаются для голосового распознавания?

PCM (L16, WAV, AIFF, AU, PCM), OPUS (OGG, OPUS), MP3.

Какие преимущества использования речевых технологий именно в облаке?

Технологии распознавания голоса и синтеза речи требуют значительных вычислительных ресурсов. Если использовать распознавание речи прямо на устройствах пользователей (мобильные телефоны и планшеты), то для этого придется сохранять модель внутри приложения, и на слабых устройствах это будет работать медленно.
Rest API Voice ASR и Voice TTS, который не зависит от платформы и языка разработки.
Облачная платформа постоянно улучшается, и пользователям не нужно обновлять свои приложения, чтобы получить доступ к новым функциям и повышению качества распознавания (cloud speech to text).

Я не умею программировать. Могу ли я воспользоваться сервисом?

На текущий момент технологию можно использовать только через API-интерфейсы. В будущем мы разработаем графический интерфейс, чтобы сервисом могли пользоваться люди без навыков программирования.

Где будет сохранен результат?

Сервис возвращает распознанный или озвученный текст в том же запросе, в котором вы к нему обращаетесь.

Есть ли у сервиса какие-то ограничения?

Сейчас поддерживается только русский язык (speech recognition Russian), нет возможности выбрать голос для симулятора речи, распознать речь можно только в аудио-файлах до 15 секунд. Если вам нужно распознавание длинных аудиозаписей на русском языке — оставьте заявку.