Продукты

Распознайте и озвучьте текст в облаке

Cloud Voice от VK | Платформа распознавания и синтеза речи на базе машинного обучения

Речевые технологии для бизнеса

Сервисы распознавания речи и генератора голоса по тексту помогут вам проанализировать звонки клиентов или добавить голосовое управление к приложению.

Преимущества голосовой платформы VK Cloud Solutions

Стабильная и протестированная технология
Сервис построен с применением технологий знакомого пользователям голосового помощника Маруся. Теперь вы можете использовать его возможности для вашего бизнеса: наложите Cloud Voice на необходимую бизнес-логику и интегрируйте в ваше приложение или сервис.
Постоянное улучшение качества
Качество сервиса постоянно улучшается. Модели машинного обучения в основе Voice постоянно дообучаются на новых данных, а значит, качество распознавания и синтеза речи улучшается. Вам не нужно что-то обновлять, вы получаете все улучшения автоматически.
Если вы хотите узнать больше о возможностях сервиса, оставьте заявку на консультацию

Сценарии использования

Технологии распознавания голоса и синтеза речи полезны компаниям в разных отраслях
Озвучить контент на сайте или в приложении
Иногда у пользователей нет времени читать новости или статьи, но они готовы их слушать за рулем или на тренировке. Добавьте в ваше приложение или сайт автоматическое озвучивание текста и другого контента, чтобы увеличить охват.
Привлечь в приложение пользователей голосовым управлением
Добавьте к своему мобильному приложению голосовые команды, например «Убавь громкость», «Покажи историю моих покупок» или «Повтори прошлый заказ».
Проанализировать частые запросы клиентов
С помощью технологии Voice ASR расшифруйте записи разговоров с клиентами и затем проанализируйте все расшифровки с помощью искусственного интеллекта. Вы сможете оценивать качество работы операторов, отслеживать использование нецензурной лексики и общую тональность общения.
Адаптировать сервис для людей с ограниченными возможностями
Сделайте ваш сервис доступным для слабовидящих людей. Добавьте голосовое управление, подсказки и воспроизведение текста в речь.

Любые сценарии использования сервиса

Если вам нужна помощь в реализации сценариев использования сервиса, оставьте заявку. Наши эксперты помогут разработать необходимую бизнес-логику и интегрировать ее в ваше приложение или сервис.

Сервис оплачивается по факту использования

Вы платите только за количество символов озвученного текста или количество распознанных минут аудио

3 000 ₽
на тестирование сервиса

После активации аккаунта мы свяжемся с вами и начислим 3000 рублей на ваш счет VK Cloud Solutions, чтобы вы смогли протестировать сервис.
Уточните у нас
Если у вас остались вопросы или нужен индивидуальный расчет, оставьте заявку на консультацию.

FAQ

Как можно протестировать технологию?
Зарегистрируйтесь на платформе VK Cloud Solutions и получите бонусные рубли после полной верификации аккаунта. Их вполне хватит для тестирования сервиса.
Как начать работать с Cloud Voice?
Нужно войти в аккаунт платформы VK Cloud Solutions, в левом меню выбрать сервис Machine Learning и вкладку Voice API. Затем можно распознавать и синтезировать голос с помощью API. Документацию и примеры использования можно найти в разделе «Методы API».
Какие аудиоформаты поддерживаются для голосового распознавания?
PCM (L16, WAV, AIFF, AU, PCM), OPUS (OGG, OPUS), MP3.
Какие преимущества использования речевых технологий именно в облаке?
  1. Технологии распознавания голоса и синтеза речи требуют значительных вычислительных ресурсов. Если использовать распознавание речи прямо на устройствах пользователей (мобильные телефоны и планшеты), то для этого придется сохранять модель внутри приложения, и на слабых устройствах это будет работать медленно.
  2. Rest API Voice ASR и Voice TTS, который не зависит от платформы и языка разработки.
  3. Облачная платформа постоянно улучшается, и пользователям не нужно обновлять свои приложения, чтобы получить доступ к новым функциям и повышению качества распознавания (cloud speech to text).
Я не умею программировать. Могу ли я воспользоваться сервисом?
На текущий момент технологию можно использовать только через API-интерфейсы. В будущем мы разработаем графический интерфейс, чтобы сервисом могли пользоваться люди без навыков программирования.
Где будет сохранен результат?
Сервис возвращает распознанный или озвученный текст в том же запросе, в котором вы к нему обращаетесь.
Есть ли у сервиса какие-то ограничения?
Сейчас поддерживается только русский язык (speech recognition Russian), нет возможности выбрать голос для симулятора речи, распознать речь можно только в аудио-файлах до 15 секунд. Если вам нужно распознавание длинных аудиозаписей на русском языке — оставьте заявку.

Не нашли ответ на свой вопрос?

Найдите его в документации

здесь есть ответы на большинство вопросов по настройке сервисов

Открыть документацию

Задайте его нам

через форму обратной связи, и мы оперативно ответим

Задать вопрос

Нам доверяют свой бизнес

У нас есть cloud технологии и сервисы, которые помогают компаниям решать самые важные задачи
23 года
опыта поддержки высоконагруженных сервисов
100+ млн
пользователей по всему миру
7 лет
экспертизы развития облачной инфраструктуры