Результаты поиска по запросу «[синтез речи]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

AlexHanguery 8 июл в 14:10

Suno споёт моим голосом? Ну, … да

Средний

10 мин

6.2K

Искусственный интеллектЗвукБудущее здесь

Мнение

Доброго дня/вечера! Статья по использованию в Suno опции Audio Input (в продолжение предыдущей статьи о Suno).

Кратко. Вы загружаете короткий (6-60 сек) фрагмент аудио, задаете Стиль, текст (если песня) или нет (если Instrumental), а Suno его "дописывает", доигрывает. С опцией "Get Whole Song", как и ранее, можно объединить исходное и новое в одну композицию.

Суть (как я понимаю) в том, что алгоритм пытается распознать закономерности в загруженном фрагменте, я бы даже сказал "музыкальное содержание" не в эмоциональном человеческом понимании - грустно, весело, трагично и т.п., а в формальном смысле - какая ритмическая структура, какая гармоническая последовательность, где мелодические линии, какие штрихи, тембры, какая форма. Хотя это тоже "человеческое", робот, скорее, ищет закономерности в графическом (спектральном) представлении всего этого. В итоге это берется за основу, чтобы продолжить "рисовать".

Кажется есть одна близкая аналогия: если вам дадут обрывок картинки и попросят дорисовать, что получится? Чем больший фрагмент вам выдан, тем меньше будет ошибок, "произвола" в дорисовке. Также и Suno. Я пробовал и 6 сек., и 60. В первом случае было мало чего "повторять", а при максимальной длине у системы есть что анализировать - по хорошему, в 1 минуту можно вложить короткий инструментальный проигрыш, куплет и припев - т.е. почти весь значимый материал песни.

Важный момент: чужие фрагменты подгружать нельзя (т.е. те, на которые у вас нет прав) - появляется Pop-Up окошко. А как хочется "скормить" 60 сек. что-то вроде "Stairway To Heaven" / Led Zeppelin - и "доиграть" уже со своими словами!

just_ai 15 мар 2022 в 18:40

Just AI представит технологию гибридного синтеза речи на вебинаре 17 марта

2 мин

1.1K

Блог компании Just AIМашинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

Разработчик технологий разговорного ИИ Just AI выводит в продакшн гибридный синтез речи и представит технологию на бесплатном вебинаре 17 марта. Гибридный синтез позволяет быстро заменять любые фразы в аудиодорожках, записанных диктором для голосового бота, требуется только отредактировать текст. При этом синтезированная речь будет в точности сохранять интонацию, с которой диктор произносил неизмененные части реплики, и экстраполировать ее на новый текст так, чтобы он звучал естественно и не выделялся из контекста.

maybe_elf 1 сен 2021 в 13:25

Nvidia представила нейромодель генерации выразительной речи

2 мин

3.6K

Искусственный интеллектЗвук

Nvidia на конференции Interspeech показала модель диалогового ИИ для выразительного синтеза речи, чтобы генерировать голоса для персонажей, виртуальных помощников и персонализированных аватаров. Технология позволяет имитировать ритм, интонации и тембры голосов людей.

+12

maybe_elf 6 авг 2020 в 09:32

Российский стартап клонирования голоса Vera Voice выходит на американский рынок

1 мин

4.8K

Развитие стартапаИскусственный интеллектЗвук

Российский сервис Vera Voice объявил о запуске технологии в США. В приложения клонирования голоса Parodist теперь есть возможность создавать контент на английском языке. Пока доступны голоса 32 знаменитых личностей, в том числе Дональда Трампа, Джо Байдена, Уилла Смита и Билли Айлиш.

Читать дальше →

+10

Christina29 26 ноя 2021 в 11:25

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

3 мин

Блог компании SberDevicesМашинное обучение*Карьера в IT-индустрииИскусственный интеллектNatural Language Processing*

Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: [email protected].

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.

Читать дальше →

alizar 7 дек 2018 в 11:38

«Тинькофф банк» разработал голосового помощника-мужчину по имени Олег или Иван

1 мин

5.5K

Искусственный интеллектГолосовые интерфейсы*

Вчера на корпоративе сотрудников «Тинькофф банка» основатель и председатель совета директоров банка Олег Тиньков объявил, что компания разработала голосового помощника, который может общаться с пользователями на естественном языке, почти как Алиса от «Яндекса», пишут «Ведомости». Официальная презентация состоится через неделю.

«Пока очень скромно, мы решили назвать „Олег”. Но может быть, ещё поменяем, может, „Иван” назовём», — сказал Тиньков на корпоративе, отвечая на вопрос Ивана Урганта.

Читать дальше →

nanton 17 июн 2019 в 18:58

Нейросеть Facebook заговорила голосом Билла Гейтса

2 мин

5.7K

Искусственный интеллектБудущее здесь

Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.

Читать дальше →

through_horizon 10 июн в 10:00

Яндекс прочтёт вслух 13 000 книг: Букмейт запустил виртуального рассказчика

2 мин

Блог компании ЯндексМашинное обучение*Искусственный интеллектIT-компанииГолосовые интерфейсы*

Многие пользователи не только читают книги, но и слушают их аудиоверсии. Это бывает удобно в транспорте или в фоновом режиме, а для кого-то речь профессионального диктора и вовсе заменила текст. Спрос на такие версии растёт: более 80% пользователей Букмейта (книжный сервис Яндекс Плюса) хоть раз обращались к аудиоформату для знакомства с литературой.

К сожалению, далеко не для всех книг такие версии существуют, но мы придумали, как помочь пользователям. В Букмейте появился виртуальный рассказчик. Он позволяет в режиме реального времени слушать книги, у которых нет предзаписанных аудиоверсий. На данный момент рассказчик доступен для 13 000 книг.

Виртуальный рассказчик создан специально для чтения книг вслух. Он разработан на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. Воспроизведение текста максимально приближено к естественной речи, поэтому читателю комфортно слушать произведения на протяжении долгого времени.

Как мы адаптировали технологию

+20

daniilshat 5 дек 2023 в 14:54

Разработчики выпустили HierSpeech++ — модель для генерации голоса

1 мин

6.5K

Машинное обучение*Искусственный интеллект

Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.

IgnatChuker 6 июн в 19:32

В России запустят первое «Нейрокладбище» с цифровыми аватарами усопших людей в 2024 году

1 мин

6.1K

Ритуальная служба «Ритуал.ру» совместно с компанией Dragons Code заключили соглашение о запуске первого в России цифрового «Нейрокладбища». Стартовые инвестиции в проект пока составляют ₽30 млн, а само кладбище будет находиться в Москве. По словам службы «Ритуал.ру», услуга станет революционным решением в ритуальной сфере, помогая людям справляться с горечью утраты и тяжёлой депрессией.

daniilshat 16 ноя 2023 в 15:35

«Сбер» выпустил SaluteSpeech App — приложение для распознавания и озвучивания текста

1 мин

2.6K

СофтИскусственный интеллект

«Сбер» выпустил приложение SaluteSpeech App для распознавания речи и озвучивания текста, построенное на базе одноимённой платформы. Доступны сборки для Windows и macOS.

maybe_elf 22 июл 2022 в 10:26

Энтузиаст создал умную говорящую голову терминатора T-800 на Raspberry Pi 4

1 мин

5.3K

Машинное обучение*Разработка на Raspberry Pi*РобототехникаDIY или Сделай сам

Энтузиаст Майкл Дарби представил свой проект на базе Raspberry Pi 4. Ему удалось воссоздать голову терминатора T-800.

SLY_G 8 ноя 2023 в 19:49

Создан мозговой имплантат, синтезирующий речь на основе мыслей

3 мин

4.2K

Научно-популярноеМозг

Речевой протез, разработанный совместной группой нейробиологов, нейрохирургов и инженеров Университета Дьюка, может переводить сигналы мозга человека в то, что он пытается сказать.

Новая технология, описание которой опубликовано в журнале Nature Communications, может помочь людям, неспособным говорить из-за неврологических расстройств, вновь обрести способность общаться с помощью интерфейса «мозг-компьютер».

leramnk 29 мар 2023 в 12:38

Как ИИ может улучшить общение с клиентами?

1 мин

562

Блог компании Voximplant

Чего нам, как клиентам, хочется в разговоре с поддержкой по телефону? Чтобы на той стороне нас услышали, поняли и решили проблему в кратчайшие сроки, а не заставляли слушать все симфонии Моцарта. При этом тренды клиентского сервиса на ближайшие годы говорят нам о том, что роботизация звонков будет продолжаться.

Голосовые роботы на основе искусственного интеллекта настолько проникли в нашу жизнь, что мы с трудом отличаем живого собеседника от робота на другом конце провода. ИИ не собирается останавливаться на достигнутом и продолжает совершенствоваться, набирая вес на рынке. Перед компаниями встает непростой выбор - как не слить клиентов и при этом идти в ногу со временем.

Voximplant совместно с Cloud нашли решение и готовы поделиться с вами не только трендами развития рынка коммуникаций при помощи ИИ, но и рассказать про реальные живые кейсы использования подобных инструментов в бизнесе и способы экономии с помощью роботизации.

? 30 марта в 11:00 Voximplant и Cloud погрузятся в недры технологий на вебинаре “Распознавание и синтез речи на практике. Кейсы SaluteSpeech и Voximplant”.

Хочу присоединиться!

+14

just_ai 15 ноя 2022 в 14:28

От мультиязычных моделей до проектирования блок-схем на языке Дракон: Сбер, DeepPavlov, Ozon и другие на Conversations

3 мин

987

Блог компании Just AIКонференцииИскусственный интеллектNatural Language Processing*Голосовые интерфейсы*

2 декабря в Москве в онлайн- и офлайн-формате состоится Conversations – ежегодная конференция по разговорному AI для разработчиков и бизнеса. Про NLP-сервисы, диалоговые платформы и фреймворки, синтез и распознавание речи, UX и проектирование разговорных интерфейсов, генеративные модели и не только расскажут KODE, MTS AI, Альфа-Банк, Сбер, Yandex Cloud, DeepPavlov и другие эксперты. В нашем анонсе – особо интригующие спойлеры и промокод на скидку.

О чем будут вещать?

maybe_elf 23 янв 2023 в 11:51

Нейросети elevenlabs.io и ChatGPT рассказали голосом Стива Джобса про ChatGPT

1 мин

4.3K

Машинное обучение*Искусственный интеллектЗвук

На YouTube-канале Synthetic вышло видео, в котором голосом Стива Джобса рассказывается о преимуществах чат-бота ChatGPT.

denis-19 24 фев 2023 в 18:22

Клиент банка Lloyds Bank из Великобритании получил доступ к своему банковскому счёту с помощью голосового ИИ

3 мин

5.5K

Информационная безопасность*Искусственный интеллектСоциальные сети и сообществаФинансы в ITГолосовые интерфейсы*

Клиент банка Lloyds Bank из Великобритании обнаружил, что может получить доступ к своему банковскому счёту с помощью голосового ИИ через идентификацию по Voice ID.

Читать дальше →

+12

GeorgeR 7 мая 2010 в 21:05

RSS Радио — С Днем радио и Днем Победы!

1 мин

1.2K

Робототехника

Веб-сервис по чтению rss-потоков. Синтез русской речи

+13

manakhovpavel 20 авг 2010 в 17:10

Обзор мобильных Text-To-Speech движков

4 мин

48K

Разработка мобильных приложений*

Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.

Читать дальше →

+29

tehnolog 30 мая 2014 в 15:08

Синтезатор речи. Теперь и на русском

2 мин

102K

Разработка под Android*

Меня всегда огорчало, что в Android не было синтезатора речи на русском. Изначально выбор языков был ограничен английским, испанским, французским, немецким и итальянским. Существовали отдельные коммерческие движки, а также производители могли добавить в свои устройства какой-нибудь движок с нужным языком, видимо договорившись с разработчиком. Но хотелось поддержки из коробки от самой «корпорации добра».

Читать дальше →

+24

2 3 4 5 6