Как стать автором
Обновить

Suno споёт моим голосом? Ну, … да

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6.2K

Доброго дня/вечера! Статья по использованию в Suno опции Audio Input (в продолжение предыдущей статьи о Suno).

Кратко. Вы загружаете короткий (6-60 сек) фрагмент аудио, задаете Стиль, текст (если песня) или нет (если Instrumental), а Suno его "дописывает", доигрывает. С опцией "Get Whole Song", как и ранее, можно объединить исходное и новое в одну композицию.

Суть (как я понимаю) в том, что алгоритм пытается распознать закономерности в загруженном фрагменте, я бы даже сказал "музыкальное содержание" не в эмоциональном человеческом понимании - грустно, весело, трагично и т.п., а в формальном смысле - какая ритмическая структура, какая гармоническая последовательность, где мелодические линии, какие штрихи, тембры, какая форма. Хотя это тоже "человеческое", робот, скорее, ищет закономерности в графическом (спектральном) представлении всего этого. В итоге это берется за основу, чтобы продолжить "рисовать".

Кажется есть одна близкая аналогия: если вам дадут обрывок картинки и попросят дорисовать, что получится? Чем больший фрагмент вам выдан, тем меньше будет ошибок, "произвола" в дорисовке. Также и Suno. Я пробовал и 6 сек., и 60. В первом случае было мало чего "повторять", а при максимальной длине у системы есть что анализировать - по хорошему, в 1 минуту можно вложить короткий инструментальный проигрыш, куплет и припев - т.е. почти весь значимый материал песни.

Важный момент: чужие фрагменты подгружать нельзя (т.е. те, на которые у вас нет прав) - появляется Pop-Up окошко. А как хочется "скормить" 60 сек. что-то вроде "Stairway To Heaven" / Led Zeppelin - и "доиграть" уже со своими словами!

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Just AI представит технологию гибридного синтеза речи на вебинаре 17 марта

Время на прочтение2 мин
Количество просмотров1.1K

Разработчик технологий разговорного ИИ Just AI выводит в продакшн гибридный синтез речи и представит технологию на бесплатном вебинаре 17 марта. Гибридный синтез позволяет быстро заменять любые фразы в аудиодорожках, записанных диктором для голосового бота, требуется только отредактировать текст. При этом синтезированная речь будет в точности сохранять интонацию, с которой диктор произносил неизмененные части реплики, и экстраполировать ее на новый текст так, чтобы он звучал естественно и не выделялся из контекста. 

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Nvidia представила нейромодель генерации выразительной речи

Время на прочтение2 мин
Количество просмотров3.6K

Nvidia на конференции Interspeech показала модель диалогового ИИ для выразительного синтеза речи, чтобы генерировать голоса для персонажей, виртуальных помощников и персонализированных аватаров. Технология позволяет имитировать ритм, интонации и тембры голосов людей.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии6

Российский стартап клонирования голоса Vera Voice выходит на американский рынок

Время на прочтение1 мин
Количество просмотров4.8K
image

Российский сервис Vera Voice объявил о запуске технологии в США. В приложения клонирования голоса Parodist теперь есть возможность создавать контент на английском языке. Пока доступны голоса 32 знаменитых личностей, в том числе Дональда Трампа, Джо Байдена, Уилла Смита и Билли Айлиш.
Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии2

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

Время на прочтение3 мин
Количество просмотров4K


Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: [email protected].

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.
Читать дальше →
Всего голосов 5: ↑4 и ↓1+6
Комментарии2

«Тинькофф банк» разработал голосового помощника-мужчину по имени Олег или Иван

Время на прочтение1 мин
Количество просмотров5.5K
Вчера на корпоративе сотрудников «Тинькофф банка» основатель и председатель совета директоров банка Олег Тиньков объявил, что компания разработала голосового помощника, который может общаться с пользователями на естественном языке, почти как Алиса от «Яндекса», пишут «Ведомости». Официальная презентация состоится через неделю.

«Пока очень скромно, мы решили назвать „Олег”. Но может быть, ещё поменяем, может, „Иван” назовём», — сказал Тиньков на корпоративе, отвечая на вопрос Ивана Урганта.
Читать дальше →
Всего голосов 16: ↑9 и ↓7+2
Комментарии21

Нейросеть Facebook заговорила голосом Билла Гейтса

Время на прочтение2 мин
Количество просмотров5.7K


Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.
Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии11

Яндекс прочтёт вслух 13 000 книг: Букмейт запустил виртуального рассказчика

Время на прочтение2 мин
Количество просмотров5K

Многие пользователи не только читают книги, но и слушают их аудиоверсии. Это бывает удобно в транспорте или в фоновом режиме, а для кого-то речь профессионального диктора и вовсе заменила текст. Спрос на такие версии растёт: более 80% пользователей Букмейта (книжный сервис Яндекс Плюса) хоть раз обращались к аудиоформату для знакомства с литературой. 

К сожалению, далеко не для всех книг такие версии существуют, но мы придумали, как помочь пользователям. В Букмейте появился виртуальный рассказчик. Он позволяет в режиме реального времени слушать книги, у которых нет предзаписанных аудиоверсий. На данный момент рассказчик доступен для 13 000 книг.

Виртуальный рассказчик создан специально для чтения книг вслух. Он разработан на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. Воспроизведение текста максимально приближено к естественной речи, поэтому читателю комфортно слушать произведения на протяжении долгого времени.

Как мы адаптировали технологию
Всего голосов 19: ↑17 и ↓2+20
Комментарии4

Разработчики выпустили HierSpeech++ — модель для генерации голоса

Время на прочтение1 мин
Количество просмотров6.5K

Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.

Читать далее
Всего голосов 5: ↑4 и ↓1+6
Комментарии6

В России запустят первое «Нейрокладбище» с цифровыми аватарами усопших людей в 2024 году

Время на прочтение1 мин
Количество просмотров6.1K

Ритуальная служба «Ритуал.ру» совместно с компанией Dragons Code заключили соглашение о запуске первого в России цифрового «Нейрокладбища». Стартовые инвестиции в проект пока составляют ₽30 млн, а само кладбище будет находиться в Москве. По словам службы «Ритуал.ру», услуга станет революционным решением в ритуальной сфере, помогая людям справляться с горечью утраты и тяжёлой депрессией.

Читать далее
Всего голосов 7: ↑6 и ↓1+9
Комментарии52

«Сбер» выпустил SaluteSpeech App — приложение для распознавания и озвучивания текста

Время на прочтение1 мин
Количество просмотров2.6K

«Сбер» выпустил приложение SaluteSpeech App для распознавания речи и озвучивания текста, построенное на базе одноимённой платформы. Доступны сборки для Windows и macOS.

Читать далее
Всего голосов 3: ↑2 и ↓1+4
Комментарии3

Энтузиаст создал умную говорящую голову терминатора T-800 на Raspberry Pi 4

Время на прочтение1 мин
Количество просмотров5.3K

Энтузиаст Майкл Дарби представил свой проект на базе Raspberry Pi 4. Ему удалось воссоздать голову терминатора T-800.

Читать далее
Всего голосов 4: ↑3 и ↓1+3
Комментарии3

Создан мозговой имплантат, синтезирующий речь на основе мыслей

Время на прочтение3 мин
Количество просмотров4.2K

Речевой протез, разработанный совместной группой нейробиологов, нейрохирургов и инженеров Университета Дьюка, может переводить сигналы мозга человека в то, что он пытается сказать.

Новая технология, описание которой опубликовано в журнале Nature Communications, может помочь людям, неспособным говорить из-за неврологических расстройств, вновь обрести способность общаться с помощью интерфейса «мозг-компьютер».

Читать далее
Всего голосов 5: ↑4 и ↓1+6
Комментарии8

Как ИИ может улучшить общение с клиентами?

Время на прочтение1 мин
Количество просмотров562

Чего нам, как клиентам, хочется в разговоре с поддержкой по телефону? Чтобы на той стороне нас услышали, поняли и решили проблему в кратчайшие сроки, а не заставляли слушать все симфонии Моцарта. При этом тренды клиентского сервиса на ближайшие годы говорят нам о том, что роботизация звонков будет продолжаться.

Голосовые роботы на основе искусственного интеллекта настолько проникли в нашу жизнь, что мы с трудом отличаем живого собеседника от робота на другом конце провода. ИИ не собирается останавливаться на достигнутом и продолжает совершенствоваться, набирая вес на рынке. Перед компаниями встает непростой выбор - как не слить клиентов и при этом идти в ногу со временем. 

Voximplant совместно с Cloud нашли решение и готовы поделиться с вами не только трендами развития рынка коммуникаций при помощи ИИ, но и рассказать про реальные живые кейсы использования подобных инструментов в бизнесе и способы экономии с помощью роботизации.

? 30 марта в 11:00 Voximplant и Cloud погрузятся в недры технологий на вебинаре “Распознавание и синтез речи на практике. Кейсы SaluteSpeech и Voximplant”

Хочу присоединиться!
Всего голосов 14: ↑14 и ↓0+14
Комментарии0

От мультиязычных моделей до проектирования блок-схем на языке Дракон: Сбер, DeepPavlov, Ozon и другие на Conversations

Время на прочтение3 мин
Количество просмотров987

2 декабря в Москве в онлайн- и офлайн-формате состоится Conversations – ежегодная конференция по разговорному AI для разработчиков и бизнеса. Про NLP-сервисы, диалоговые платформы и фреймворки, синтез и распознавание речи, UX и проектирование разговорных интерфейсов, генеративные модели и не только расскажут KODE, MTS AI, Альфа-Банк, Сбер, Yandex Cloud, DeepPavlov и другие эксперты. В нашем анонсе – особо интригующие спойлеры и промокод на скидку.

О чем будут вещать?
Рейтинг0
Комментарии0

Нейросети elevenlabs.io и ChatGPT рассказали голосом Стива Джобса про ChatGPT

Время на прочтение1 мин
Количество просмотров4.3K

На YouTube-канале Synthetic вышло видео, в котором голосом Стива Джобса рассказывается о преимуществах чат-бота ChatGPT.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

Клиент банка Lloyds Bank из Великобритании получил доступ к своему банковскому счёту с помощью голосового ИИ

Время на прочтение3 мин
Количество просмотров5.5K


Клиент банка Lloyds Bank из Великобритании обнаружил, что может получить доступ к своему банковскому счёту с помощью голосового ИИ через идентификацию по Voice ID.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии24

Обзор мобильных Text-To-Speech движков

Время на прочтение4 мин
Количество просмотров48K
imageЕсли Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.
Читать дальше →
Всего голосов 35: ↑32 и ↓3+29
Комментарии23

Синтезатор речи. Теперь и на русском

Время на прочтение2 мин
Количество просмотров102K
Меня всегда огорчало, что в Android не было синтезатора речи на русском. Изначально выбор языков был ограничен английским, испанским, французским, немецким и итальянским. Существовали отдельные коммерческие движки, а также производители могли добавить в свои устройства какой-нибудь движок с нужным языком, видимо договорившись с разработчиком. Но хотелось поддержки из коробки от самой «корпорации добра».
Читать дальше →
Всего голосов 28: ↑26 и ↓2+24
Комментарии15