snakers4 21 октября в 13:55

Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

Машинное обучение *Развитие стартапа Звук Natural Language Processing *

+16

Комментарии 16

vgray 21.10.2021 в 14:20

Про мошенников, если это не псевдопричина, чтобы обосновать переход на коммерческие рельсы, то беспокоиться не стоит. На рынке полно движков, которые за небольшую плату все, что угодно сгенерят.

snakers4 21.10.2021 в 14:58

На рынке полно движков, которые за небольшую плату все, что угодно сгенерят.

Платных GAFA АПИ для синтеза тонна, цены сейчас пока действительно низкие.
Но вопрос тут исключительно в целесообразности и конверсионном сценарии, когда мошенники обрабатывают миллионы клиентов.

Вообще использовать синтез для скама — пока в принципе так себе затея, потому что сочетание спам-рассылок и операторов из "службы поддержки Сбербанка" может быть выгоднее даже бесплатного синтеза.

чтобы обосновать переход на коммерческие рельсы

А зачем что-то обосновывать? Очевидно, что мы успешно делаем и коммерческие и некоммерческие проекты.

Мы сделали комьюнити огромный подарок — быстрый, качественно работающий синтез на ~10 языках. Причем какие-то языки в принципе никогда не будет покрыты GAFA продуктами и мотивация некоторых членов комьюнити была прозрачной — получить более качественный синтез, чем на их языке допустим есть в espeak, вложив свою работу pro bono. По сути практически то же самое, что делают GAFA корпорации, но публично и бесплатно без strings attached.

Статья была высоко оценена Хабром (+200). Но вот судя по числу донатов (7 человек) — команда любого такого проекта (даже если жить на 100 долларов в месяц и видеокарты и мотивацию брать с деревьев) на такую щедрость существовать не может.

Если вам нравятся наши публичные проекты — open_stt, silero-vad и silero-models — вы всегда можете поддержать нас напрямую или проектом. А вот лукавить и передергивать про "обоснование" пожалуйста не надо — из статьи очевидно следует, что у нас далеко идущие планы по развитию и публичного синтеза.

vgray 21.10.2021 в 15:13

Про коммерцию я немного неверно написал, я имел ввиду ситуацию когда разработчику немного неудобно сказать "я делаю классный продукт и хочу за него деньги", то могут быть вариаты вида "я беру деньги, только чтобы покрыть расходы на сервера", те разработчик начинает оправдываться за желание заработать.

Мне почему-то показалось, что ваши слова о том, что вы прекращаете выкладывать модели, вызваны именно ситуацией описанной выше.

Еще раз приношу извинения, что написал неверно и показалось, что я вас в чем-то обвиняю.

snakers4 21.10.2021 в 19:54

del

PereslavlFoto 21.10.2021 в 19:18

Когда же мы сможем услышать подлинные слова Ленина о том, что надо верить всем цитатам из интернетов?

Когда?!

snakers4 21.10.2021 в 19:54

PereslavlFoto 21.10.2021 в 20:17

Что-то он запинается в начале, после слова «товарищи». Нельзя ли найти другую патефонную пластинку?

snakers4 22.10.2021 в 09:43

Вообще интересен такой философский вопрос. Настоящих записей лидера мирового пролетариата было сделано буквально пара десятков. Тот факт, что мы можем сделать его голосом синтез и какие-то фразы звучат почти нормально — мне кажется чудом (но Хабр почему-то пропустил статью, я перестал понимать логику коллективного бессознательного Хабра).

Но если просто взять все почищенные и обработанные аудио и попросить актера повторить голос, то синтез вероятно получится сильно лучше и, вероятно, люди в слепом тесте выберут "поддельный".

Соответственно возникает вопрос — неужели, если мы это сделаем, мы тем самым косвенно примкнем к тем, что считает, что Земля — плоская?

stalinets 21.10.2021 в 21:18

Моим родителям года полтора назад уже звонили моим голосом (они уверяли, что звучит один в один) и просили денег, типа я на машине сбил человека. Они не повелись, т.к. 1) раньше уже был подобный прецедент, исполненный потопорнее, 2) мошенник где-то взял мой голос, но прокололся на том, что я за рулём авто почти не езжу.

А вообще я сам поигрался бы с таким движком. Программа-минимум - для розыгрыша друзей) Или сделать читалку книг с интересным мне голосом.

Чтоб сначала обучить программу, скармливая ей разные записанные фразы в wave-виде и рядом текстом набирая что именно было сказано (программа должна быть достаточно умна, чтоб правильно сопоставить конкретные миллисекунды записи с конкретными написанными мною текстовыми слогами). А потом чтобы могла говорить этим голосом любой введённый текст, разве что с доп.инструментарием для расставления ударений в словах и логических ударений и тона во фразе. Инструмент-то интересный.

snakers4 21.10.2021 в 22:12

Моим родителям года полтора назад уже звонили моим голосом (они уверяли, что звучит один в один)

Интересно. Это был динамический синтез, или просто фиксированное аудио из надерганных слов?
Люди старшего поколения, особенно в возрасте, иногда бывает и не на такое ведутся.

Чтоб сначала обучить программу, скармливая ей разные записанные фразы в wave-виде и рядом текстом набирая что именно было сказано (программа должна быть достаточно умна, чтоб правильно сопоставить конкретные миллисекунды записи с конкретными написанными мною текстовыми слогами). А потом чтобы могла говорить этим голосом любой введённый текст, разве что с доп.инструментарием для расставления ударений в словах и логических ударений и тона во фразе. Инструмент-то интересный.

По отдельности все эти задачи у нас естественно так или иначе решены, но планов пакетирования их в отдельное desktop приложение у нас нет. Да и с этической точки зрения мне это кажется уже в серой зоне будет.

stalinets 22.10.2021 в 07:28

Как именно было сделано - не могу сказать, для этого надо бы иметь запись того разговора, а без неё родители ничего толком не объяснять, просто "очень похоже" и всё.

Ну инструмент всё равно злоумышленники используют так или иначе.

snakers4 22.10.2021 в 09:00

Не уверен конечно, что там может быть прямо синтез, все-таки мороки с ним очень много.
Может максимум слили базу с возрастом и полом.

Ну или еще банальнее — записано 10 разных голосов по какому-то общему сценарию, и просто рандомом всем звонят, побирая по полу и возрасту. Если 1 клюнет — уже профит.

AigizK 21.10.2021 в 21:50

А для русского уже ударения можно не размечать?

snakers4 21.10.2021 в 21:52

Модели V2 содержат автопростановку ударений и ё.
Но она работает примерно для 95-97% случаев и не покрывает омографы.
Мы данные собрали, но не продвинулись дальше пока, к сожалению.

DmitrySpb79 21.10.2021 в 22:33

Спасибо, интересно.

А какие open source AI проекты стоит попробовать, чтобы поиграться с синтезом и распознаванием речи? Заработает ли это на Neural Compute Stick? (можно попробовать например робота говорящего сделать :)

snakers4 22.10.2021 в 09:02

Насчет проектов могу посоветовать наш — https://github.com/snakers4/silero-models

Насчет Neural Compute Stick — весьма маловероятно как мне кажется. Когда в прошлый раз узнавал что-то про эти дивайсы, там все еще все было плохо. Грубо говоря работали сетки от производителя дивайсов. Сейчас может конечно что-то поменялось.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

Комментарии 16

Ваш аккаунт

Разделы

Информация

Услуги