Как стать автором
Обновить

Комментарии 16

Про мошенников, если это не псевдопричина, чтобы обосновать переход на коммерческие рельсы, то беспокоиться не стоит. На рынке полно движков, которые за небольшую плату все, что угодно сгенерят.

На рынке полно движков, которые за небольшую плату все, что угодно сгенерят.

Платных GAFA АПИ для синтеза тонна, цены сейчас пока действительно низкие.
Но вопрос тут исключительно в целесообразности и конверсионном сценарии, когда мошенники обрабатывают миллионы клиентов.


Вообще использовать синтез для скама — пока в принципе так себе затея, потому что сочетание спам-рассылок и операторов из "службы поддержки Сбербанка" может быть выгоднее даже бесплатного синтеза.


чтобы обосновать переход на коммерческие рельсы

А зачем что-то обосновывать? Очевидно, что мы успешно делаем и коммерческие и некоммерческие проекты.


Мы сделали комьюнити огромный подарок — быстрый, качественно работающий синтез на ~10 языках. Причем какие-то языки в принципе никогда не будет покрыты GAFA продуктами и мотивация некоторых членов комьюнити была прозрачной — получить более качественный синтез, чем на их языке допустим есть в espeak, вложив свою работу pro bono. По сути практически то же самое, что делают GAFA корпорации, но публично и бесплатно без strings attached.


Статья была высоко оценена Хабром (+200). Но вот судя по числу донатов (7 человек) — команда любого такого проекта (даже если жить на 100 долларов в месяц и видеокарты и мотивацию брать с деревьев) на такую щедрость существовать не может.


Если вам нравятся наши публичные проекты — open_stt, silero-vad и silero-models — вы всегда можете поддержать нас напрямую или проектом. А вот лукавить и передергивать про "обоснование" пожалуйста не надо — из статьи очевидно следует, что у нас далеко идущие планы по развитию и публичного синтеза.

Про коммерцию я немного неверно написал, я имел ввиду ситуацию когда разработчику немного неудобно сказать "я делаю классный продукт и хочу за него деньги", то могут быть вариаты вида "я беру деньги, только чтобы покрыть расходы на сервера", те разработчик начинает оправдываться за желание заработать.

Мне почему-то показалось, что ваши слова о том, что вы прекращаете выкладывать модели, вызваны именно ситуацией описанной выше.

Еще раз приношу извинения, что написал неверно и показалось, что я вас в чем-то обвиняю.

Когда же мы сможем услышать подлинные слова Ленина о том, что надо верить всем цитатам из интернетов?

Когда?!
Что-то он запинается в начале, после слова «товарищи». Нельзя ли найти другую патефонную пластинку?

=)


Вообще интересен такой философский вопрос. Настоящих записей лидера мирового пролетариата было сделано буквально пара десятков. Тот факт, что мы можем сделать его голосом синтез и какие-то фразы звучат почти нормально — мне кажется чудом (но Хабр почему-то пропустил статью, я перестал понимать логику коллективного бессознательного Хабра).


Но если просто взять все почищенные и обработанные аудио и попросить актера повторить голос, то синтез вероятно получится сильно лучше и, вероятно, люди в слепом тесте выберут "поддельный".


Соответственно возникает вопрос — неужели, если мы это сделаем, мы тем самым косвенно примкнем к тем, что считает, что Земля — плоская?

Моим родителям года полтора назад уже звонили моим голосом (они уверяли, что звучит один в один) и просили денег, типа я на машине сбил человека. Они не повелись, т.к. 1) раньше уже был подобный прецедент, исполненный потопорнее, 2) мошенник где-то взял мой голос, но прокололся на том, что я за рулём авто почти не езжу.

А вообще я сам поигрался бы с таким движком. Программа-минимум - для розыгрыша друзей) Или сделать читалку книг с интересным мне голосом.

Чтоб сначала обучить программу, скармливая ей разные записанные фразы в wave-виде и рядом текстом набирая что именно было сказано (программа должна быть достаточно умна, чтоб правильно сопоставить конкретные миллисекунды записи с конкретными написанными мною текстовыми слогами). А потом чтобы могла говорить этим голосом любой введённый текст, разве что с доп.инструментарием для расставления ударений в словах и логических ударений и тона во фразе. Инструмент-то интересный.

Моим родителям года полтора назад уже звонили моим голосом (они уверяли, что звучит один в один)

Интересно. Это был динамический синтез, или просто фиксированное аудио из надерганных слов?
Люди старшего поколения, особенно в возрасте, иногда бывает и не на такое ведутся.


Чтоб сначала обучить программу, скармливая ей разные записанные фразы в wave-виде и рядом текстом набирая что именно было сказано (программа должна быть достаточно умна, чтоб правильно сопоставить конкретные миллисекунды записи с конкретными написанными мною текстовыми слогами). А потом чтобы могла говорить этим голосом любой введённый текст, разве что с доп.инструментарием для расставления ударений в словах и логических ударений и тона во фразе. Инструмент-то интересный.

По отдельности все эти задачи у нас естественно так или иначе решены, но планов пакетирования их в отдельное desktop приложение у нас нет. Да и с этической точки зрения мне это кажется уже в серой зоне будет.

Как именно было сделано - не могу сказать, для этого надо бы иметь запись того разговора, а без неё родители ничего толком не объяснять, просто "очень похоже" и всё.

Ну инструмент всё равно злоумышленники используют так или иначе.

Не уверен конечно, что там может быть прямо синтез, все-таки мороки с ним очень много.
Может максимум слили базу с возрастом и полом.


Ну или еще банальнее — записано 10 разных голосов по какому-то общему сценарию, и просто рандомом всем звонят, побирая по полу и возрасту. Если 1 клюнет — уже профит.

А для русского уже ударения можно не размечать?

Модели V2 содержат автопростановку ударений и ё.
Но она работает примерно для 95-97% случаев и не покрывает омографы.
Мы данные собрали, но не продвинулись дальше пока, к сожалению.

Спасибо, интересно.

А какие open source AI проекты стоит попробовать, чтобы поиграться с синтезом и распознаванием речи? Заработает ли это на Neural Compute Stick? (можно попробовать например робота говорящего сделать :)

Насчет проектов могу посоветовать наш — https://github.com/snakers4/silero-models


Насчет Neural Compute Stick — весьма маловероятно как мне кажется. Когда в прошлый раз узнавал что-то про эти дивайсы, там все еще все было плохо. Грубо говоря работали сетки от производителя дивайсов. Сейчас может конечно что-то поменялось.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.