Sintetizar voces naturales artificialmente

VoiceOverMaker: online Text-to-Speech can convert text to a naturally spoken language with more than 180 voices in more than 30 languages and language variants. Use groundbreaking speech synthesis research (WaveNet) to produce first-class audio. The easy-to-use editor allows you to create and edit high-quality voice over video or create audio files in MP3 or WAV format.

Como es mi costumbre, me gusta darles algunas pistas para los que les interese la animación o la programación de juegos. En esta ocasión haré unos comentarios sobre la generación de voces electrónicamente. Este es un tema típico con mis clientes; probablemente por la falta de voces que hasta ahora a caracterizado mis juegos y videos. Si recuerdan “Carros chocones-2019” (https://juegosenlazaruscr.itch.io/bumpcars-2019) , utilicé una voz robótica; creo que es divertida para un juego; pero les recomiendo evitarlas en lo posible. Especialmente si consideramos que existen mejores alternativas.


Mi próximo video musical para la competencia en https://itch.io/jam/animated-music-video-2021 , aparte de la canción de nuestra querida FEY, podría requerir algunas voces adicionales. Es una alternativa del argumento planeado; aunque no sería muy complicado prescindir de ellas. Estuve investigando por posibles opciones para generar voces artificialmente. Probablemente resulte más simple que pedirle al lector de este blog que me ayude gratis.


Aunque mi próximo video será gratis prefiero asegurarme de tener derechos comerciales, ante cualquier eventualidad que se presente, esta restricción no represente un problema.


En el siguiente enlace encontrarás una alternativa online: VoiceOverMaker Si navegas por la red encontrarás varios sitios, pero tienen la mala costumbre de cobrarte mensualidades, o de lo contrario no puedes generar dinero con tus grabaciones y juegos. Todavía no he probado su software pero, lo que más me atrajo de su servicio es la posibilidad de utilizar sus servicios gratis para productos comerciales, o en caso que no sean suficientes puedes pagar únicamente por lo que necesitas. En estos tiempos, parece que muchos grupos de programadores se han lanzado a la cacería de mensualidades; lo que puede resultar algo molesto para la mayoría probablemente.


La cantidad de caracteres gratuitas es de 1200 mensuales. Muy poco, la verdad. Aunque para un programador de juegos seguramente resultará suficiente; pues los juegos típicos no requieren mucho diálogo en la actualidad.


La inscripción es bastante sencilla, la típica confirmación de correo electrónico con una clave; no necesitas información de tarjetas mientras no compres nada.

Al ingresar encontré una oferta exclusiva (solo para mi) de 100000 caracteres por 9 euros. Siendo (solo para mi) pues no les puede asegurar igual trato.
Los paquetes pagados permanentes en euros:
7 euros por 30000 caracteres.
12 euros por 80000 caracteres.
28 euros por 300000 caracteres.


Entre las características que me parecieron más importantes:


A. Puedes utilizar la voz en productos comerciales.


B. Unas 180 voces con 30 idiomas (español e inglés incluidos).


C. Puedes editar un video sin “subirlo” al sitio,
no necesitas salir de tu computadora, basta con leerlo en el navegador. El sitio ofrece combinar el video con voz, o puedes hacerlo tu mismo mediante descarga de solo el sonido.

D. El editor permite varios efectos y modificaciones, con cambios por “palabra”.
Puedes agregar susurros, silencios y respiros.


E. El programa tiene traductor automático a múltiples idiomas.

F. Captura de video de pantalla desde el navegador.


G. El editor permite incluir música con control SSML.


H. Puedes utilizar SSML para marcar algunos contenidos especiales como pausas, o datos
especiales. Puedes agregar una pausa así: . Merece especial mención la marca SSML , que permite ajustar el level como: strong, moderate, node y reduced. Además de la velocidad, el tono y el volumen de la voz.

I. Los programadores podrán utilizar una API para convertir texto en sus sitios WEB o programas.

Probablemente no necesitarás tantos lenguajes, pero esta es la lista actual:

Arabic (ar-EG), Arabic (ar-SA), Arabic (ar-XA), Catalan (ca-ES), Chinese (zh-CN), Chinese (zh-HK), Chinese (cmn-CN), Chinese (cmn-TW), Chinese (zh-TW), Czech (cs-CZ), Danish (da-DK), Dutch (nl-NL), English (en-AU), English (en-CA), English (en-GB), English (en-IN), English (en-US), Filipino (fil-PH), Finnish (fi-FI), French (fr-CA), French (fr-FR), German (de-DE), Greek (el-GR), Hindi (hi-IN), Hungarian (hu-HU), Indonesian (id-ID), Italian (it-IT), Japanese (ja-JP), Korean (ko-KR), Norwegian (nb-NO), Polish (pl-PL), Portuguese (pt-BR), Portuguese (pt-PT), Russian (ru-RU), Slovak (sk-SK), Spanish (es-ES), Spanish (es-MX), Spanish (es-US), Swedish (sv-SE), Thai (th-TH), Turkish (tr-TR), Ukrainian (uk-UA), Vietnamese (vi-VN)

No he probado todavía la calidad de la traducción automática. Mi experiencia es que los servicios de traducción automática hoy en día, todavía son bastante deficientes. Pese a ello, son de gran ayuda cuando estas dispuesto a tolerar los defectos.

¿Qué opinan de un video para criticar el exceso de cámaras?

Estoy planeando un FanArt con la canción de Fey “La espuma de los días”.

Se me han ocurrido un nutrido grupo de ideas, mi opción preferida en este momento es un video para criticar el exceso de cámaras.

Esta es la idea: La cantante va a ser la muchacha con el traje de batalla. En su estado “normal” va a estar en la cárcel. El video nos explicará que llego a la cárcel por estar robando cámaras de vigilancia.

A mi me parece que calza estupendamente bien con la letra. Además, evita ciertos malos entendidos; que podían ser aprovechada en mala hora, por algunas personas de pensamiento tiránico.

La mayoría cuando me sugiere un tema me pide criticar el irrespeto generalizado a la privacidad. Tengo varios proyectos en mente, pero todas estas ideas son demasiado complejas por ahora y tomarán muchos años antes de ver la luz.

¿Por qué no algo más simple aquí y ahora…?