lunes, 18 de octubre de 2021

Utilidades TTS (Text To Speech)

O sea, en cristiano, Texto a Voz. Este fin de semana he estado investigando un poco sobre las ‘aplicaciones, o utilidades, TTA’, en Linux. Vamos, no es que me preocupe excesivamente eso de que el ordenador me lea directamente un texto escrito, pero tenía curiosidad por ver cómo estaba ‘el estado del Arte’ es este tema. Y me he llevado una gran desilusión. Porque lo que descubro (bueno, en una primera impresión, de vistazo de ‘neófito’) es que el nivel, en Linux, en esto de las herramientas TTS, está muchísimo más bajo que en Windows, en iOs (Apple) y en Android.
He aquí un pequeño resumen de mis indagaciones...

A ver, por empezar centrando ideas, y por ejemplo, parece ser que Microsoft tiene una utilidad, en su Ms Office, que permite leer en voz alta los textos que escribes en su Ms Word. Creo que el iOs, tambien lo tiene. Pero en cambio, leo en la web de LibreOffice (que se puede decir que es la suite standard de Linux), que no existe esa posibilidad. Vamos, que no lo han desarrollado.

Y en otro gran bloque de presentación de textos, los PDFs, y los libros electrónicos (eBooks), veo que en Android (y en iOs) hay muchos lectores de eBooks que tiene incorporada esa función de reproducir, en audio, lo escrito. Por ejemplo, Google Play Books, Voice Dream Reader, eReader Prestigio, TTS Reader, Moon+ Reader, Voice Aloud Reader, etc, etc.… pero los que conozco, o he usado, en Linux (que por cierto hay bastante menos), como Foliate, FBReader, o eBooks editor (que instala Calibre)… tampoco tienen esa posibilidad,
En Windows, además, incluso podemos escuchar los textos de PDFs, u otros formatos, con programas como el Adobe Acrobat, el Natural Reader, el Capti Voice, el Dspeech, etc.

Bueno pero entonces… ¿Acaso no hay ningún programa/aplicación, en Linux, donde puedas introducir (o abrir, o copiar) un texto, y convertirlo a audio…?
Y vuelvo a lo mismo: en Windows hay varios, incluso leo que algunos son bastante buenos como para poder crear ‘audiolibros’ con ellos (como no tengo Windows, no los he probado). Por poner algunos nombres (que encuentro buscando con Google)… AudioBook Maker, AVS Audio Converter, Dspeech, ClassleSoft, Balabolka…
Y ahora, pasando a Linux... solo encuentro el eSpeak, que es una vieja herramienta para utilizar ‘por consola’… Aunque, a partir de ella, se han desarrollado al menos un par de GUI (Graphics User Interface).
Una, con bibliotecas Gtk, se llama Gespeaker, pero resulta que ya está descatalogada en Debian 11.
Y la otra, más moderna, hecha con bibliotecas Qt, se llama Espeak-QtGui. Es muy simple (está creada con Python), y ni necesita instalación, basta ‘hacer correr’ el script *.py pertinente.
Así que me puse a probarlo.
Para eso hay que tener el archivo, comprimido en tar.gz, llamado ‘espeak-QtGui’, que se puede descargar, por ejemplo, de aquí…
https://www.appimagehub.com/p/1354602
y cuyos contenidos debemos extraer. A mi me creó la carpeta Espeak-QtGui-1.0, y dentro de ella se encuentra el script ‘espeak-qtgui.py’ que, ejecutado, nos presenta una razonablemente bonita interfaz de usuario.
Pero alto, no hagamos nada todavia. Porque antes de nada debemos instalar en nuestro Debian dos pequeños paquetes, que necesita para poder funcionar, y que están en los repositorios oficiales. Así que, sin más…
sudo apt install espeak espeak-ng
Y ahora, ya, si abrimos el GUI con el script indicado (tras darle permisos de ejecución, doble clic en el archivo ‘espeak-qtgui.py’ y pinchar en ‘Ejecutar en un terminal’) te aparece esto de aquí abajo… que lo configuraremos a nuestro gusto.


Entonces, si pegamos un texto (o lo incorporamos desde un archivo *.txt) podemos ver lo que pasa al pinchar en ‘Play’.
Y lo que pasa es que leer… lee, pero con una voz tan horrible que mira, nos puede servir para jugar a ver cómo leería un texto en español, o en otro idioma... un robot chino.

Así que llegué a esta conclusión: que para hacer esto, vale más pegar el texto, directamente, en alguna web de lectura de textos, que las hay… pero que, mucho más sencillamente, existen utilidades 'de terceros' que tienen más trabajado el tema de la voz (leen con una voz mucha mas humana…) como es el Traductor de Google, que siempre tengo a mano en mi Firefox o, también, el traductor online ‘Crow Translate’, que yo utilizo bastante, y me encanta, del que hablaba aquí y que tiene (abajo) un botón (verde) para convertir a voz el texto (en el reproductor de Google o, si puede, en otro)
(Por cierto, hace tiempo descubrí otro, que se llama Translatium (ya va por la versión 19.4) que también tiene esa opción de permitir escuchar el texto, y su traducción, y que incluso se encuentra como aplicación AppImage, por lo que no es necesario instalar nada… pero prefiero (me resulta mucho más cómodo) el Crow Translate).

Bueno, pues hasta aquí mi ‘reporte’ sobre lo que veo que hay respecto al TTA (‘texto a voz’). Y la conclusión que saco es que este tema es todavía una asignatura pendiente, en Linux. Como, lo dije en su día, me pareció que lo era, en Linux, eso de las aplicaciones de Reconocimiento de Caracteres, u OCR.

Pero claro, en el tema de hoy solo son ideas ‘a vuelapluma’, de fin de semana, así que si algún lector de este Blog conoce algo mejor, para Debian (o, en general, para Linux), sobre TTS, le agradecería mucho que nos lo contase, en el apartado de ‘Comentarios’
Y dicho esto, por mi parte… The End.

Nota final: acabo de leer algo sobre otra utilidad TTS, que se llama Festival... y que también está en los repositorios de Debian. La instalé pero caramba... es muy viejuna, complicadilla de entender... y funciona todo con mandatos por consola. Vaya lío... 

 

No hay comentarios:

Publicar un comentario