martes, 14 de mayo de 2019

XPDF, una herramienta singular

Hoy he descubierto que 'xpdf', que es un simple visor de PDFs, del que ya había hablado aquí, si bien de forma muy marginal, incluso despectiva, oculta en sus 'entretelas' una utilidad muy interesante, que es la de permitir extraer el texto de los archivos PDF y pasarlo a un documento de texto, en formato *.odt, del Libreoffice Writter o también en formatos como *.docx o *.doc…
Y, por tanto, ya en este formato de texto, poder editarlos y corregir o añadir lo que te apetezca… de una manera muy simple, y rápida. Y también permite extraer las imágenes. El paquete ‘xpdf’ está, por supuesto, en los repositorios de Debian y se instala, por tanto, muy fácilmente.
(NOTA: Yo estas cosas de editar textos en PDF las hacía bien abriendo el PDF con el LibreOffice Draw, o bien, para casos más complejos, haciendo un reconocimiento óptico (OCR), a través de, por ejemplo de OCDRFeader del que hablaba hace unos años. O incluso (también lo mencionaba en el enlace que ponía al principio) a través del tesseract-ocr, una buena herramienta para OCR, que se ejecuta desde consola, pero que tiene un front-end gráfico, el gimagereader y de la que quizás, algún día le dedique una entrada, para comentar cómo se instala y cómo funciona, ya que hay que instalar, adicionalmente, algún idioma tesseract.
Incluso, para pequeñas correcciones, había empleado el Xournal (del que hablaba, en ‘segundo método’, en esta entrada. O alguna página web que lo realiza online, y que se pueden encontrar a través de Google). 
Pero, mira por donde, a lo mejor con esta utilidad del xpdf... resulta más sencillo.
Así que, como siempre, lo instalamos con... 
sudo aptitude install xpdf
y ya se puede empezar a trabajar con este visor-editor.
Desde luego, lo de usarlo como visor, seleccionando un PDF y haciendo un 'Abrir con... xpdf' no tiene el menor misterio, y es muy rápido. Pero voy a referirme a la mencionada otra gran virtud de esta herramienta.

Crear un documento de texto, desde un PDF, con xpdf
Hombre, seguramente XPDF será poco útil si el PDF a tratar tiene un formato excesivamente complejo (no se, con tablas de contenido, imágenes…). Desde luego, en unas pequeñas pruebas, he visto que no integra las imágenes. Pero, para texto, va muy bien. Así que lo mejor es probar y ver qué es lo que saca.
Porque, como decía al principio, la orden es muy simple: basta abrir una consola en la ruta del archivo.pdf y escribir… 
pdftotext archivo.pdf archivo.odt
y te extrae el texto del PDF y lo pasa al documento de texto que hayamos definido, donde ya podríamos 'manipularlo'.
(en realidad esta herramienta pertenece al paquete, al parecer independiente, 'poppler-utils' y (leo en la web de Debian-Packages... 'Poppler is a PDF rendering library based on Xpdf PDF viewer'. Vomos que, como Xpdf es tan poco amigable, se podría intentar instalar solo el paquete poppler-utils, a ver qué pasa)
(Y, respecto a las imágenes, y de nuevo desde terminal abierta en la ruta del archivo.pdf, podemos extraerlas, y tenerlas una a una, en el formato elegido, y en esa ruta, con la orden 
pdfimages -all archivo.pdf IMG%02d.png
y también de una manera rapidísima).

Pero quiero hacer una precisión final: al reconocer y convertir (‘extraer’) el texto, las líneas suelen quedar ‘mal encajadas’ . Quizás el término correcto sea... 'deslavazadas'. Por poner un ejemplo, así…


bien, pues es muy sencillo de arreglar. Quizás debería abrir otra entrada, como 'truco de LibreOffice', que algunos ya puse, como se ve aquí pero, como es tan simple, entiendo que no merece la pena hacerlo.

Se trata, en el fondo, de ajustar los saltos de línea, por medio de la 'Corrección automática'.
Y se hace así: 
En primer lugar, dos cuestiones previas: una, que este truco de 'corrección automática', del que voy a hablar ahora, solo funciona sobre textos formateados en Estilo de Párrafo... 'Estilo predeterminado' (por lo que, lo que salga, habrá que empezar poniéndolo asi)
Y otra que debe de estar marcada la casilla donde pone 'Combinar los párrafos de un solo renglón si la longitud supera el 50%' que se ve, en LibreOffice Writter, en Herramientas-Corrección automática-Opciones de corrección automática, pestaña 'Opciones' (es la última casilla)
(Esto último suele quedar así por defecto, pero es bueno comprobarlo... y no cambiar: Por cierto que, si apetece, podemos cambiar ese porcentaje mínimo para la longitud de la línea. Basta hacer doble clic del ratón sobre esa línea y escribiendo el nuevo porcentaje deseado).
Y dicho esto, la cuestión es tan sencilla como... 
1º Seleccionar el texto cuyas líneas queramos ajustar
2º Ir a la barra de Formato... Estilo de texto y ponerlo en 'Estilo Predeterminado'
3º Ir a ir a Herramientas-Corrección automática y elegir 'Aplicar' 
Y ahora ya, lo único que quedaría es personalizar el formato. Por ejemplo, eligiendo, para los párrafos, la Alineación 'Justificada' y eligiendo, asimismo, en Herramientas-Idioma... 'División de palabras', cambiando, si queremos, el tamaño o el tipo de fuente, etc, etc..

Y con esto lo extraido del PDF y convertido en documento de texto, a través este pequeña y simple herramienta, el visor XPDF, nos queda... 'planchao'

No hay comentarios:

Publicar un comentario