miércoles, 1 de mayo de 2013

Descargar Webs completas, para verlas offline

De mis tiempos de windowsero, recordaba una utilidad del Adobe Acrobat (el 'full', no el 'Reader', o sea el había que piratear...) que te permitía descargar una página web en formato PDF, donde solo tenías que definir el número de niveles de enlaces que querías que te tomase, y era muy cómodo, para guardarlo y poder verla sin necesidad de estar conectado a Internet.
En Linux no he encontrado nada igual (hombre, hay cositas, como el paquete wkhtmltopdf, que está en los repositorios, alguna extensión de Firefox, e incluso alguna web que te permite la conversión 'online', etc), pero son muy limitadas y solo te descargan un primer nivel de enlaces, no la web completa.

Incluso debo decir que la utilidad de Adobe Acrobat, que si que lo hace, tiene sus limitaciones cuando las webs tienen marcos (como descubrí, por ejemplo, al querer guardar en PDF este blog) y esas web no las deja nada bien.
Pero un día descubrí una aplicación, que está en los repositorios, y que se llama WEBHTTRACK

WebHTTrack Website Copier es utilidad gratuita de código abierto y multiplataforma, de la familia de los 'sniffers', que analiza la web que le indiquemos, una parte de ella, o varias, y una vez recopilada toda la información empezará a descargar a nuestro ordenador los directorios, páginas HTML, imágenes, hojas de estilo o cualquier archivo (incluidos videos) que esté dentro de la página.
Hombre, tarda un poquito, y no te descarga todo en un solo archivo, sino en múltiples carpetas, pero al final te queda perfecto.
Se instala, simplemente, con
sudo aptitude install webhttrack
y te aparece en Menu-Internet- WebHTTrack Website Copier.
Su uso es relativamente sencillo. Y digo esto porque parece ser que tiene muchas posibilidades, pero yo solo me he limitado a conocer cómo funciona para lo que quiero. O sea, para descargarme webs completas y poderlas consultarlas sin estar conectado a internet. 
Vamos a verlo:
  • Lo primero, arrancas la aplicación y se te abre un navegador offline, donde te da la bienvenida y te pregunta por tus Preferencias de idioma. Elijes español (castellano), y Siguiente
  • Ahora te pide que definas si quieres ir a otro proyecto ya abierto (para actualizarlo) o vas a crear uno nuevo. Y le pones un nombre y si te apetece, le asignas una categoría (esto es optativo, solo sirve para poder agrupar las webs descargadas (si prevés muchas) por familias: por ejemplo, cursos, blogs, webs oficiales...) Y la ruta donde se te guardará. Por defecto, te crea la carpeta en /home/[usuario]/websites, pero puedes definir otra. Y Siguiente.
  • Aquí defines lo que quieres hacer, y haces un copia-pega de la web que quieres descargar.Y pinchas, si quieres, en 'Definir opciones'.  

  • Para las 'Opciones', te aparece otra pantalla, con muchas posibilidades: Enlaces, Identidad, Estructura, Filtros... En realidad lo puedes dejar todo 'por defecto' o, si acaso, vete a la de Límites donde, en 'Profundidad Máxima', puedes definir el número de niveles de enlaces que quieres que te tome (eso de que puede haber un enlace, que te lleva a otro, y en éste haber otro enlace...). Si quieres puedes dejarlo 'por defecto' y creo que te toma los que necesite (a mi eso me coincide con poner '3' (niveles de profundidad) en mi Blog

Y ya está: le das a 'YA'... y empieza el proceso. Como he dicho, tarda bastante, a mi, mi blog, me lo descargó en unos 35 minutos.
Y cuando acabe, verás que en la carpeta /home/[usuario]/website (o la que hayas elegido) verás que te aparece una carpeta con el nombre de tu proyecto (y dentro están todas las carpetas descargadas de la web) y un archivo general 'index.html' (y otros dos archivillos *.gif que puedes borrar) con el que se arranca el Navegador, y te sale un pantallazo como este: 
(a partir de aquí, por supuesto, entras en la web que elijas y navegas por ella. No tienes más que arrancar HTTrack, descargarte una web, desconectarte de internet... y probarlo).

Sencillo ¿no?

No hay comentarios:

Publicar un comentario