Webindex

Octubre 12, 2006

Como convertir HTML estructurado a un libro PDF utilizando HTMLDoc

Archivado en: Uncategorized — gespinos @ 6:57 pm

HTMLDoc permite reunir documentos HTML estructurados y crear a partir de ellos documentos ó “libros” en formato PDF los cuáles incluyen automáticamente índices, bookmarks, capitulos y subcapítulos.

En algunas ocasiones tenemos un documento extenso en formato HTML, ya sea un manual, un libro, un material escolar o didáctico; este documento puede estar en un sólo archivo HTML o dividido en varios, como por ejemplo, un archivo por capítulo, en el caso de un libro. El siguiente paso en el proceso de publicación sería convertir estos archivos HTML a un archivo PDF, que incluyera encabezados de capítulo, índices y bookmarks en base a la estructura del documento.

Una forma de lograr esto es por medio de una cadena de procesos con herramientas SGML para convertir a Latex y posteriormente convertir a PDF, utilizando hojas de estilo DSSSL. Uhmm, un poco complicado. Una solución fácil, rápida y muy sencilla de utilizar es la herramienta HTMLDoc, la cual convierte los archivos HTML a PDF y otros formatos.

Características

  • Convierte varios archivos HTML estructurados en un PDF, PS y HTML
  • Puede numerar los capítulos en base a varios formatos configurables.
  • Puede insertar imágenes BMP,GIF,JPEG y PNG.
  • Puede insertar ligas tanto internas (ANCHORS) como externas (URLS)
  • Puede leer la información META como attributos del PDF
  • Acepta tablas HTML
  • También es posible realizar conversiones desde la línea de comando para convertir HTML en procesos batch y como CGIs en servidores WEB
  • y mas….

Elementos de HTML soportados

Los documentos HTML deben contar con una estructura definida por las etiquetas de HEADER, por ejemplo :

<h1> Titulo del capitulo</h1>
<h2>Titulo del Subcapitulo 1</h2>
etc...

HTMLDoc a partir de las etiquetas de estructura, creará encabezados de capitulo y subcapitulo, creará un índice, y de acuerdo a ciertos códigos de HTML en forma de comentario, puede incluir encabezados, pies de página, saltos de página, etc…

Es NECESARIO por lo menos una etiqueta de nivel H1.

Algunos códigos HTML soportados para configurar el PDF de salida:

<!-- FOOTER LEFT "foo" -->
Asigna el texto izquierdo del pie de página
<!-- HALF PAGE -->
Inserta un salto de media página
<!-- HEADER LEFT "foo" -->
Asigna el texto izquierdo del encabezado
<!-- PAGE BREAK -->
Inserta un salto de página

en el manual se pueden encontrar otros códigos para manipular el PDF de salida.

Uso

Archivos de Entrada
Primero se selecciona(n) el (los) archivo(s) HTML de entrada, el logo de la página de portada, y el tipo de archivo de salida, por ejemplo Book.

Opciones de Salida
Configuración de la salida, HTML si se quiere que todo se integre en un sólo HTML con índice, separated HTML si se quiere hacer páginas individuales ligadas, PDF o PS.

Configurar la tabla de contenido
Configurar la Tabla de Contenidos, si se quieren numerar los capítulos, los niveles de H1, H2, H3, etc a utilizar.

Oprimir GENERATE y listo!

HTMLDoc permite configurar varios parámetros del PDF de salida, como seguridad password o contraseña, encabezados y pies de página, portadas, orientación, encriptación, etc.

Licencia

El código fuente esta bajo la licencia GPL. El fabricante no provee una versión compilada ejecutable para windows de forma libre, sino bajo una licencia comercial. Pero es posible compilar el código fuente libre uno mismo, y el ejecutable que se obtiene puede ser distribuido.

Referencias

La página del fabricante: http://www.htmldoc.org/ y también http://www.easysw.com/

Página para bajar el código fuente: http://www.htmldoc.org/software.php

Windows Binaries

Los binarios ejecutables en windows se pueden conseguir por medio de Google.

El binario más reciente lo encontré en: http://www.asseca.com/bhcomp/index.html bajar el archivo htmldoc-1.8.25-winfree.zip

Sin Comentarios »

Aún no hay comentarios.

Suscripción RSS a los comentarios de esta entrada. TrackBack URL

Dejar un comentario

Gestionado con WordPress. Traducción de TodoWordPress.