HTMLDoc permite reunir documentos HTML estructurados y crear a partir de ellos documentos ó “libros” en formato PDF los cuáles incluyen automáticamente índices, bookmarks, capitulos y subcapítulos.
En algunas ocasiones tenemos un documento extenso en formato HTML, ya sea un manual, un libro, un material escolar o didáctico; este documento puede estar en un sólo archivo HTML o dividido en varios, como por ejemplo, un archivo por capítulo, en el caso de un libro. El siguiente paso en el proceso de publicación sería convertir estos archivos HTML a un archivo PDF, que incluyera encabezados de capítulo, índices y bookmarks en base a la estructura del documento.
Una forma de lograr esto es por medio de una cadena de procesos con herramientas SGML para convertir a Latex y posteriormente convertir a PDF, utilizando hojas de estilo DSSSL. Uhmm, un poco complicado. Una solución fácil, rápida y muy sencilla de utilizar es la herramienta HTMLDoc, la cual convierte los archivos HTML a PDF y otros formatos.
Características
- Convierte varios archivos HTML estructurados en un PDF, PS y HTML
- Puede numerar los capítulos en base a varios formatos configurables.
- Puede insertar imágenes BMP,GIF,JPEG y PNG.
- Puede insertar ligas tanto internas (ANCHORS) como externas (URLS)
- Puede leer la información META como attributos del PDF
- Acepta tablas HTML
- También es posible realizar conversiones desde la línea de comando para convertir HTML en procesos batch y como CGIs en servidores WEB
- y mas….
Elementos de HTML soportados
Los documentos HTML deben contar con una estructura definida por las etiquetas de HEADER, por ejemplo :
<h1> Titulo del capitulo</h1> <h2>Titulo del Subcapitulo 1</h2> etc...
HTMLDoc a partir de las etiquetas de estructura, creará encabezados de capitulo y subcapitulo, creará un índice, y de acuerdo a ciertos códigos de HTML en forma de comentario, puede incluir encabezados, pies de página, saltos de página, etc…
Es NECESARIO por lo menos una etiqueta de nivel H1.
Algunos códigos HTML soportados para configurar el PDF de salida:
<!-- FOOTER LEFT "foo" --> Asigna el texto izquierdo del pie de página <!-- HALF PAGE --> Inserta un salto de media página <!-- HEADER LEFT "foo" --> Asigna el texto izquierdo del encabezado <!-- PAGE BREAK --> Inserta un salto de página
en el manual se pueden encontrar otros códigos para manipular el PDF de salida.
Uso

Primero se selecciona(n) el (los) archivo(s) HTML de entrada, el logo de la página de portada, y el tipo de archivo de salida, por ejemplo Book.

Configuración de la salida, HTML si se quiere que todo se integre en un sólo HTML con índice, separated HTML si se quiere hacer páginas individuales ligadas, PDF o PS.

Configurar la Tabla de Contenidos, si se quieren numerar los capítulos, los niveles de H1, H2, H3, etc a utilizar.
Oprimir GENERATE y listo!
HTMLDoc permite configurar varios parámetros del PDF de salida, como seguridad password o contraseña, encabezados y pies de página, portadas, orientación, encriptación, etc.
Licencia
El código fuente esta bajo la licencia GPL. El fabricante no provee una versión compilada ejecutable para windows de forma libre, sino bajo una licencia comercial. Pero es posible compilar el código fuente libre uno mismo, y el ejecutable que se obtiene puede ser distribuido.
Referencias
La página del fabricante: http://www.htmldoc.org/ y también http://www.easysw.com/
Página para bajar el código fuente: http://www.htmldoc.org/software.php
Windows Binaries
Los binarios ejecutables en windows se pueden conseguir por medio de Google.
El binario más reciente lo encontré en: http://www.asseca.com/bhcomp/index.html bajar el archivo htmldoc-1.8.25-winfree.zip