Si requiere realizar búsquedas en archivos texto, html, pdf, xml y MS-Office© , Swish-e es una máquina de búsqueda “search-engine” que puede implementar fácilmente en su Intranet o portal corporativo.
Swish-e ( Simple Web Indexing System for Humans – Enhanced ), es una máquina de búsqueda ó “search engine” que puede indexar rápida y fácilmente directorios y archivos en diferentes formatos y realizar búsquedas sobre los índices generados.
A partir de las instrucciones de un sencillo archivo de configuración, swish-e recorre los directorios y archivos, y genera un índice que puede ser utilizado en cualquier plataforma soportada. A partir del índice, se pueden realizar búsquedas desde la línea de comandos, a través de una librería C y también por medio de una interface web implementada en un script de Perl.
Los formatos nativos soportados por swish-e son archivos tipo texto, como html, xml. Por medio de filtros (incluidos) se pueden indexar archivos PDF, gzip, y PostScript. Además, se pueden utilizar otros filtros externos como GNOME™ libxml2 parser para leer archivos de MS-Office©.
También puede ser utilizado como una alternativa a búsquedas de texto completo implementadas con bases de datos como MySQL.
Algunas características
- Indexar rápidamente una gran variedad de formatos de archivos, utilizando filtros.
- Incluye un web-spider para indexar archivos remotos vía HTTP. Compatible con el archivo robots.txt.
- Puede utilizar programas externos para leer la información de entrada, como por ejemplo, aplicaciones que realizan consultas en bases de datos.
- Soporta campos o propiedades en los documentos, por ejemplo, etiquetas META, o elementos XML. Esots pueden ser indexados y búscados.
- Los resultados de las búsquedas pueden regresar un resúmen o descripción del documento.
- Búsquedas inteligentes por medio de soundex, metaphone
- Búsqueda por frases, oraciones y comodines
- Búsquedas en ligas HTML
- Soporta expresiones regulares para seleccionar los archivos a indexar.
- Los resultados pueden ser ordenados por relevancia, por algún campo o propieadad, en orden ascendente o descendente
- Limitar la búsqueda a sólo ciertas etiquetas HTML (Meta, Title, comentarios, etc), elementos XML o campos.
- El archivo indice puede ser utilizado en varias plataformas
- Cuenta con una librería para integrar capacidad de búsqueda en aplicaciones, así como un modulo Perl para accesar a la librería por medio de un API
- Open Source y Gratis!
Mi experiencia
En mi experiencia, he instalado swish-e en un servidor Windows 2000, indexando más de 20 años de una publicación del gobierno, abarcando un par de gigas por año en archivos HTML con campos, indices independientes para seleccionar año de búsqueda, y el resultado es bastante satisfactorio. El único inconveniente que he encontrado es que (hasta la versión que yo tengo instalada) no tiene soporte de indexación incremental, es decir, un nuevo documento requiere la creación del índice completo, aunque se pueden mantener N número de indices independientes para reducir este problema y sólo reindexar el índice actual, y no los históricos. Esto fué solucionado en la última versión, pero no la he probado.
Referencias
- Swish-e Simple Web Indexing System for Humans – Enhanced
- Simple Web Indexing System for Humans: C++ version. Versión totalmente re-escrita en C++