Apache Lucene - Apache Lucene
Desarrollador (es) | Fundación de software Apache |
---|---|
Versión inicial | 1999 |
Lanzamiento estable | 8.10.1 / 18 de octubre de 2021
|
Repositorio | |
Escrito en | Java |
Sistema operativo | Multiplataforma |
Escribe | Búsqueda e índice |
Licencia | Licencia Apache 2.0 |
Sitio web | Lucene |
Apache Lucene es una biblioteca de software de motor de búsqueda de código abierto y gratuita , escrita originalmente en Java por Doug Cutting . Es compatible con Apache Software Foundation y se publica bajo la licencia de software Apache . Lucene se utiliza ampliamente como base estándar para aplicaciones de búsqueda que no son de investigación.
Lucene se ha adaptado a otros lenguajes de programación, incluidos Object Pascal , Perl , C # , C ++ , Python , Ruby y PHP .
Historia
Doug Cutting escribió originalmente Lucene en 1999. Lucene fue su quinto motor de búsqueda, habiendo escrito anteriormente dos en Xerox PARC, uno en Apple y un cuarto en Excite. Inicialmente estaba disponible para descargar desde su hogar en el sitio web de SourceForge . Se unió a la familia Jakarta de productos Java de código abierto de la Apache Software Foundation en septiembre de 2001 y se convirtió en su propio proyecto Apache de alto nivel en febrero de 2005. El nombre Lucene es el segundo nombre de la esposa de Doug Cutting y el nombre de pila de su abuela materna.
Lucene anteriormente incluía varios subproyectos, como Lucene.NET, Mahout , Tika y Nutch . Estos tres son ahora proyectos independientes de alto nivel.
En marzo de 2010, el servidor de búsqueda Apache Solr se unió como un subproyecto Lucene, fusionando las comunidades de desarrolladores.
La versión 4.0 fue lanzada el 12 de octubre de 2012.
En marzo de 2021, Lucene cambió su logotipo y Apache Solr se convirtió nuevamente en un proyecto de Apache de alto nivel, independiente de Lucene.
Características y uso común
Si bien es adecuado para cualquier aplicación que requiera la capacidad de indexación y búsqueda de texto completo , Lucene es reconocida por su utilidad en la implementación de motores de búsqueda de Internet y búsqueda local en un solo sitio.
Lucene incluye una función para realizar una búsqueda aproximada basada en la distancia de edición .
Lucene también se ha utilizado para implementar sistemas de recomendación. Por ejemplo, la clase 'MoreLikeThis' de Lucene puede generar recomendaciones para documentos similares. En una comparación del término enfoque de similitud basada en vectores de 'MoreLikeThis' con medidas de similitud de documentos basadas en citas, como el análisis de proximidad de co-citas y co-citas, el enfoque de Lucene se destacó en la recomendación de documentos con características estructurales muy similares y una relación más estrecha. . Por el contrario, las medidas de similitud de documentos basadas en citas tienden a ser más adecuadas para recomendar documentos más ampliamente relacionados, lo que significa que los enfoques basados en citas pueden ser más adecuados para generar recomendaciones fortuitas , siempre que los documentos que se recomendarán contienen citas en el texto.
Proyectos basados en Lucene
Lucene en sí es solo una biblioteca de indexación y búsqueda y no contiene funciones de rastreo y análisis de HTML . Sin embargo, varios proyectos amplían la capacidad de Lucene:
- Apache Nutch : proporciona rastreo web y análisis de HTML
- Apache Solr : un servidor de búsqueda empresarial
- Brújula : el predecesor de Elasticsearch
- CrateDB : base de datos SQL distribuida de código abierto construida sobre Lucene
- DocFetcher : una aplicación de búsqueda de escritorio multiplataforma
- Elasticsearch : un servidor de búsqueda empresarial lanzado en 2010
- Kinosearch: un motor de búsqueda escrito en Perl y C y un puerto suelto de Lucene. El software wiki de Socialtext utiliza este motor de búsqueda, al igual que el wiki de MojoMojo . También es utilizado por la base de datos del metaboloma humano (HMDB) y la base de datos de toxinas y toxinas -objetivo (T3DB).
- MongoDB Atlas Search: una aplicación de búsqueda empresarial nativa de la nube basada en MongoDB y Apache Lucene
- OpenSearch : un servidor de búsqueda empresarial de código abierto basado en una bifurcación de Elasticsearch 7
- Swiftype : una startup de búsqueda empresarial basada en Lucene
Ver también
- Búsqueda empresarial
- Extracción de información
- Lista de bibliotecas de recuperación de información
- Extracción de textos
Referencias
Bibliografía
- Gospodnetic, Otis; Erik Hatcher; Michael McCandless (28 de junio de 2009). Lucene en acción (2ª ed.). Publicaciones Manning . ISBN 978-1-9339-8817-7.
- Gospodnetic, Otis; Erik Hatcher (1 de diciembre de 2004). Lucene en acción (1ª ed.). Publicaciones Manning . ISBN 978-1-9323-9428-3.