Apache Nutch - Apache Nutch

Apache Nutch
Apache Nutch logo.svg
Captura de pantalla
NutchScreenshot.png
Búsqueda de interfaz web de Nutch
Autor (es) original (es) Doug Cutting , Mike Cafarella
Desarrollador (es) Fundación de software Apache
Lanzamiento estable
1.x 1,18 / 24 de enero de 2021 ; Hace 2 meses  ( 24/01/2021 )
2.x 2.4 / 2 de octubre de 2019 ; Hace 18 meses  ( 02/10/2019 )
Repositorio Repositorio de Nutch
Escrito en Java
Sistema operativo Multiplataforma
Tipo Rastreador web
Licencia Licencia Apache 2.0
Sitio web nutch .apache .org

Apache Nutch es un proyecto de software de rastreo web de código abierto altamente extensible y escalable .

Características

Mascota robot Nutch

Nutch está codificado completamente en el lenguaje de programación Java , pero los datos se escriben en formatos independientes del lenguaje. Tiene una arquitectura altamente modular, lo que permite a los desarrolladores crear complementos para análisis de tipo de medios, recuperación de datos, consultas y agrupamiento.

El buscador ("robot" o " rastreador web ") se ha escrito desde cero específicamente para este proyecto.

Historia

Nutch se originó con Doug Cutting , creador de Lucene y Hadoop , y Mike Cafarella .

En junio de 2003, se desarrolló un exitoso sistema de demostración de 100 millones de páginas. Para satisfacer las necesidades de procesamiento de múltiples máquinas de las tareas de rastreo e indexación, el proyecto Nutch también ha implementado una función MapReduce y un sistema de archivos distribuido . Las dos instalaciones se han convertido en su propio subproyecto, llamado Hadoop .

En enero de 2005, Nutch se incorporó a la Incubadora Apache , de la que se graduó para convertirse en un subproyecto de Lucene en junio de ese mismo año. Desde abril de 2010, Nutch ha sido considerado un proyecto independiente de alto nivel de la Apache Software Foundation .

En febrero de 2014, el proyecto Common Crawl adoptó Nutch para su rastreo web abierto a gran escala.

Si bien alguna vez fue un objetivo del proyecto Nutch lanzar un motor de búsqueda web global a gran escala, ese ya no es el caso.

Historial de versiones

1.x

Rama

2.x

Rama

Fecha de lanzamiento Descripción
1.1 2010-06-06 Esta versión incluye varias actualizaciones importantes de las bibliotecas existentes (Hadoop, Solr, Tika, etc.) de las que depende Nutch. También se han incluido varias correcciones de errores y aceleraciones (por ejemplo, a Fetcher2).
1.2 2010-10-24 Esta versión incluye varias mejoras (adición de parse-html como un analizador seleccionable nuevamente, indexación por campo configurable), nuevas características (incluida la adición de información de tiempo a todas las clases de herramientas y la implementación de tiempos de espera del analizador) y correcciones de errores (arreglando un NPE en búsqueda distribuida, solución de problemas de formato XML por campos de documento).
1.3 2011-06-07 Esta versión incluye varias mejoras (compatibilidad mejorada con el análisis de RSS, integración más estrecha con Apache Tika, compatibilidad con el análisis externo, identificación mejorada del idioma y un tarball de liberación de origen en un orden de magnitud más pequeño, solo alrededor de 2 MB).
1.4 2011-11-26 Esta versión incluye varias mejoras que incluyen permitir que los analizadores declaren soporte para múltiples tipos de MIME, profundidad de cola de búsqueda configurable, mejoras de velocidad de búsqueda, integración Tika más estricta y soporte para autenticación HTTP en la indexación de Solr.
1,5 2012-06-07 Esta versión incluye varias mejoras, incluidas actualizaciones de varios componentes importantes, incluidos Tika 1.1 y Hadoop 1.0.0, mejoras en los elementos LinkRank y WebGraph, así como una serie de nuevos complementos que cubren listas negras, filtrado y análisis, por nombrar algunos.
2.0 2012-07-07 Esta versión ofrece a los usuarios una edición centrada en el rastreo a gran escala que se basa en la abstracción del almacenamiento (a través de Apache Gora) para grandes almacenes de datos como Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, un almacén de datos en memoria y varios almacenes SQL de perfil.
1.5.1 2012-07-10 Esta versión es una versión de mantenimiento de la popular versión principal 1.5.X de Nutch que ha sido ampliamente adoptada dentro de la comunidad.
2.1 2012-10-05 Esta versión continúa brindando a los usuarios de Nutch una distribución de Nutch simplificada basada en la unidad de desarrollo 2.x, que está creciendo en popularidad entre la comunidad. Además de abordar ~ 20 errores, esta versión también ofrece propiedades mejoradas para una mejor configuración de Solr, actualizaciones a varias dependencias de Gora y la introducción de la opción para crear índices en la búsqueda elástica.
1,6 2012-12-06 Esta versión incluye más de 20 correcciones de errores, lo mismo en mejoras, así como nuevas funcionalidades que incluyen un nuevo HostNormalizer, la capacidad de configurar dinámicamente fetchInterval por tipo MIME y mejoras funcionales en la API Indexer, incluida la normalización de URL y la eliminación de robots. Documentos noIndex. Otras mejoras notables incluyen la actualización de dependencias clave a Tika 1.2 y Automaton 1.11-8.
2.2 2013-06-08 Esta versión incluye más de 30 correcciones de errores y más de 25 mejoras que representan la tercera versión de la cada vez más popular serie 2.x Nutch. Esta versión incluye la inclusión de Crawler-Commons que Nutch ahora utiliza para mejorar el análisis de robots.txt, actualizaciones de la biblioteca a Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 y Automaton 1.11-8.
1,7 2013-06-24 Esta versión incluye más de 20 correcciones de errores, así como muchas mejoras; más notablemente presenta una nueva arquitectura de indexación conectable que actualmente es compatible con Apache Solr y Elastic Search. Siguiendo la versión reciente de Nutch 2.2, el análisis de Robots.txt ahora se delega a Crawler-Commons. Se han realizado actualizaciones de la biblioteca de claves a Apache Hadoop 1.2.0 y Apache Tika 1.3.
2.2.1 2013-07-02 Esta versión incluye actualizaciones de la biblioteca a Apache Hadoop 1.2.0 y Apache Tika 1.3, es predominantemente una corrección de errores para NUTCH-1591 - Conversión incorrecta de ByteBuffer a String.
1.8 2014-03-17 Aunque esta versión incluye actualizaciones de la biblioteca a Crawler Commons 0.3 y Apache Tika 1.5, también proporciona más de 30 correcciones de errores y 18 mejoras.
2.3 2015-01-22 La versión 2.3 de Nutch ahora viene empaquetada con una aplicación web autónoma basada en Apache Wicket. El backend de SQL para Gora ha quedado obsoleto.
1,10 2015-05-06 Esta versión incluye actualizaciones de la biblioteca a Tika 1.6, también proporciona más de 46 correcciones de errores, así como 37 mejoras y 12 nuevas funciones.
1,11 2015-12-07 Esta versión incluye actualizaciones de la biblioteca a Hadoop 2.X, Tika 1.11, también proporciona más de 32 correcciones de errores, así como 35 mejoras y 14 nuevas funciones.
2.3.1 2016-01-21 Esta versión de corrección de errores contiene alrededor de 40 problemas solucionados.
1.12 2016-06-18
1,13 2017-04-02
1,14 2017-12-23
1,15 2018-08-09
1,16 2019-10-11
2.4 2019-10-11 Se espera que sea la última versión de la serie 2.X.
1,17 2020-07-02
1,18 2021-01-24

Escalabilidad

IBM Research estudió el rendimiento de Nutch / Lucene como parte de su proyecto Commercial Scale Out (CSO). Sus hallazgos fueron que un sistema de escalamiento horizontal, como Nutch / Lucene, podría lograr un nivel de rendimiento en un grupo de blades que no se podía lograr en ninguna computadora escalable como el POWER5 .

El conjunto de datos ClueWeb09 (utilizado en, por ejemplo, TREC ) se recopiló utilizando Nutch, con una velocidad promedio de 755,31 documentos por segundo.

Proyectos relacionados

  • Hadoop : marco de trabajo Java que admite aplicaciones distribuidas que se ejecutan en grandes clústeres.

Motores de búsqueda construidos con Nutch

Ver también

Referencias

Bibliografía

enlaces externos