Ciruela verde - Greenplum

Ciruela verde
Tipo Producto de VMware
Industria Tecnologías de big data
Sede Palo Alto , California
Productos Software del sistema de gestión de bases de datos
Base de datos Greenplum
Desarrollador (es) VMware
Lanzamiento estable
6.7.1 / abril de 2020 ; hace 1 año ( 2020-04 )
Repositorio github .com / greenplum-db / gpdb
Sistema operativo Linux
Tipo Sistema de administración de base de datos
Licencia Licencia Apache 2
Sitio web greenplum .org

Greenplum es una tecnología de big data basada en la arquitectura MPP y la tecnología de base de datos de código abierto de Postgres . La tecnología fue creada por una empresa del mismo nombre con sede en San Mateo , California alrededor de 2005. EMC Corporation adquirió Greenplum en julio de 2010.

A partir de 2012, su software de sistema de gestión de bases de datos se conoció como la base de datos Pivotal Greenplum que se vende a través de Pivotal Software . Pivotal abrió el motor central y continuó su desarrollo por parte de la comunidad de código abierto Greenplum Database y Pivotal.

A partir de 2020, VMware adquirió Pivotal y VMware continuó patrocinando la comunidad de código abierto Greenplum Database y comercializando la tecnología bajo la marca VMware Tanzu Greenplum .

Empresa

Greenplum, la empresa, fue fundada en septiembre de 2003 por Scott Yara y Luke Lonergan. Fue una fusión de dos empresas más pequeñas: Metapa (fundada en agosto de 2000 cerca de Los Ángeles ) y Didera en Fairfax, Virginia .

Los inversores incluyeron SoundView Ventures, Hudson Ventures y Royal Wulff Ventures. Un total de US $ 20 millones de en la financiación fue anunciado en la fusión. Greenplum, con sede en San Mateo, California , lanzó su software de sistema de administración de bases de datos basado en PostgreSQL en abril de 2005 y lo llamó Bizgres. Se invirtieron rondas de capital de riesgo de unos 15 millones de dólares cada una en marzo de 2006 y febrero de 2007.

En julio de 2006 se anunció una asociación con Sun Microsystems . Sun, que también había adquirido MySQL AB , participó en una ronda de inversión de 27 millones de dólares en enero de 2009, liderada por Meritech Capital Partners . El proyecto Bizgres incluyó a algunos otros miembros y fue apoyado hasta aproximadamente 2008, cuando el producto también se llamó "Greenplum". El Sun Fire X4500 era una arquitectura de referencia y usada por la mayoría de los clientes hasta que se hizo una transición a Linux en esa época. Greenplum fue adquirida por EMC Corporation en julio de 2010, convirtiéndose en la base de la división de software de big data de EMC . Aunque EMC no reveló el valor, se estimó en US $ 300 millones . Los productos de Greenplum en el momento de la adquisición eran Greenplum Database, Chorus (una herramienta de gestión) y Data Science Labs. Greenplum tenía clientes en mercados verticales, incluido eBay . Se convirtió en parte de Pivotal Software en 2012.

En 2013 se anunció una variante que usa Apache Hadoop para almacenar datos en el sistema de archivos Hadoop llamada Hawq. En 2015 se anunciaron los proyectos de software de código abierto GreenplumDB y Hawq .

Tecnología

El producto de base de datos Greenplum de Pivotal utiliza técnicas de procesamiento masivamente paralelo (MPP). Cada grupo de computadoras consta de un nodo maestro, un nodo maestro en espera y nodos de segmento. Todos los datos residen en los nodos de segmento y la información del catálogo se almacena en los nodos maestros. Los nodos de segmento ejecutan uno o más segmentos, que son instancias de base de datos de PostgreSQL modificadas y se les asigna un identificador de contenido. Para cada tabla, los datos se dividen entre los nodos de segmento según las claves de columna de distribución especificadas por el usuario en el lenguaje de definición de datos . Para cada identificador de contenido de segmento hay un segmento primario y un segmento espejo que no se ejecutan en el mismo host físico. Cuando una consulta ingresa al nodo principal, se analiza, planifica y envía a todos los segmentos para ejecutar el plan de consulta y devolver los datos solicitados o insertar el resultado de la consulta en una tabla de la base de datos. El lenguaje de consulta estructurado , versión SQL: 2003 , se utiliza para presentar consultas al sistema. La semántica de transacciones cumple con las restricciones conocidas como ACID .

Entre los competidores se incluyen otros sistemas de gestión de bases de datos MPP proporcionados por los principales proveedores como Teradata , Amazon Redshift , Microsoft Azure , Alibaba AnalyticDB y, en el pasado, IBM Netezza . La competencia adicional proviene de otros competidores más pequeños, bases de datos orientadas a columnas como HP Vertica , Exasol y proveedores de almacenamiento de datos con arquitectura no MPP, como Oracle Exadata , IBM DB2 y SAP HANA .

Greenplum versión 5

En septiembre de 2017, se lanzó la versión 5 de la base de datos Greenplum. La versión 5 incluye la primera iteración de la estrategia del proyecto Greenplum de fusionar las versiones posteriores de PostgreSQL de nuevo en Greenplum y se basa en la versión 8.3 de PostgreSQL desde la versión 8.2 anterior. La versión 5 también presenta la disponibilidad general de GPORCA Optimizer para la optimización basada en costos de SQL diseñado para big data.

Greenplum versión 6

En septiembre de 2019, se lanzó la versión 6 de la base de datos Greenplum. La versión 6 se basa en la versión 9.4 de PostgreSQL y presenta enormes ganancias en el rendimiento de OLTP. Greenplum 6 fue revisado en los medios por varias fuentes y mencionado por su alineación de código abierto Postgres y por su rendimiento OLTP.

Referencias