Combinación de datos - Data blending

La combinación de datos es un proceso mediante el cual los macrodatos de múltiples fuentes se fusionan en un único almacén de datos o conjunto de datos . No se trata simplemente de la combinación de diferentes formatos de archivo o fuentes de datos dispares, sino también de diferentes variedades de datos. La combinación de datos permite a los analistas de negocios hacer frente a la expansión de datos que necesitan para tomar decisiones comerciales críticas basadas en inteligencia comercial de buena calidad .

La combinación de datos se ha descrito como diferente de la integración de datos debido a los requisitos de los analistas de datos de fusionar fuentes muy rápidamente, demasiado rápido para cualquier intervención práctica de los científicos de datos .

En representación de la creciente demanda de analistas para combinar fuentes de datos, varias empresas de software han experimentado un gran crecimiento y han recaudado millones de dólares, y algunos de los primeros participantes en el mercado ahora son empresas públicas. Los ejemplos incluyen AWS , Alteryx , Microsoft Power Query e Incorta , que permiten combinar datos de muchas fuentes de datos diferentes, por ejemplo, archivos de texto, bases de datos, XML, JSON y muchas otras formas de datos estructurados y semiestructurados.

La combinación de datos es similar a ETL en muchos aspectos. Tanto ETL como la combinación de datos toman datos de varias fuentes y los combinan. Sin embargo, ETL se utiliza para fusionar y estructurar datos en una base de datos de destino, a menudo un almacén de datos . La combinación de datos difiere ligeramente, ya que se trata de unir datos para un caso de uso específico en un momento específico. Con algunos programas, los datos no se escriben en una base de datos, que es muy diferente a ETL. Por ejemplo, con Google Data Studio y Tableau , la combinación de datos se produce en la capa de informes; no está escrito en ninguna parte, solo se muestra.

Combinación de datos en Tableau

En el software Tableau, la combinación de datos es una técnica para combinar datos de varias fuentes de datos en la visualización de datos . Las fuentes de datos se almacenan por separado y solo se muestran juntas en un tablero , en la capa de informes. Este es uno de los conceptos clave que diferencia una combinación de datos de Tableau de otras definiciones de combinación de datos.

El otro diferenciador clave es la granularidad de la combinación de datos. Generalmente, al combinar datos en un solo conjunto de datos, esto usaría una combinación de base de datos , que generalmente se uniría al nivel más granular, usando un campo de identificación cuando sea posible. Una combinación de datos en Tableau debería ocurrir en el nivel menos detallado.

Combinación de datos en Google Data Studio

En Google Data Studio , las fuentes de datos se combinan uniendo los registros de una fuente de datos con los registros de hasta otras 4 fuentes de datos. Al igual que en Tableau, la combinación de datos solo ocurre en la capa de informes. Los datos combinados nunca se almacenan como una fuente de datos combinada separada.

Desafíos con la combinación de datos

La pregunta de metadatos personalizados más común es: "¿Cómo se puede combinar este conjunto de datos con (unirse o unirse a) mis otros conjuntos de datos?" Un estudio de Forrester Consulting de 2015 encontró que el 52 por ciento de las empresas están combinando 50 o más fuentes de datos y el 12 por ciento está combinando más de 1,000 fuentes.

Ver también

Referencias

  1. ^ Alteryx Analytics lleva el poder de Big Data y predictivo al mercado
  2. ^ La combinación de datos es el proceso de combinar datos de múltiples fuentes en un conjunto de datos funcional
  3. ^ La guía definitiva para la combinación de datos
  4. ^ "Combinación de datos" . Trifacta.com . 24 de agosto de 2017.
  5. ^ ¿Qué es la combinación de datos y qué herramientas la facilitan?
  6. ^ "Incorta recauda $ 30 millones Serie C para la solución de procesamiento de datos sin ETL" . TechCrunch . Consultado el 27 de febrero de 2021 .
  7. ^ "Alteryx anuncia el precio de la oferta pública inicial" . Alteryx . Consultado el 27 de febrero de 2021 .
  8. ^ Corporación, Microsoft. "Microsoft Power Query" . powerquery.microsoft.com . Consultado el 27 de febrero de 2021 .
  9. ^ "Software de análisis directo de datos | Incorta" . www.incorta.com . Consultado el 27 de febrero de 2021 .
  10. ^ "Fuentes de datos" . docs.incorta.com . Consultado el 27 de febrero de 2021 .
  11. ^ davidiseminger. "Dar forma y combinar datos de múltiples fuentes usando Power Query" . docs.microsoft.com . Consultado el 27 de febrero de 2021 .
  12. ^ "Fuentes de datos compatibles - Amazon QuickSight" . docs.aws.amazon.com . Consultado el 27 de febrero de 2021 .
  13. ^ "Fuentes de datos | Ayuda de Alteryx" . help.alteryx.com . Consultado el 27 de febrero de 2021 .
  14. ^ "Cómo funciona ETL" . Databricks (en alemán) . Consultado el 27 de febrero de 2021 .
  15. ^ "¿Qué es la combinación de datos y qué herramientas lo hacen más fácil?" . Asesoramiento sobre software . 2016-08-25 . Consultado el 27 de febrero de 2021 .
  16. ^ "Descripción general de Google Data Studio" . datastudio.google.com . Consultado el 27 de febrero de 2021 .
  17. ^ "Combine sus datos" . help.tableau.com . Consultado el 27 de febrero de 2021 .
  18. ^ "Explicación de las uniones SQL" . Explicación de las uniones SQL . Consultado el 27 de febrero de 2021 .
  19. ^ Soluciones TAR (20 de enero de 2021). "Combinación de datos en Tableau" . Soluciones TAR . Consultado el 27 de febrero de 2021 .
  20. ^ "Acerca de la combinación de datos - Ayuda de Data Studio" . support.google.com . Consultado el 27 de febrero de 2021 .
  21. ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (julio de 2017). Principios de la manipulación de datos . O'Reilly Media.
  22. ^ "Mashups de datos para análisis" . Pentaho .