Conjunto de datos - Data set

De Wikipedia, la enciclopedia libre

Un conjunto de datos (o conjunto de datos ) es una colección de datos . Más comúnmente un conjunto de datos corresponde al contenido de una única tabla de base de datos , o un solo estadístico matriz de datos , donde cada columna de la tabla representa una variable en particular, y cada fila corresponde a un determinado miembro del conjunto de datos en cuestión. El conjunto de datos enumera los valores para cada una de las variables, tales como la altura y el peso de un objeto, para cada miembro del conjunto de datos. Cada valor es conocido como un punto de referencia. El conjunto de datos puede comprender datos para uno o más miembros, que corresponde al número de filas.

El conjunto de datos término también se puede usar de manera más flexible, para referirse a los datos en una colección de tablas estrechamente relacionadas, correspondiente a un experimento o evento particular. Nombres menos utilizados para este tipo de conjuntos de datos son corpus de datos y archivo de datos . Un ejemplo de este tipo es los conjuntos de datos recogidos por agencias espaciales realización de experimentos con instrumentos a bordo de las sondas espaciales . Los conjuntos de datos que son tan grandes que tradicionales de procesamiento de datos de las aplicaciones son inadecuadas para tratar con ellos son conocidos como grandes volúmenes de datos .

En el open data disciplina, conjunto de datos es la unidad para medir la información dada a conocer en un repositorio público de datos abierta. El portal europeo Open Data agrega más de medio millón de conjuntos de datos. En este campo se han propuesto otras definiciones, pero en la actualidad no es oficial. Algunos otros temas (fuentes de datos en tiempo real, conjuntos de datos no relacionales, etc.) aumenta la dificultad para llegar a un consenso al respecto.

propiedades

Varias características definen la estructura y las propiedades de un conjunto de datos. Estos incluyen el número y tipos de los atributos o variables, y diversas medidas estadísticas que les sean aplicables, tales como la desviación estándar y curtosis .

Los valores pueden ser números, tales como números reales o enteros , por ejemplo que representa la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consistan en numéricos valores), por ejemplo que representan el origen étnico de la persona. Más en general, los valores pueden ser de cualquiera de los tipos descritos como un nivel de medición . Para cada variable, los valores suelen ser todas del mismo tipo. Sin embargo, también puede haber valores perdidos , que deben ser indicados de alguna manera.

En estadísticas , conjuntos de datos lo general provienen de observaciones reales obtenidos por el muestreo de una población estadística , y cada fila corresponde a las observaciones sobre un elemento de esa población. Los conjuntos de datos pueden además ser generados por algoritmos con el fin de poner a prueba ciertos tipos de software . Algunos moderno software de análisis estadístico como SPSS todavía presentan sus datos en el conjunto de datos de manera clásica. Si faltan datos o sospechosa una imputación método se puede utilizar para completar un conjunto de datos.

conjuntos de datos clásicos

Varios conjuntos de datos clásicos se han utilizado ampliamente en la estadística literatura:

Ver también

referencias

enlaces externos