Datos (informática) - Data (computing)

Varios tipos de datos que se pueden visualizar a través de un dispositivo informático.

En informática , los datos (tratados como singular, plural o como un sustantivo masivo ) son cualquier secuencia de uno o más símbolos . Datum es un solo símbolo de datos. Los datos requieren interpretación para convertirse en información . Los datos digitales son datos que se representan mediante el sistema numérico binario de unos (1) y ceros (0), en contraposición a la representación analógica . En los sistemas informáticos modernos (posteriores a 1960), todos los datos son digitales.

Los datos existen en tres estados: datos en reposo , datos en tránsito y datos en uso . Los datos dentro de una computadora, en la mayoría de los casos, se mueven como datos paralelos . Los datos que se mueven hacia o desde una computadora, en la mayoría de los casos, se mueven como datos en serie . Los datos obtenidos de un dispositivo analógico, como un sensor de temperatura, se pueden convertir a digitales mediante un convertidor de analógico a digital . Los datos que representan cantidades , caracteres o símbolos en el que las operaciones son realizadas por un ordenador se almacenan y registran en magnéticos , ópticos medios de grabación, electrónico o mecánico, y transmitidos en forma de señales eléctricas u ópticas digitales. Los datos entran y salen de las computadoras a través de dispositivos periféricos .

Los elementos físicos de la memoria de la computadora consisten en una dirección y un byte / palabra de almacenamiento de datos. Los datos digitales a menudo se almacenan en bases de datos relacionales , como tablas o bases de datos SQL, y generalmente se pueden representar como pares abstractos de clave / valor. Los datos se pueden organizar en muchos tipos diferentes de estructuras de datos , incluidas matrices, gráficos y objetos . Las estructuras de datos pueden almacenar datos de muchos tipos diferentes , incluidos números , cadenas e incluso otras estructuras de datos .

Caracteristicas

Los metadatos ayudan a convertir los datos en información. Los metadatos son datos sobre los datos. Los metadatos pueden estar implícitos, especificados o dados.

Los datos relacionados con eventos o procesos físicos tendrán un componente temporal. Este componente temporal puede estar implícito. Este es el caso cuando un dispositivo como un registrador de temperatura recibe datos de un sensor de temperatura . Cuando se recibe la temperatura se asume que el dato tiene una referencia temporal de ahora . Entonces, el dispositivo registra la fecha, la hora y la temperatura juntas. Cuando el registrador de datos comunica las temperaturas, también debe informar la fecha y la hora como metadatos para cada lectura de temperatura.

Básicamente, las computadoras siguen una secuencia de instrucciones que se les da en forma de datos. Un conjunto de instrucciones para realizar una determinada tarea (o tareas) se denomina programa . Un programa son datos en forma de instrucciones codificadas para controlar el funcionamiento de una computadora u otra máquina. En el caso nominal, el programa, ejecutado por la computadora, consistirá en código de máquina . Los elementos de almacenamiento manipulados por el programa, pero no ejecutados realmente por la unidad central de procesamiento (CPU), también son datos. En su forma más esencial, un solo dato es un valor almacenado en una ubicación específica. Por lo tanto, es posible que los programas de computadora operen en otros programas de computadora, manipulando sus datos programáticos.

Para almacenar bytes de datos en un archivo, deben serializarse en un formato de archivo . Normalmente, los programas se almacenan en tipos de archivos especiales, diferentes de los que se utilizan para otros datos. Los archivos ejecutables contienen programas; todos los demás archivos también son archivos de datos . Sin embargo, los archivos ejecutables también pueden contener datos utilizados por el programa que está integrado en el programa. En particular, algunos archivos ejecutables tienen un segmento de datos , que nominalmente contiene constantes y valores iniciales para variables, los cuales pueden considerarse datos.

La línea entre el programa y los datos puede volverse borrosa. Un intérprete , por ejemplo, es un programa. Los datos de entrada a un intérprete son en sí mismos un programa, pero no uno expresado en lenguaje de máquina nativo . En muchos casos, el programa interpretado será un archivo de texto legible por humanos , que se manipula con un programa editor de texto . De manera similar, la metaprogramación involucra programas que manipulan otros programas como datos. Los programas como compiladores , enlazadores , depuradores , actualizadores de programas , escáneres de virus y demás utilizan otros programas como datos.

Por ejemplo, un usuario puede primero indicar al sistema operativo que cargue un programa de procesador de texto desde un archivo y luego usar el programa en ejecución para abrir y editar un documento almacenado en otro archivo. En este ejemplo, el documento se consideraría datos. Si el procesador de textos también incluye un corrector ortográfico , el diccionario (lista de palabras) del corrector ortográfico también se consideraría como datos. Los algoritmos utilizados por el corrector ortográfico para sugerir correcciones serían datos de código de máquina o texto en algún lenguaje de programación interpretable .

En un uso alternativo, los archivos binarios (que no son legibles por humanos ) a veces se denominan datos a diferencia del texto legible por humanos .

La cantidad total de datos digitales en 2007 se estimó en 281 mil millones de gigabytes (281 exabytes ).

Claves y valores de datos, estructuras y persistencia

Las claves en los datos proporcionan el contexto para los valores. Independientemente de la estructura de los datos, siempre hay un componente clave presente. Las claves en los datos y las estructuras de datos son esenciales para dar significado a los valores de los datos. Sin una clave que esté asociada directa o indirectamente con un valor, o una colección de valores en una estructura, los valores pierden significado y dejan de ser datos. Es decir, tiene que haber un componente clave vinculado a un componente de valor para que se considere dato.

Los datos se pueden representar en computadoras de múltiples formas, según los siguientes ejemplos:

RAM

  • La memoria de acceso aleatorio (RAM) contiene datos a los que la CPU tiene acceso directo. Una CPU solo puede manipular datos dentro de los registros de su procesador o la memoria. Esto es a diferencia del almacenamiento de datos, donde la CPU debe dirigir la transferencia de datos entre el dispositivo de almacenamiento (disco, cinta ...) y la memoria. La RAM es una matriz de ubicaciones lineales contiguas que un procesador puede leer o escribir proporcionando una dirección para la operación de lectura o escritura. El procesador puede operar en cualquier lugar de la memoria en cualquier momento y en cualquier orden. En RAM, el elemento de datos más pequeño es el bit binario . Las capacidades y limitaciones de acceder a la RAM son específicas del procesador. En general, la memoria principal se organiza como una matriz de ubicaciones que comienzan en la dirección 0 ( hexadecimal 0). Cada ubicación puede almacenar normalmente 8 o 32 bits dependiendo de la arquitectura de la computadora .

Teclas

  • No es necesario que las claves de datos sean una dirección de hardware directa en la memoria. Los códigos de claves indirectos , abstractos y lógicos se pueden almacenar en asociación con valores para formar una estructura de datos . Las estructuras de datos tienen desplazamientos predeterminados (o enlaces o rutas) desde el inicio de la estructura, en los que se almacenan los valores de los datos. Por lo tanto, la clave de datos consiste en la clave de la estructura más el desplazamiento (o enlaces o rutas) en la estructura. Cuando dicha estructura se repite, almacenando variaciones de los valores de datos y las claves de datos dentro de la misma estructura de repetición, se puede considerar que el resultado se asemeja a una tabla , en la que cada elemento de la estructura de repetición se considera una columna y cada repetición de la estructura se considera como una fila de la tabla. En tal organización de datos, la clave de datos suele ser un valor en una (o un compuesto de los valores en varias) de las columnas.

Estructuras de datos recurrentes organizadas

  • La vista tabular de estructuras de datos repetidas es solo una de las muchas posibilidades. Las estructuras de datos repetidas se pueden organizar jerárquicamente , de modo que los nodos estén vinculados entre sí en una cascada de relaciones padre-hijo. Los valores y las estructuras de datos potencialmente más complejas están vinculadas a los nodos. Por tanto, la jerarquía nodal proporciona la clave para abordar las estructuras de datos asociadas con los nodos. Esta representación se puede considerar como un árbol invertido . Por ejemplo, los sistemas de archivos del sistema operativo de las computadoras modernas son un ejemplo común; y XML es otro.

Datos ordenados u ordenados

  • Los datos tienen algunas características inherentes cuando se ordenan en una clave . Todos los valores de los subconjuntos de la clave aparecen juntos. Cuando se pasa secuencialmente a través de grupos de datos con la misma clave, o un subconjunto de cambios de clave, esto se conoce en los círculos de procesamiento de datos como una interrupción o una interrupción de control . En particular, facilita la agregación de valores de datos en subconjuntos de una clave.

Almacenamiento periférico

  • Hasta el advenimiento de las memorias informáticas no volátiles como las memorias USB , el almacenamiento de datos persistentes se lograba tradicionalmente escribiendo los datos en dispositivos de bloque externos como cintas magnéticas y unidades de disco . Estos dispositivos normalmente buscan una ubicación en los medios magnéticos y luego leen o escriben bloques de datos de un tamaño predeterminado. En este caso, la ubicación de búsqueda en el medio es la clave de datos y los bloques son los valores de datos. Los primeros sistemas de archivos de datos o sistemas operativos de disco que se usaban para reservar bloques contiguos en la unidad de disco para archivos de datos . En esos sistemas, los archivos podían llenarse, quedando sin espacio de datos antes de que todos los datos se hubieran escrito en ellos. Por lo tanto, gran parte del espacio de datos no utilizado se reservó de manera improductiva para evitar incurrir en esa situación. Esto se conocía como disco sin formato. Los sistemas de archivos posteriores introdujeron particiones . Reservaron bloques de espacio de datos en disco para particiones y utilizaron los bloques asignados de manera más económica, asignando dinámicamente bloques de una partición a un archivo según fuera necesario. Para lograr esto, el sistema de archivos tenía que realizar un seguimiento de los bloques que los archivos de datos usaban o no usaban en un catálogo o una tabla de asignación de archivos. Aunque esto hizo un mejor uso del espacio de datos del disco, resultó en la fragmentación de archivos en todo el disco y una sobrecarga de rendimiento concomitante debido a la latencia. Los sistemas de archivos modernos reorganizan los archivos fragmentados de forma dinámica para optimizar los tiempos de acceso a los archivos. Otros desarrollos en los sistemas de archivos dieron como resultado la virtualización de unidades de disco, es decir, donde una unidad lógica se puede definir como particiones de varias unidades físicas.

Datos indexados

  • Recuperar un pequeño subconjunto de datos de un conjunto mucho más grande implica buscar los datos secuencialmente. Esto es antieconómico. Los índices son una forma de copiar claves y direcciones de ubicación de estructuras de datos en archivos, tablas y conjuntos de datos, y luego organizarlos usando estructuras de árbol invertidas para reducir el tiempo necesario para recuperar un subconjunto de los datos originales. Para hacer esto, se debe conocer la clave del subconjunto de datos a recuperar antes de que comience la recuperación. Los índices más populares son el árbol B y los métodos de indexación de claves hash dinámicas . La indexación es otra sobrecarga costosa para archivar y recuperar datos. Hay otras formas de organizar índices, por ejemplo, ordenar las claves o corregir cantidades (o incluso la clave y los datos juntos), y usar una búsqueda binaria en ellos.

Abstracción e indirección

  • La orientación a objetos utiliza dos conceptos básicos para comprender los datos y el software: 1) La estructura de clasificación taxonómica de las clases de código de programa , que es un ejemplo de una estructura de datos jerárquica; y 2) En tiempo de ejecución, la creación de referencias de claves de datos a estructuras de datos en memoria de objetos que se han instanciado desde una biblioteca de clases . Solo después de la instanciación existe un objeto en ejecución de una clase especificada. Una vez que se anula la referencia de clave de un objeto, los datos a los que hace referencia ese objeto dejan de ser datos porque la referencia de clave de datos es nula; y por tanto el objeto también deja de existir. Las ubicaciones de la memoria donde se almacenaron los datos del objeto se denominan basura y se reclasifican como memoria no utilizada disponible para su reutilización.

Datos de la base de datos

Procesamiento de datos distribuidos en paralelo

  • Las tecnologías modernas de persistencia de datos escalables / de alto rendimiento se basan en el procesamiento de datos distribuidos masivamente en paralelo en muchas computadoras básicas en una red de gran ancho de banda. Un ejemplo de uno es Apache Hadoop . En tales sistemas, los datos se distribuyen a través de múltiples computadoras y, por lo tanto, cualquier computadora en particular en el sistema debe estar representada en la clave de los datos, ya sea directa o indirectamente. Esto permite la diferenciación entre dos conjuntos de datos idénticos, cada uno de los cuales se procesa en una computadora diferente al mismo tiempo.

Ver también

Referencias