Punto de código - Code point

En la terminología de codificación de caracteres , un punto de código o posición de código es cualquiera de los valores numéricos que componen el espacio de código . Muchos puntos de código representan caracteres individuales, pero también pueden tener otros significados, como formateo.

Por ejemplo, el esquema de codificación de caracteres ASCII comprende 128 puntos de código en el rango 0 hex a 7F hex , ASCII extendido comprende 256 puntos de código en el rango 0 hex a FF hex y Unicode comprende 1,114,112 puntos de código en el rango 0 hex a 10FFFF hex . El espacio de código Unicode se divide en diecisiete planos (el plano multilingüe básico y 16 planos suplementarios), cada uno con 65.536 (= 2 16 ) puntos de código. Por lo tanto, el tamaño total del espacio de código Unicode es 17 × 65,536 = 1,114,112.

Definición

La noción de un punto de código se utiliza para la abstracción, para distinguir ambos:

  • el número de una codificación como una secuencia de bits , y
  • el carácter abstracto de una representación gráfica particular ( glifo ).

Esto se debe a que uno puede desear hacer estas distinciones para:

  • codificar un espacio de código en particular de diferentes maneras, o
  • mostrar un carácter a través de diferentes glifos.

Para Unicode, la secuencia particular de bits se denomina unidad de código ; para la codificación UCS-4 , cualquier punto de código se codifica como números binarios de 4 bytes ( octetos ) , mientras que en la codificación UTF-8 , los diferentes puntos de código se codifican como secuencias de uno a cuatro bytes de longitud, formando un código de sincronización automática . Consulte la comparación de codificaciones Unicode para obtener más detalles. Los puntos de código se asignan normalmente a caracteres abstractos . Un carácter abstracto no es un glifo gráfico sino una unidad de datos textuales. Sin embargo, los puntos de código también pueden dejarse reservados para asignaciones futuras (la mayor parte del espacio de código Unicode no está asignado) o para otras funciones designadas.

La distinción entre un punto de código y el carácter abstracto correspondiente no se pronuncia en Unicode, pero es evidente para muchos otros esquemas de codificación, donde pueden existir numerosas páginas de códigos para un solo espacio de código.

Historia

El concepto de un punto de código es parte de la solución de Unicode a un enigma difícil al que se enfrentaron los desarrolladores de codificación de caracteres en la década de 1980. Si agregaran más bits por carácter para acomodar conjuntos de caracteres más grandes, esa decisión de diseño también constituiría un desperdicio inaceptable de recursos informáticos entonces escasos para los usuarios de escritura latina (que constituían la gran mayoría de los usuarios de computadoras en ese momento), ya que esos bits adicionales siempre se pondrá a cero para dichos usuarios. El punto de código evita este problema al romper la vieja idea de una correspondencia directa uno a uno entre caracteres y secuencias particulares de bits.

Ver también

Referencias

enlaces externos