GSM 03.38 - GSM 03.38

En telefonía móvil, GSM 03.38 o 3GPP 23.038 es una codificación de caracteres utilizada en redes GSM para SMS (Servicio de mensajes cortos), CB ( Difusión celular ) y USSD (Datos de servicio suplementario no estructurados). El estándar 3GPP TS 23.038 (originalmente recomendación GSM 03.38) define el alfabeto predeterminado GSM de 7 bits que es obligatorio para los teléfonos GSM y los elementos de red, pero el conjunto de caracteres es adecuado solo para inglés y varios idiomas de Europa occidental. Los idiomas como el chino, el coreano o el japonés deben transferirse mediante la codificación de caracteres UCS-2 de 16 bits . Un número limitado de idiomas, como portugués , español , turco y varios idiomas utilizados en la India escritos con scripts brahmicos pueden usar codificación de 7 bits con la tabla de cambio de idioma nacional definida en 3GPP 23.038. Para mensajes binarios , se utiliza codificación de 8 bits.

Alfabeto GSM predeterminado de 7 bits y tabla de extensión de 3GPP TS 23.038 / GSM 03.38

La codificación estándar para los mensajes GSM es el alfabeto predeterminado de 7 bits como se define en la recomendación 23.038.

Los caracteres de siete bits deben codificarse en octetos siguiendo uno de los tres modos de empaquetado:

  • CBS: con esta codificación, es posible enviar hasta 93 caracteres (empaquetados en hasta 82 octetos) en un mensaje SMS en un servicio de transmisión celular.
  • SMS: utilizando esta codificación, es posible enviar hasta 160 caracteres (empaquetados en hasta 140 octetos) en un mensaje SMS en la red GSM.
  • USSD: con esta codificación, es posible enviar hasta 182 caracteres (empaquetados en hasta 160 octetos) en un mensaje SMS de datos de servicio suplementarios no estructurados.
Conjunto de caracteres básico
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ SP 0 ¡ PAG ¿ pag
0x01 £ _ ! 1 A Q a q
0x02 PS Φ " 2 B R B r
0x03 ¥ Γ # 3 C S C s
0x04 mi Λ ¤ 4 D T D t
0x05 mi Ω % 5 mi U mi tu
0x06 ù Π Y 6 F V F v
0x07 I Ψ ' 7 GRAMO W gramo w
0x08 ò Σ ( 8 H X h X
0x09 C Θ ) 9 I Y I y
0x0A LF Ξ * : J Z j z
0x0B Ø ESC + ; K A k a
0x0C ø Æ , < L Ö l ö
0x0D CR æ - = METRO NORTE metro norte
0x0E A ß . > norte Ü norte ü
0x0F a MI / ? O § o a
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es una tabla de extensión de Escape a (se asigna a NBSP).
  • SP es un personaje de espacio.
Extensión del conjunto de caracteres básico
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03                
0x04   ^            
0x05              
0x06                
0x07                
0x08     {          
0x09     }          
0x0A FF              
0x0B   SS2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \          
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Es importante (especialmente cuando un mensaje se va a segmentar usando un mecanismo de SMS concatenados ) que los caracteres de la tabla Conjunto de caracteres básico tomen un septeto, los caracteres de la tabla Extensión del conjunto de caracteres básico tomen dos septetos.

Tenga en cuenta que solo se puede acceder a la segunda parte de la tabla si el dispositivo GSM admite el mecanismo de extensión de 7 bits, utilizando el prefijo de carácter ESC. De lo contrario, el código ESC en sí se interpreta como un espacio y el siguiente carácter se tratará como si no hubiera un código ESC inicial.

La mayor parte de la parte alta de la tabla no se usa en el juego de caracteres predeterminado, pero el estándar GSM define algunos indicadores de código de idioma que permiten al sistema identificar variantes nacionales de esta parte, para admitir más caracteres que los que se muestran en la tabla anterior.

En un mensaje de texto GSM estándar, todos los caracteres se codifican utilizando unidades de código de 7 bits, empaquetados juntos para llenar todos los bits de los octetos. Entonces, por ejemplo, el sobre de 140 octetos de un SMS , sin otro indicador de idioma pero solo el prefijo de clase estándar, puede transportar hasta (140 * 8) / 7 = 160, es decir, 160 caracteres GSM de 7 bits (pero tenga en cuenta que el código ESC cuenta para uno de ellos, si se utilizan caracteres en la parte alta de la tabla).

Se pueden enviar mensajes más largos, pero requerirán un prefijo de continuación y un número de secuencia en los mensajes SMS subsiguientes (estos bytes de prefijo y el número de secuencia se cuentan dentro de la longitud máxima de la carga útil de 140 octetos del formato de sobre).

Cuando hay de 1 a 6 bits de reserva en el último octeto de un mensaje, estos bits se ponen a cero (estos bits no cuentan como un carácter sino solo como un relleno). Cuando hay 7 bits de repuesto en el último octeto de un mensaje, estos bits se establecen en el código de 7 bits del control CR (también se usa como relleno de relleno) en lugar de establecerse en cero (donde se confundirían con el Código de 7 bits de un carácter '@').

Esta codificación de 7 bits permite el transporte de textos codificados en el subconjunto latino básico de ASCII, así como algunos caracteres del juego de caracteres ISO Latin 1. También permite la codificación de textos escritos en escritura griega, pero solo en mayúsculas; para tal uso en griego, las letras mayúsculas latinas que se parecen a las letras griegas se reutilizan con el mismo código, de modo que el conjunto de caracteres anterior está completo solo para el griego monótono moderno restringido a letras mayúsculas. Un soporte completo para el alfabeto griego (incluidas las letras minúsculas) requiere una versión nacional de la tabla de 7 bits modificada (usando el código ESC para cada carácter nacional codificado en esta tabla modificada), o una codificación de 8 bits patentada no especificada, o la uso de la codificación UCS-2 (ver más abajo).

Tenga en cuenta que el código especial marcado SS2 en la tabla anterior también se ha asignado (y codificado como 0x1B, 0x1B) para permitir el uso de otra tabla de desplazamiento de 7 bits alternativa. Pero este mecanismo nunca se ha utilizado y se ha preferido la codificación UCS-2.

Tenga en cuenta que el carácter 0x09 ( Ç , C mayúscula con cedilla) debería reemplazarse por ç (c minúscula con cedilla) en la implementación moderna, como recomienda Unicode, ya que la versión en mayúsculas es de poca utilidad.

Codificación de datos GSM de 8 bits

El modo de codificación de datos de 8 bits trata la información como datos sin procesar. Según el estándar, el alfabeto para esta codificación es específico del usuario.

Codificación UCS-2

Esta codificación permite el uso de una mayor variedad de caracteres e idiomas. UCS-2 puede representar los caracteres latinos y orientales más utilizados a costa de un mayor gasto de espacio. Estrictamente hablando, UCS-2 está limitado a personajes en el plano multilingüe básico . Sin embargo, dado que los entornos de programación modernos no proporcionan codificadores o decodificadores para UCS-2, algunos teléfonos móviles (por ejemplo, iPhones ) utilizan UTF-16 en lugar de UCS-2. Esto funciona, porque para los caracteres en el plano multilingüe básico (incluidos los alfabetos completos de la mayoría de los lenguajes humanos modernos), las codificaciones UCS-2 y UTF-16 son idénticas. Para codificar caracteres fuera del BMP (inalcanzables en UCS-2 simple), como Emoji , UTF-16 usa pares sustitutos , que cuando se decodifican con UCS-2 aparecerían como dos puntos de código válidos pero sin asignar .

Un solo mensaje SMS GSM que utilice esta codificación puede tener como máximo 70 caracteres (140 octetos).

Tenga en cuenta que en muchos teléfonos móviles GSM, no hay una preselección específica de la codificación UCS-2. El valor predeterminado es utilizar la codificación de 7 bits descrita anteriormente, hasta que se ingrese un carácter que no está presente en la tabla GSM de 7 bits (por ejemplo, la 'a' minúscula con aguda: 'á'). En ese caso, todo el mensaje se vuelve a codificar utilizando la codificación UCS-2, y la longitud máxima del mensaje enviado en un solo SMS se reduce inmediatamente a 70 caracteres, en lugar de 160. Otros varían según la elección y la configuración de la aplicación de SMS. y la longitud del mensaje.

Para evitar costos inesperados para los remitentes que tienen una suscripción para un paquete limitado de SMS enviados, las aplicaciones deben mostrar el número de caracteres utilizados y el número máximo de caracteres en el SMS compuesto. Cuando un mensaje supera este máximo, el mensaje se enviará como varios SMS sucesivos que contienen partes del mensaje (cada uno con un número de secuencia, que también utiliza algunos caracteres iniciales en cada parte); Estas piezas están destinadas a ser reensambladas más tarde por el destinatario.

Algunas aplicaciones alertan al usuario cuando un mensaje requerirá dividirse, o incluso enviar un mensaje más largo como un mensaje multimedia (MMS).

Tablas de cambio de idioma nacional

Desde la versión 8 del estándar 3GPP 23.038 de marzo de 2008, se puede acceder a conjuntos de caracteres adicionales mediante el uso de tablas de cambio de idioma nacional.

Estas tablas permiten utilizar diferentes juegos de caracteres según el idioma en el que se va a escribir el texto. La elección de la tabla para un mensaje dado se selecciona en la sección Encabezado de datos del usuario de un mensaje SMS y se puede especificar para todo el texto (una tabla de cambio de bloqueo que reemplaza la tabla alfabética predeterminada de 7 bits GSM estándar) o un solo carácter ( turno único que reemplaza la tabla de extensión alfabética predeterminada GSM de 7 bits). Bloqueo y simples mesas de cambio de juntas en el mismo mensaje son posibles, si ambos norma del vector del alfabeto por defecto y la tabla de extensión alfabeto por defecto van a ser sustituidos.

Con una tabla de turnos, un mensaje aún puede usar codificación de 7 bits para los caracteres, pero se puede elegir un conjunto diferente para mostrar correctamente los caracteres acentuados y específicos del idioma. Esto permite hasta 155 caracteres, codificados en 136 octetos (140 octetos, menos los 4 octetos del encabezado de datos de usuario necesarios para indicar el uso de una tabla de cambios y el código de idioma). Con las tablas de bloqueo y de turno único , se permiten hasta 152 caracteres, codificados en 133 octetos (140 octetos, menos 7 octetos del encabezado de datos de usuario ).

Los caracteres de cualquier tabla de turno de bloqueo toman un septeto, los caracteres de la tabla de turno único (o la tabla de extensión del conjunto de caracteres básico) toman dos septetos.

Inicialmente, se especificaron tablas de turnos solo para turco; El español y el portugués se agregaron en revisiones posteriores de la versión 8. La versión 9 introdujo 10 idiomas utilizados en la India escritos con caracteres brahmicos (bengalí, gujarati, hindi, kannada, malayalam, oriya, punjabi, tamil, telugu) y urdu .

Todavía no hay una tabla de cambio de idioma nacional definida para francés, griego, ruso, búlgaro, árabe, hebreo y la mayoría de los idiomas de Europa Central que necesitan una mejor cobertura que el juego de caracteres estándar de 7 bits predeterminado y su juego de caracteres de extensión de 7 bits predeterminado: Si alguna vez se compone algún carácter que no se pueda representar en esos conjuntos GSM de 7 bits predeterminados, el mensaje se volverá a codificar automáticamente utilizando UCS-2, con el efecto de dividir por más de dos la longitud máxima en caracteres de los mensajes que se pueden enviar. al precio de un solo SMS (cuando un mensaje se divide en varias partes, se necesitan algunos otros octetos en el encabezado de datos del usuario para indicar el número de secuencia de cada parte).

Aunque una revisión de GSM 03.38 (ya en la versión 4.0.1 de septiembre de 1994) ha definido los valores del Esquema de codificación de datos para Cell Broadcast System (CBS) para alemán, inglés, italiano, francés, español, holandés, sueco, danés, finlandés , Noruego, griego y turco; con húngaro, polaco, checo, hebreo, árabe, ruso e islandés agregados en revisiones posteriores, no se definieron tablas de codificación para estos idiomas. El propósito de este campo era simplemente identificar el idioma del mensaje.

Tampoco hay una tabla de cambio de idioma para el japonés escrito en kanas básicos, o para el coreano escrito en Hangul jamos, o para el chino escrito en la escritura Han. A menudo, esto no es un problema en Japón, porque utiliza otros estándares además de GSM y WAP para la mensajería. Los otros dos idiomas también tienen demasiados caracteres distintos para caber en una tabla de desplazamiento de 7 bits.

Idioma español (escritura latina)

No hay un conjunto de caracteres de cambio de bloqueo específico para el idioma español. Utiliza el juego de caracteres básico predeterminado.

Juego de caracteres básico
por defecto
(sin tabla de cambio de bloqueo definida para español)
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ SP 0 ¡ PAG ¿ pag
0x01 £ _ ! 1 A Q a q
0x02 PS Φ " 2 B R B r
0x03 ¥ Γ # 3 C S C s
0x04 mi Λ ¤ 4 D T D t
0x05 mi Ω % 5 mi U mi tu
0x06 ù Π Y 6 F V F v
0x07 I Ψ ' 7 GRAMO W gramo w
0x08 ò Σ ( 8 H X h X
0x09 C Θ ) 9 I Y I y
0x0A LF Ξ * : J Z j z
0x0B Ø ESC + ; K A k a
0x0C ø Æ , < L Ö l ö
0x0D CR æ - = METRO NORTE metro norte
0x0E A ß . > norte Ü norte ü
0x0F a MI / ? O § o a
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma español
UDH contiene 0x24 0x01 0x02
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01         A   a  
0x02                
0x03                
0x04   ^            
0x05           Ú ú
0x06                
0x07                
0x08     {          
0x09 C   }   I   I  
0x0A FF              
0x0B   SS2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \   Ó   ó  
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Lengua portuguesa (escritura latina)

El juego de caracteres de cambio de bloqueo
para el idioma portugués
UDH contiene 0x25 0x01 0x03
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ SP 0 I PAG ~ pag
0x01 £ _ ! 1 A Q a q
0x02 PS ª " 2 B R B r
0x03 ¥ C # 3 C S C s
0x04 mi A º 4 D T D t
0x05 mi % 5 mi U mi tu
0x06 ú ^ Y 6 F V F v
0x07 I \ ' 7 GRAMO W gramo w
0x08 ó ( 8 H X h X
0x09 C Ó ) 9 I Y I y
0x0A LF | * : J Z j z
0x0B Ô ESC + ; K A k a
0x0C ô A , < L Õ l õ
0x0D CR a - = METRO Ú metro '
0x0E A MI . > norte Ü norte ü
0x0F a MI / ? O § o a
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma portugués
UDH contiene 0x24 0x01 0x03
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01         A   A  
0x02   Φ            
0x03   Γ            
0x04   ^            
0x05 mi Ω       Ú ú
0x06   Π            
0x07   Ψ            
0x08   Σ {          
0x09 C Θ }   I   I  
0x0A FF              
0x0B Ô SS2       A   a
0x0C ô     [   Õ   õ
0x0D CR2     ~        
0x0E A     ]        
0x0F a MI \   Ó   ó a
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma turco (escritura latina)

El juego de caracteres de cambio de bloqueo
para idioma turco
UDH contiene 0x25 0x01 0x01
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ Δ SP 0 I PAG C pag
0x01 £ _ ! 1 A Q a q
0x02 PS Φ " 2 B R B r
0x03 ¥ Γ # 3 C S C s
0x04 Λ ¤ 4 D T D t
0x05 mi Ω % 5 mi U mi tu
0x06 ù Π Y 6 F V F v
0x07 I Ψ ' 7 GRAMO W gramo w
0x08 ò Σ ( 8 H X h X
0x09 C Θ ) 9 I Y I y
0x0A LF Ξ * : J Z j z
0x0B GRAMO ESC + ; K A k a
0x0C gramo S , < L Ö l ö
0x0D CR s - = METRO NORTE metro norte
0x0E A ß . > norte Ü norte ü
0x0F a MI / ? O § o a
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para idioma turco
UDH contiene 0x24 0x01 0x01
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00         |      
0x01                
0x02                
0x03           S C s
0x04   ^            
0x05              
0x06                
0x07         GRAMO   gramo  
0x08     {          
0x09     }   I   I  
0x0A FF              
0x0B   SS2            
0x0C       [        
0x0D CR2     ~        
0x0E       ]        
0x0F     \          
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma urdu (alfabetos árabes y latinos básicos)

También se puede utilizar para el idioma sindhi también escrito en árabe.

A veces también se puede usar para el idioma árabe , pero los dígitos orientales (codificados aquí en su variante persa-hindú) no se usarán en ese caso porque el árabe estándar prefiere sus dígitos tradicionales del árabe oriental, y con frecuencia serán reemplazados por occidentales. Dígitos árabes (codificados en el juego de caracteres de cambio de bloqueo en la columna 0x30) que también se utilizan ahora con frecuencia en urdu. Sin embargo, en la India, los teléfonos que reconocen la indicación del idioma árabe pueden sustituir las variantes persa-hindú de los dígitos del árabe oriental por los dígitos del árabe oriental tradicional.

El juego de caracteres de cambio de bloqueo
para el idioma urdu
UDH contiene 0x25 0x01 0x0D
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ا ث SP 0 ص ں ◌ٔ pag
0x01 آ ج ! 1 ض ڻ a q
0x02 ب ځ ڏ 2 ط ڼ B r
0x03 ٻ ڄ ڍ 3 ظ و C s
0x04 ڀ ڃ ذ 4 ع ۄ D t
0x05 پ څ ر 5 ف ە mi tu
0x06 ڦ چ ڑ 6 ق ہ F v
0x07 ت ڇ ړ 7 ک ھ gramo w
0x08 ۂ Í ) 8 ڪ ء h X
0x09 ٿ خ ( 9 ګ ی I y
0x0A LF د ڙ : گ ې j z
0x0B ٹ ESC ز ; ڳ ے k ◌ٕ
0x0C ٽ ڌ , ښ ڱ ◌ٍ l ◌ّ
0x0D CR ڈ ږ س ل ◌ِ metro ◌ٓ
0x0E ٺ ډ . ش م ◌ُ norte ◌ٖ
0x0F ټ ڊ ژ ? ن ◌ٗ o ◌ٰ
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma urdu
UDH contiene 0x24 0x01 0x0D
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < ۴ ◌ؓ | PAG    
0x01 £ = ۵ ◌ؔ A Q    
0x02 PS > ۶ ؛ B R    
0x03 ¥ ¡ ۷ ؟ C S    
0x04 ¿ ^ ۸ ـ D T    
0x05 " ¡ ۹ ◌ْ mi U  
0x06 ¤ _ ، ◌٘ F V    
0x07 % # ؍ ٫ GRAMO W    
0x08 Y * { ٬ H X    
0x09 ' ؀ } ٲ I Y    
0x0A FF ؁ ؎ ٳ J Z    
0x0B * SS2 ؏ ۍ K      
0x0C + ۰ ◌ؐ [ L      
0x0D CR2 ۱ ◌ؑ ~ METRO      
0x0E - ۲ ◌ؒ ] norte      
0x0F / ۳ \ ۔ O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma hindi (devanagari y alfabetos latinos básicos)

El juego de caracteres de cambio de bloqueo
para idioma hindi
UDH contiene 0x25 0x01 0x06
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ँ SP 0 ◌ा pag
0x01 ◌ं ! 1 ◌ि a q
0x02 ◌ः 2 ◌ी B r
0x03 3 ◌ु C s
0x04 4 ◌ू D t
0x05 5 ◌ृ mi tu
0x06 6 ◌ॄ F v
0x07 7 ◌ॅ gramo w
0x08 ) 8 ◌ॆ h X
0x09 ( 9 ◌े I y
0x0A LF : ◌ै j z
0x0B ESC ; ◌ॉ k
0x0C , ◌ॊ l
0x0D CR ◌ो metro
0x0E . ◌़ ◌ौ norte
0x0F ? ◌् o ॿ
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma hindi
UDH contiene 0x24 0x01 0x06
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < ज़ | PAG    
0x01 £ = ड़ A Q    
0x02 PS > ढ़ B R    
0x03 ¥ ¡ फ़ C S    
0x04 ¿ ^ य़ D T    
0x05 " ¡ mi U  
0x06 ¤ _ ◌॑ F V    
0x07 % # ◌॒ ◌ॢ GRAMO W    
0x08 Y * { ◌ॣ H X    
0x09 ' } I Y    
0x0A FF ◌॓ J Z    
0x0B * SS2 ◌॔   K      
0x0C + क़ [ L      
0x0D CR2 ख़ ~ METRO      
0x0E - ग़ ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idiomas bengalí y asamés (bengalí y alfabetos latinos básicos)

Bloquear el juego de caracteres de cambio
para los idiomas bengalí y asamés
UDH contiene 0x25 0x01 0x04
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ঁ SP 0 ◌ব pag
0x01 ◌ং   ! 1 ◌ি a q
0x02 ◌ঃ   2 ◌ী B r
0x03 3 ◌ু C s
0x04 4 ◌ূ D t
0x05 5   ◌ৃ mi tu
0x06 6 ◌ৄ F v
0x07 7     gramo w
0x08 ) 8     h X
0x09 ( 9   ◌ে I y
0x0A LF : ◌ৈ j z
0x0B ESC ;   k ◌ৗ
0x0C   ,     l ড়
0x0D CR ◌ো metro ঢ়
0x0E   . ◌় ◌ৌ norte
0x0F ? ◌্ o
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
Juego de caracteres de cambio único
para los idiomas bengalí y asamés
UDH contiene 0x24 0x01 0x04
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | PAG    
0x01 £ = A Q    
0x02 PS > B R    
0x03 ¥ ¡ C S    
0x04 ¿ ^ য় D T    
0x05 " ¡   mi U  
0x06 ¤ _   F V    
0x07 % # ◌ৢ   GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF ◌ৣ   J Z    
0x0B * SS2   K      
0x0C + [ L      
0x0D CR2 ~ METRO      
0x0E - ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Lengua punjabi (gurmukhī y escrituras latinas básicas)

El juego de caracteres de cambio de bloqueo
para el idioma punjabi
UDH contiene 0x25 0x01 0x0A
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ਁ SP 0 ◌ਾ ◌ੑ pag
0x01 ◌ਂ   ! 1 ◌ਿ a q
0x02 ◌ਃ   2 ◌ੀ B r
0x03 3 ◌ੁ C s
0x04 4 ◌ੂ D t
0x05 5     mi tu
0x06 6   F v
0x07 7 ਲ਼   gramo w
0x08 ) 8     h X
0x09   ( 9 ◌ੇ I y
0x0A LF : ਸ਼ ◌ੈ j z
0x0B   ESC ;     k ◌ੰ
0x0C   ,     l ◌ੱ
0x0D CR ◌ੋ metro
0x0E   . ◌਼ ◌ੌ norte
0x0F ?   ◌੍ o
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma punjabi
UDH contiene 0x24 0x01 0x0A
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | PAG    
0x01 £ =   A Q    
0x02 PS >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   mi U  
0x06 ¤ _ ਖ਼   F V    
0x07 % # ਗ਼   GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF ਜ਼   J Z    
0x0B * SS2   K      
0x0C + ਫ਼ [ L      
0x0D CR2 ◌ੵ ~ METRO      
0x0E -   ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma gujarati (gujarati y escrituras latinas básicas)

El juego de caracteres de cambio de bloqueo
para el idioma gujarati
UDH contiene 0x25 0x01 0x05
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ઁ SP 0 ◌ા pag
0x01 ◌ં ! 1 ◌િ a q
0x02 ◌ઃ   2 ◌ી B r
0x03 3 ◌ુ C s
0x04 4 ◌ૂ D t
0x05 5   ◌ૃ mi tu
0x06 6 ◌ૄ F v
0x07 7 ◌ૅ gramo w
0x08 ) 8     h X
0x09 ( 9 ◌ે I y
0x0A LF : ◌ૈ j z
0x0B ESC ; ◌ૉ k
0x0C ,     l
0x0D CR ◌ો metro ◌ૢ
0x0E   . ◌઼ ◌ૌ norte ◌ૣ
0x0F ? ◌્ o
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma gujarati
UDH contiene 0x24 0x01 0x05
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | PAG    
0x01 £ =   A Q    
0x02 PS >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   mi U  
0x06 ¤ _     F V    
0x07 % #     GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF     J Z    
0x0B * SS2     K      
0x0C +   [ L      
0x0D CR2   ~ METRO      
0x0E -   ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma Oriya (Oriya y alfabetos latinos básicos)

El juego de caracteres de cambio de bloqueo
para el idioma Oriya
UDH contiene 0x25 0x01 0x09
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ଁ SP 0 ◌ା ◌ୖ pag
0x01 ◌ଂ   ! 1 ◌ି a q
0x02 ◌ଃ   2 ◌ୀ B r
0x03 3 ◌ୁ C s
0x04 4 ◌ୂ D t
0x05 5   ◌ୃ mi tu
0x06 6 F v
0x07 7   gramo w
0x08 ) 8     h X
0x09 ( 9 ◌େ I y
0x0A LF : ◌ୈ j z
0x0B ESC ;   k ◌ୗ
0x0C   ,     l
0x0D CR ◌ୋ metro
0x0E   . ◌଼ ◌ୌ norte ◌ୢ
0x0F ? ◌୍ o ◌ୣ
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma Oriya
UDH contiene 0x24 0x01 0x09
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | PAG    
0x01 £ =   A Q    
0x02 PS >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   mi U  
0x06 ¤ _ ଡ଼   F V    
0x07 % # ଢ଼   GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF   J Z    
0x0B * SS2   K      
0x0C + [ L      
0x0D CR2   ~ METRO      
0x0E -   ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Lengua tamil (escritura tamil y latín básico)

El juego de caracteres de cambio de bloqueo
para el idioma tamil
UDH contiene 0x25 0x01 0x0B
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00   SP 0   ◌ா pag
0x01 ◌ஂ   ! 1   ◌ி a q
0x02 ◌ஃ 2 ◌ீ B r
0x03   3 ◌ு C s
0x04   4 ◌ூ D t
0x05   5   mi tu
0x06   6   F v
0x07   7   gramo w
0x08   ) 8 ◌ெ h X
0x09   ( 9 ◌ே I y
0x0A LF   : ◌ை j z
0x0B   ESC   ;   k ◌ௗ
0x0C     , ◌ொ l
0x0D CR   ◌ோ metro
0x0E   .     ◌ௌ norte
0x0F ?   ◌் o
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de un solo turno
para el idioma tamil
UDH contiene 0x24 0x01 0x0B
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ <   | PAG    
0x01 £ =   A Q    
0x02 PS >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   mi U  
0x06 ¤ _   F V    
0x07 % #   GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF   J Z    
0x0B * SS2   K      
0x0C + [ L      
0x0D CR2 ~ METRO      
0x0E - ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma telugu (Telugu y alfabetos latinos básicos)

El juego de caracteres de cambio de bloqueo
para el idioma telugu
UDH contiene 0x25 0x01 0x0C
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 ◌ఁ SP 0 ◌ా ◌ౕ pag
0x01 ◌ం   ! 1 ◌ి a q
0x02 ◌ః 2 ◌ీ B r
0x03 3 ◌ు C s
0x04 4 ◌ూ D t
0x05 5 ◌ృ mi tu
0x06 6 ◌ౄ F v
0x07 7   gramo w
0x08 ) 8   ◌ె h X
0x09 ( 9 ◌ే I y
0x0A LF : ◌ై j z
0x0B ESC ;   k ◌ౖ
0x0C   ,   ◌ొ l
0x0D CR ◌ో metro
0x0E .   ◌ౌ norte ◌ౢ
0x0F ? ◌్ o ◌ౣ
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma Telugu
UDH contiene 0x24 0x01 0x0C
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70
0x00 @ < | PAG    
0x01 £ = A Q    
0x02 PS > ౿ B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   mi U    
0x06 ¤ _   F V    
0x07 % #   GRAMO W    
0x08 Y * {   H X    
0x09 '   }   I Y    
0x0A FF     J Z    
0x0B * SS2   K      
0x0C + [ L      
0x0D CR2 ~ METRO      
0x0E - ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Idioma kannada (kannada y alfabetos latinos básicos)

Bloquear el juego de caracteres de cambio
para el idioma kannada
UDH contiene 0x25 0x01 0x07
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!  
0x00   SP 0 pag
0x01   ! 1 ಿ a q
0x02 2 B r
0x03 3 C s
0x04 4 D t
0x05 5 mi tu
0x06 6 F v
0x07 7   gramo w
0x08 ) 8   h X
0x09 ( 9 I y
0x0A LF : j z
0x0B ESC ;   k
0x0C   ,   l
0x0D CR metro
0x0E . norte
0x0F ? o
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma kannada
UDH contiene 0x24 0x01 0x07
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!  
0x00 @ <   | PAG    
0x01 £ =   A Q    
0x02 PS >   B R    
0x03 ¥ ¡   C S    
0x04 ¿ ^   D T    
0x05 " ¡   mi U  
0x06 ¤ _   F V    
0x07 % #   GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF   J Z    
0x0B * SS2     K      
0x0C +   ] L      
0x0D CR2   ~ METRO      
0x0E -   ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Lengua malayalam (malayalam y escrituras latinas básicas)

El juego de caracteres de cambio de bloqueo
para el idioma malayalam
UDH contiene 0x25 0x01 0x08
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!  
0x00   SP 0 pag
0x01   ! 1 ി a q
0x02 2 B r
0x03 3 C s
0x04 4 D t
0x05 5 mi tu
0x06 6 F v
0x07 7   gramo w
0x08 ) 8 h X
0x09 ( 9 I y
0x0A LF : j z
0x0B ESC ;   k
0x0C   ,   l
0x0D CR metro
0x0E .   norte
0x0F ? o
  • LF es un control de avance de línea.
  • CR es un control de retorno de carro o llenado.
  • ESC es un control de escape.
  • SP es un personaje de espacio.
El juego de caracteres de cambio único
para el idioma malayalam
UDH contiene 0x25 0x01 0x08
  0x00 0x10 0x20 0x30 0x40 0x50 0x60 0x70!  
0x00 @ < - PAG    
0x01 £ = A Q    
0x02 PS > B R    
0x03 ¥ ¡ C S    
0x04 ¿ ^ ൿ D T    
0x05 " ¡   mi U  
0x06 ¤ _   F V    
0x07 % #   GRAMO W    
0x08 Y * {   H X    
0x09 ' }   I Y    
0x0A FF   J Z    
0x0B * SS2   K      
0x0C + [ L      
0x0D CR2 ~ METRO      
0x0E - ] norte      
0x0F / \   O      
  • FF es un control de salto de página. Si no se reconoce, se tratará como LF .
  • CR2 es un personaje de control. En esta posición no se codificará ningún carácter específico del idioma.
  • SS2 es un segundo control de escape de cambio único reservado para futuras ampliaciones.

Ver también

Referencias

enlaces externos