Código de escritura indio para el intercambio de información - Indian Script Code for Information Interchange

Indian Script Code for Information Interchange ( ISCII ) es un esquema de codificación para representar varios sistemas de escritura de la India . Codifica las principales escrituras índicas y una transliteración romana. Los scripts admitidos son: asamés , bengalí (bangla) , devanagari , gujarati , gurmukhi , kannada , malayalam , oriya , tamil y telugu . ISCII no codifica los sistemas de escritura de la India que se basan en persa , pero los códigos de cambio de su sistema de escritura, no obstante, proporcionan cachemir , sindhi , urdu , persa , pashto y árabe . Los sistemas de escritura basados ​​en persa se codificaron posteriormente en la codificación PASCII .

ISCII no se ha utilizado ampliamente fuera de determinadas instituciones gubernamentales, aunque se utilizó una variante sin el mecanismo ATR en el Mac OS clásico , y ahora Unicode lo ha vuelto obsoleto en gran medida . Unicode utiliza un bloque separado para cada sistema de escritura índico y conserva en gran medida el diseño ISCII dentro de cada bloque.

Fondo

Los sistemas de escritura derivados de Brahmi tienen una estructura similar. Por tanto, ISCII codifica letras con el mismo valor fonético en el mismo punto de código, superponiendo las distintas escrituras. Por ejemplo, los códigos ISCII 0xB3 0xDB representan [ki]. Esto se traducirá como കി en malayalam , कि en Devanagari, como ਕਿ en Gurmukhi y como கி en tamil. El sistema de escritura se puede seleccionar en texto enriquecido mediante marcado o en texto plano mediante el código ATR que se describe a continuación.

Una motivación para el uso de una única codificación es la idea de que permitirá una fácil transliteración de un sistema de escritura a otro. Sin embargo, existen suficientes incompatibilidades que esta no es realmente una idea práctica.

ISCII es una codificación de 8 bits. Los 128 puntos de código inferiores son ASCII simple , los 128 puntos de código superiores son específicos de ISCII. Además de los puntos de código que representan caracteres, ISCII utiliza un punto de código con ATR mnemónico que indica que el siguiente byte contiene uno de dos tipos de información. Un conjunto de valores cambia el sistema de escritura hasta el siguiente indicador del sistema de escritura o al final de la línea. Otro conjunto de valores selecciona modos de visualización como negrita y cursiva. ISCII no proporciona un medio para indicar el sistema de escritura predeterminado.

Diseño de página de códigos

La siguiente tabla muestra el juego de caracteres para Devanagari . Los conjuntos de códigos para asamés, bengalí, gujarati, gurmukhi, kannada, malayalam, oriya, tamil y telugu son similares, y cada forma devanagari se reemplaza por la forma equivalente en cada sistema de escritura . Cada carácter se muestra con su código decimal y su equivalente Unicode .

ISCII Devanagari
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _MI _F
0_
0
NUL
0000
SOH
0001
STX
0002
ETX
0003
EOT
0004
ENQ
0005
ACK
0006
BEL
0007
BS
0008
HT
0009
LF
000A
VT
000B
FF
000C
CR
000D
SO
000E
SI
000F
1_
16
DLE
0010
DC1
0011
DC2
0012
DC3
0013
DC4
0014
NAK
0015
SYN
0016
ETB
0017
PUEDE
0018
EM
0019
SUB
001A
ESC
001B
FS
001C
GS
001D
RS
001E
US
001F
2_
32
SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
«
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Yo
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
un
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
yo
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
DEL
007F
8_
128
9_
144
A_
160

0901

0902

0903

0905

0906

0907

0908

0909

090A

090B

090E

090F

0910

090D

0912
B_
176

0913

0914

0911

0915

0916

0917

0918

0919

091A

091B

091C

091D

091E

091F

0920

0921
C_
192

0922

0923

0924

0925

0926

0927

0928

0929

092A

092B

092C

092D

092E

092F
य़
095F

0930
D_
208

0931

0932

0933

0934

0935

0936

0937

0938

0939
INV
 

093E
ि
093F

0940

0941

0942

0943
E_
224

0946

0947

0948

0945

094A

094B

094C

0949

094D

093C

0964
ATR
 
F_
240
EXT
 

0966

0967

0968

0969

096A

096B

096C

096D

096E

096F

  Letra  Número  Puntuación  Símbolo  Otro  Indefinido

Puntos de código especiales

Carácter INV: punto de código D9 (217)
El carácter INV (consonante invisible) se utiliza como pseudoconsonante para mostrar elementos combinados de forma aislada. Por ejemplo, क (ka) + ् (halant) + INV = क्‍ (mitad ka). El equivalente Unicode es U + 200D CERO WIDTH JOINER ( ZWJ ). Sin embargo, como se indica a continuación , el carácter halant de ISCII se puede duplicar o combinar con el nukta de ISCII para lograr efectos creados por ZWNJ o ZWJ en Unicode. Por esta razón, Apple asigna el carácter ISCII INV a la marca Unicode de izquierda a derecha , para garantizar el viaje de ida y vuelta .
Carácter ATR: punto de código EF (239)
El carácter ATR (atributo) seguido de un código de bytes se utiliza para cambiar a un atributo de fuente diferente (como negrita) oa un idioma ISCII o PASCII diferente (como bengalí), hasta la siguiente secuencia ATR o el final de la línea. Esto no tiene un equivalente Unicode directo, ya que los atributos de fuente no son parte de Unicode y cada script tiene un conjunto distinto de puntos de código.
Atributos de presentación
ATR + byte Mnemotécnico Opción de formato
0x30 BLD Negrita
0x31 ITA Cursiva
0x32 UL Subrayado
0x33 Exp Expandido
0x34 HLT Destacar
0x35 OTL Esquema
0x36 SHD Sombra
0x37 CIMA Mitad superior del carácter (se usa con LOW para crear caracteres de doble altura)
0x38 BAJO Mitad inferior del carácter (se usa con TOP para crear caracteres de doble altura)
0x39 DBL Toda la fila de doble ancho y doble altura
Cambios a los scripts ISCII
ATR + byte Mnemotécnico Escritura ISCII
0x40 DEF Script predeterminado (es decir, el script al que se volverá a cambiar después de un salto de línea)
0x41 RMN Transliteración romanizada
0x42 DEV Devanagari
0x43 BNG Escritura bengalí
0x44 TML Escritura tamil
0x45 TLG Escritura telugu
0x46 ASM Escritura asamés
0x47 O YO Guión de Odia
0x48 KND Escritura en kannada
0x49 MLM Escritura malayalam
0x4A GJR Escritura gujarati
0x4B PNJ Gurmukhī
Cambios a PASCII
ATR + byte Mnemotécnico Configuración regional PASCII
0x71 ARB alfabeto arabe
0x72 PES Alfabeto persa
0x73 URD Alfabeto urdu
0x74 SND Alfabeto sindhi
0x75 KSM Alfabeto de cachemira
0x76 PST Alfabeto pashto
Carácter EXT: punto de código F0 (240)
El carácter EXT (extensiones para Vedic) seguido de un código de byte indica un acento Vedic. Esto no tiene un equivalente Unicode directo, ya que los acentos védicos se asignan a distintos puntos de código.
Carácter halant ्— punto de código E8 (232)
El carácter halant elimina la vocal implícita de una consonante y se usa entre consonantes para representar consonantes conjuntas. Por ejemplo, क (ka) + ् (halant) + त (ta) = क्त (kta). La secuencia ् (halant) + ् (halant) muestra una conjunción con un halant explícito, por ejemplo क (ka) + ् (halant) + ् (halant) + त (ta) = क्‌त. La secuencia ् (halant) + ़ (nukta) muestra una conjunción con medias consonantes, si están disponibles, por ejemplo क (ka) + ् (halant) + ़ (nukta) + त (ta) = क्‍त.
Correspondencias entre ISCII y Unicode comportamiento halent / virama
ISCII Unicode
solo halant E8 halant 094D
halant + halant E8 E8 halant + ZWNJ 094D 200C
halant + nukta E8 E9 halant + ZWJ 094D 200D
Carácter Nukta ़— punto de código E9 (233)
El carácter nukta después de otro carácter ISCII se utiliza para una serie de caracteres más raros que no existen en el conjunto principal de ISCII. Por ejemplo क (ka) + ़ (nukta) = क़ (qa). Estos caracteres tienen formularios precompuestos en Unicode, como se muestra en la siguiente tabla.
Caracteres Unicode únicos correspondientes a secuencias nukta ISCII

Punto de código ISCII

Personaje original
Personaje
con nukta

Punto de código Unicode
A1 (161) 0950
A6 (166) 090C
A7 (167) 0961
AA (176) 0960
B3 (179) क़ 0958
B4 (180) ख़ 0959
B5 (181) ग़ 095A
BA (186) ज़ 095B
Novio (191) ड़ 095C
C0 (192) ढ़ 095D
C9 (201) फ़ 095E
DB (219) ि 0962
CC (220) 0963
DF (223) 0944
EA (234) 093D

Páginas de códigos para conversión ISCII

Para convertir de Unicode (UTF-8) a una codificación ISCII / ANSI, se pueden utilizar las siguientes páginas de códigos:

  • 57002: Devanagari (hindi, marathi, sánscrito, Konkani)
  • 57003: bengalí
  • 57004: tamil
  • 57005: Telugu
  • 57006: Asamés
  • 57007: Odia
  • 57008: canarés
  • 57009: malayalam
  • 57010: gujarati
  • 57011: Punjabi (Gurmukhi)

Puntos de código para todos los idiomas

Referencias

enlaces externos