Frecuencia de letras árabes - Arabic letter frequency

La frecuencia de las letras en el texto se ha estudiado a menudo para su uso en criptoanálisis y , en particular, en el análisis de frecuencia .

Ningún idioma tiene una distribución exacta de frecuencia de letras, ya que todos los escritores escriben de manera ligeramente diferente. Como regla general, los textos en diferentes idiomas que usan la escritura árabe (por ejemplo , árabe , turco otomano , persa y urdu ) tendrán diferentes frecuencias de letras, más obviamente en el caso de letras que solo se usan en algunos idiomas (por ejemplo, las letras persas پ, چ , گ, que no se utilizan para escribir en árabe).

Los métodos que codifican las letras más frecuentes con los símbolos más cortos fueron iniciados por los códigos telegráficos y se utilizan en técnicas modernas de compresión de datos como la codificación Huffman .

¿Qué se cuenta en la entrada de texto árabe?

El alfabeto árabe consta de 28 letras primarias, estas son las letras 1 a 28 en la Tabla 1. Las ocho letras modificadas enumeradas en las posiciones 29 a 36 en la misma tabla se utilizan de la misma manera. Si estas 8 formas modificadas se incluyen en la lista principal según la forma o la similitud fonética, el resultado se muestra en la Tabla 2. Para un análisis de frecuencia preciso, cada una de las 36 letras de la Tabla 1 obtiene su frecuencia contada de forma independiente.

El orden del alfabeto que se muestra en las tablas es más lógico que el que utiliza el estándar Unicode .

Figura 1: Caracteres árabes que se pueden producir con el teclado de letras árabes Intellark .
Tabla 1: El alfabeto árabe. Las letras 1 a 28 son las letras principales. Las letras 29 a 36 son las letras modificadas.
Tabla 2: El alfabeto árabe, con letras modificadas agrupadas en sus formas primarias.
Distribución de frecuencia de letras para las letras contadas: datos de histograma ordenados según el valor Unicode
Distribución de frecuencia de letras para las letras contadas: datos de histograma ordenados por frecuencia

Aunque el conjunto completo de caracteres árabes incluye unos diez signos diacríticos, como se muestra en la Figura 1, el análisis de frecuencia de los caracteres árabes solo se ocupa de calcular la frecuencia de las letras del alfabeto que se muestran en la Tabla 2.

Fuentes con más de cinco millones de letras

Las siguientes fuentes árabes famosas se utilizan para generar una cantidad aceptable de datos sobre los que se realizan estadísticas de frecuencia.

  • Los primeros siete volúmenes de la serie البداية والنهاية ( El principio y el fin ) de Ibn Kathir , con 2.855 páginas, 1.096.047 palabras, 4.326.031 letras.
  • El libro de الرحيق المختوم ( El néctar sellado ) de Almubarakfuri, con 284 páginas, conteniendo 134,662 palabras, conteniendo 553,740 letras.
  • El libro de تحفة العروسين ( La obra maestra de las novias ) de Al-shuri, con 239 páginas, que contiene 66,550 palabras, que contiene 242,361 letras.

En conjunto, estas fuentes suman 3.378 páginas, con 1.297.259 palabras y 5.122.132 letras.

Los siguientes gráficos muestran la distribución de frecuencia de letras para las letras contadas; La Figura 2 muestra los datos de un histograma ordenados según el valor Unicode . La Figura 3 muestra los datos de un histograma ordenados por frecuencia.

Letra Frecuencia relativa en el idioma árabe
ء 0,2% 0,2
 
ؤ 0,05% 0,05
 
ئ 0,18% 0,18
 
ا 12,5% 12,5
 
آ 0,1% 0,1
 
أ 3% 3
 
إ 1% 1
 
ب 4,5% 4.5
 
É 3,2% 3.2
 
ت 0,8% 0,8
 
ث 1,1% 1.1
 
ج 1,8% 1.8
 
Í 0,8% 0,8
 
خ 0,9% 0,9
 
د 2,5% 2.5
 
ذ 0,8% 0,8
 
ر 4,1% 4.1
 
ز 0,4% 0.4
 
س 2,3% 2.3
 
ش 0,7% 0,7
 
ص 0,9% 0,9
 
ض 0,4% 0.4
 
ط 0,5% 0,5
 
ظ 0,1% 0,1
 
ع 3,9% 3.9
 
غ 0,3% 0,3
 
ف 2,7% 2,7
 
ق 2,6% 2.6
 
ك 1,9% 1,9
 
ل 12% 12
 
م 6,3% 6.3
 
ن 6,4% 6.4
 
Å 5% 5
 
و 5,8% 5.8
 
ى 1% 1
 
ي 6,2% 6.2
 

Referencias

enlaces externos