Ley de Benford - Benford's law

Una secuencia de barras azules decrecientes sobre un fondo de cuadrícula gris claro
La distribución de los primeros dígitos, según la ley de Benford. Cada barra representa un dígito y la altura de la barra es el porcentaje de números que comienzan con ese dígito.
Frecuencia del primer dígito significativo de constantes físicas trazadas contra la ley de Benford

La ley de Benford , también llamada ley de Newcomb-Benford , la ley de los números anómalos o la ley del primer dígito , es una observación de que en muchos conjuntos de datos numéricos de la vida real , es probable que el primer dígito sea ​​pequeño. En conjuntos que obedecen a la ley, el número 1 aparece como el primer dígito significativo alrededor del 30% del tiempo, mientras que el 9 aparece como el primer dígito significativo menos del 5% del tiempo. Si los dígitos se distribuyeran uniformemente, cada uno de ellos aparecería aproximadamente el 11,1% del tiempo. La ley de Benford también hace predicciones sobre la distribución de segundos dígitos, terceros dígitos, combinaciones de dígitos, etc.

El gráfico de la derecha muestra la ley de Benford para base 10 , uno de los infinitos casos de una ley generalizada con respecto a números expresados ​​en bases arbitrarias (enteras), lo que descarta la posibilidad de que el fenómeno pueda ser un artefacto del sistema numérico de base 10. En 1995 se publicaron más generalizaciones que incluyen declaraciones análogas tanto para el enésimo dígito inicial como para la distribución conjunta de los n dígitos iniciales, el último de los cuales conduce a un corolario en el que se muestra que los dígitos significativos son una cantidad estadísticamente dependiente .

Se ha demostrado que este resultado se aplica a una amplia variedad de conjuntos de datos, incluidas las facturas de electricidad, las direcciones de las calles, los precios de las acciones, los precios de las viviendas, las cifras de población, las tasas de mortalidad, las longitudes de los ríos y las constantes físicas y matemáticas . Al igual que otros principios generales sobre datos naturales, por ejemplo, el hecho de que muchos conjuntos de datos se aproximan bien mediante una distribución normal, hay ejemplos ilustrativos y explicaciones que cubren muchos de los casos en los que se aplica la ley de Benford, aunque hay muchos otros casos en los que la ley de Benford aplica que resisten una explicación simple. Tiende a ser más preciso cuando los valores se distribuyen en varios órdenes de magnitud , especialmente si el proceso que genera los números está descrito por una ley de potencia (que es común en la naturaleza).

La ley lleva el nombre del físico Frank Benford , quien la declaró en 1938 en un artículo titulado "La ley de los números anómalos", aunque Simon Newcomb la había establecido previamente en 1881.

La ley es similar en concepto, aunque no idéntica en distribución, a la ley de Zipf .

Definición

Rectángulo con eje desplazado en negrita en la parte inferior izquierda y líneas de color gris claro que representan logaritmos
Una barra de escala logarítmica . Al elegir una posición x aleatoria uniformemente en esta recta numérica, aproximadamente el 30% de las veces el primer dígito del número será 1.

Se dice que un conjunto de números satisface la ley de Benford si el dígito principal  d ( d  ∈ {1, ..., 9} ) ocurre con probabilidad

Por tanto, los primeros dígitos de dicho conjunto tienen la siguiente distribución:

D Tamaño relativo de
1 30,1% 30,1
 
2 17,6% 17,6
 
3 12,5% 12,5
 
4 9,7% 9,7
 
5 7,9% 7,9
 
6 6,7% 6,7
 
7 5,8% 5.8
 
8 5,1% 5.1
 
9 4,6% 4.6
 

La cantidad es proporcional al espacio entre d y d  + 1 en una escala logarítmica . Por lo tanto, esta es la distribución esperada si los logaritmos de los números (pero no los números en sí) se distribuyen de manera uniforme y aleatoria .

Por ejemplo, un número x , limitado a estar entre 1 y 10, comienza con el dígito 1 si 1 ≤  x  <2 , y comienza con el dígito 9 si 9 ≤  x  <10 . Por lo tanto, x comienza con el dígito 1 si log 1 ≤ log  x  <log 2 , o comienza con 9 si log 9 ≤ log  x  <log 10 . El intervalo [log 1, log 2] es mucho más amplio que el intervalo [log 9, log 10] (0,30 y 0,05 respectivamente); por lo tanto, si log x se distribuye de manera uniforme y aleatoria, es mucho más probable que caiga en el intervalo más amplio que en el intervalo más estrecho, es decir, es más probable que comience con 1 que con 9; las probabilidades son proporcionales a los anchos de intervalo, dando la ecuación anterior (así como la generalización a otras bases además del decimal).

La ley de Benford a veces se expresa en una forma más fuerte, afirmando que la parte fraccionaria del logaritmo de los datos está típicamente distribuida casi uniformemente entre 0 y 1; de esto se puede derivar la afirmación principal sobre la distribución de los primeros dígitos.

En otras bases

Gráficos de P  ( d  ) para el dígito inicial d en varias bases. La línea de puntos muestra que P  ( d  ) era la distribución uniforme. En la imagen SVG , coloque el cursor sobre un gráfico para mostrar el valor de cada punto.

Una extensión de la ley de Benford predice la distribución de los primeros dígitos en otras bases además del decimal ; de hecho, cualquier base b  ≥ 2 . La forma general es:

Para b  = 2,1 (los sistemas numéricos binario y unario ), la ley de Benford es verdadera pero trivial: todos los números binarios y unarios (excepto el 0 o el conjunto vacío) comienzan con el dígito 1. (Por otro lado, la generalización de la ley de Benford al segundo y al dgito posterior no es trivial, incluso para nmeros binarios).

Ejemplos de

Distribución de los primeros dígitos (en%, barras rojas) en la población de los 237 países del mundo en julio de 2010. Los puntos negros indican la distribución predicha por la ley de Benford.

Al examinar una lista de las alturas de las 58 estructuras más altas del mundo por categoría, se muestra que 1 es, con mucho, el dígito inicial más común, independientemente de la unidad de medida (véase "invariancia de escala", a continuación):

Dígito principal metro pie Según la ley de Benford
Contar % Contar %
1 24 41,4% dieciséis 27,6% 30,1%
2 9 15,5% 8 13,8% 17,6%
3 7 12,1% 5 8,6% 12,5%
4 6 10,3% 7 12,1% 9,7%
5 1 1,7% 10 17,2% 7,9%
6 5 8,6% 4 6,9% 6,7%
7 1 1,7% 2 3,4% 5,8%
8 4 6,9% 5 8,6% 5,1%
9 1 1,7% 1 1,7% 4,6%

Otro ejemplo es el primer dígito de 2 n . La secuencia de los primeros 96 dígitos iniciales (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1 ... (secuencia A008952 en la OEIS )) exhibe una adherencia más cercana a la ley de Benford de lo esperado para secuencias de su longitud, porque se deriva de una secuencia geométrica, no aleatoria; el dígito 1 siempre aparece cada tres o cuatro dígitos, y solo el dígito 9 puede aparecer dos veces seguidas.

Dígito principal Ocurrencia Según la ley de Benford
Contar %
1 29 30,2% 30,1%
2 17 17,7% 17,6%
3 12 12,5% 12,5%
4 10 10,4% 9,7%
5 7 7,3% 7,9%
6 6 6,3% 6,7%
7 5 5,2% 5,8%
8 5 5,2% 5,1%
9 5 5,2% 4,6%

Historia

El descubrimiento de la ley de Benford se remonta a 1881, cuando el astrónomo canadiense-estadounidense Simon Newcomb notó que en las tablas de logaritmos las páginas anteriores (que comenzaban con 1) estaban mucho más gastadas que las otras páginas. El resultado publicado de Newcomb es la primera instancia conocida de esta observación e incluye también una distribución en el segundo dígito. Newcomb propuso una ley según la cual la probabilidad de que un solo número N sea ​​el primer dígito de un número es igual a log ( N  + 1) - log ( N ).

El fenómeno fue nuevamente observado en 1938 por el físico Frank Benford , quien lo probó con datos de 20 dominios diferentes y se le atribuyó el mérito. Su conjunto de datos incluía las superficies de 335 ríos, los tamaños de 3259 poblaciones de EE. UU., 104 constantes físicas , 1800 pesos moleculares , 5000 entradas de un manual de matemáticas, 308 números contenidos en un número de Reader's Digest , las direcciones de las primeras 342 personas enumeradas en American Men of Science y 418 tasas de mortalidad. El número total de observaciones utilizadas en el documento fue de 20 229. Este descubrimiento recibió más tarde el nombre de Benford (lo que lo convierte en un ejemplo de la ley de Stigler ).

En 1995, Ted Hill probó el resultado de las distribuciones mixtas que se mencionan a continuación .

Explicaciones

La ley de Benford tiende a aplicarse con mayor precisión a datos que abarcan varios órdenes de magnitud. Como regla general, cuantos más órdenes de magnitud cubran los datos de manera uniforme, con mayor precisión se aplicará la ley de Benford. Por ejemplo, se puede esperar que la ley de Benford se aplique a una lista de números que representan las poblaciones de los asentamientos del Reino Unido. Pero si un "asentamiento" se define como una aldea con una población de entre 300 y 999 habitantes, la ley de Benford no se aplicará.

Considere las distribuciones de probabilidad que se muestran a continuación, referenciadas a una escala logarítmica . En cada caso, el área total en rojo es la probabilidad relativa de que el primer dígito sea 1, y el área total en azul es la probabilidad relativa de que el primer dígito sea 8. Para la primera distribución, el tamaño de las áreas de rojo y los azules son aproximadamente proporcionales a los anchos de cada barra roja y azul. Por lo tanto, los números extraídos de esta distribución seguirán aproximadamente la ley de Benford. Por otro lado, para la segunda distribución, la relación de las áreas de rojo y azul es muy diferente de la relación de los anchos de cada barra roja y azul. Más bien, las áreas relativas de rojo y azul están determinadas más por la altura de las barras que por el ancho. En consecuencia, los primeros dígitos de esta distribución no cumplen en absoluto la ley de Benford.

Distribución de probabilidad amplia del logaritmo de una variable, que se muestra en una escala logarítmica. La ley de Benford se puede ver en el área más grande cubierta por el rojo (primer dígito uno) en comparación con el sombreado azul (primer dígito 8).
Distribución de probabilidad estrecha del logaritmo de una variable, que se muestra en una escala logarítmica. No se sigue la ley de Benford porque la distribución estrecha no cumple con los criterios de la ley de Benford.

Por lo tanto, las distribuciones del mundo real que abarcan varios órdenes de magnitud de manera bastante uniforme ( por ejemplo , poblaciones de aldeas / pueblos / ciudades, precios del mercado de valores), es probable que satisfagan la ley de Benford con una precisión muy alta. Por otro lado, es poco probable que una distribución que esté mayor o totalmente dentro de un orden de magnitud ( p . Ej. , Alturas de adultos humanos o puntajes de CI) satisfaga la ley de Benford con mucha precisión o en absoluto. Sin embargo, la diferencia entre regímenes aplicables e inaplicables no es un corte brusco: a medida que la distribución se estrecha, las desviaciones de la ley de Benford aumentan gradualmente.

(Esta discusión no es una explicación completa de la ley de Benford, porque no ha explicado por qué se encuentran tan a menudo conjuntos de datos que, cuando se grafican como una distribución de probabilidad del logaritmo de la variable, son relativamente uniformes en varios órdenes de magnitud).

Explicación de la entropía de Krieger-Kafri

En 1970 Wolfgang Krieger demostró lo que ahora se llama el Teorema del generador de Krieger . El teorema del generador de Krieger podría verse como una justificación para la suposición en el modelo de bola y caja de Kafri que, en una base dada con un número fijo de dígitos 0, 1, ... n , ... ,, dígito n es equivalente a una caja de Kafri que contiene n bolas que no interactúan. Varios otros científicos y estadísticos han sugerido explicaciones relacionadas con la entropía para la ley de Benford.

Fluctuaciones multiplicativas

Muchos ejemplos del mundo real de la ley de Benford surgen de fluctuaciones multiplicativas. Por ejemplo, si el precio de una acción comienza en $ 100 y luego cada día se multiplica por un factor elegido al azar entre 0,99 y 1,01, entonces, durante un período prolongado, la distribución de probabilidad de su precio satisface la ley de Benford con una precisión cada vez mayor.

La razón es que el logaritmo del precio de las acciones está experimentando un recorrido aleatorio , por lo que con el tiempo su distribución de probabilidad será cada vez más amplia y suave (ver arriba ). (Más técnicamente, el teorema del límite central dice que multiplicar más y más variables aleatorias creará una distribución logarítmica normal con una varianza cada vez mayor, por lo que eventualmente cubre muchos órdenes de magnitud de manera casi uniforme). , la distribución tiene que ser aproximadamente invariante cuando se amplía por cualquier factor hasta 10; un conjunto de datos distribuidos logarítmicamente normal con una amplia dispersión tendría esta propiedad aproximada.

A diferencia de las fluctuaciones multiplicativas, las fluctuaciones aditivas no conducen a la ley de Benford: conducen en cambio a distribuciones de probabilidad normales (nuevamente por el teorema del límite central ), que no satisfacen la ley de Benford. Por ejemplo, la "cantidad de latidos que experimento en un día determinado" se puede escribir como la suma de muchas variables aleatorias (p. Ej., La suma de latidos por minuto durante todos los minutos del día), por lo que es poco probable que esta cantidad siga Ley de Benford. Por el contrario, el precio hipotético de las acciones descrito anteriormente se puede escribir como el producto de muchas variables aleatorias (es decir, el factor de cambio de precio para cada día), por lo que es probable que siga bastante bien la ley de Benford.

Distribuciones de probabilidad múltiple

Anton Formann proporcionó una explicación alternativa al dirigir la atención a la interrelación entre la distribución de los dígitos significativos y la distribución de la variable observada . Mostró en un estudio de simulación que las distribuciones largas de cola derecha de una variable aleatoria son compatibles con la ley de Newcomb-Benford, y que para distribuciones de la razón de dos variables aleatorias, el ajuste generalmente mejora. Para números extraídos de ciertas distribuciones (puntajes de CI, alturas humanas), la ley de Benford no se cumple porque estas variables obedecen a una distribución normal que se sabe que no satisface la ley de Benford, ya que las distribuciones normales no pueden abarcar varios órdenes de magnitud y la mantisa de sus logaritmos no estarán distribuidos (ni siquiera aproximadamente) de manera uniforme. Sin embargo, si uno "mezcla" números de esas distribuciones, por ejemplo, tomando números de artículos de periódicos, reaparece la ley de Benford. Esto también se puede probar matemáticamente: si uno elige repetidamente "aleatoriamente" una distribución de probabilidad (de un conjunto no correlacionado) y luego elige aleatoriamente un número de acuerdo con esa distribución, la lista de números resultante obedecerá la ley de Benford. Se ha propuesto una explicación probabilística similar para la aparición de la ley de Benford en los números de la vida cotidiana al mostrar que surge naturalmente cuando se consideran mezclas de distribuciones uniformes.

Invariancia

Si hay una lista de longitudes, la distribución de los primeros dígitos de los números en la lista puede ser generalmente similar independientemente de si todas las longitudes se expresan en metros, yardas, pies o pulgadas, etc. Lo mismo se aplica a las unidades monetarias. .

Este no es siempre el caso. Por ejemplo, la altura de los humanos adultos casi siempre comienza con 1 o 2 cuando se mide en metros, y casi siempre comienza con 4, 5, 6 o 7 cuando se mide en pies.

Pero considere una lista de longitudes que se distribuye uniformemente en muchos órdenes de magnitud. Por ejemplo, una lista de 1000 longitudes mencionadas en artículos científicos incluirá las medidas de moléculas, bacterias, plantas y galaxias. Si uno escribe todas esas longitudes en metros, o las escribe todas en pies, es razonable esperar que la distribución de los primeros dígitos sea la misma en las dos listas.

En estas situaciones, donde la distribución de los primeros dígitos de un conjunto de datos es invariante de escala (o independiente de las unidades en las que se expresan los datos), la distribución de los primeros dígitos siempre viene dada por la ley de Benford.

Por ejemplo, el primer dígito (distinto de cero) en esta lista de longitudes debe tener la misma distribución si la unidad de medida es pies o yardas. Pero hay tres pies en una yarda, por lo que la probabilidad de que el primer dígito de una longitud en yardas sea 1 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 3, 4 o 5; De manera similar, la probabilidad de que el primer dígito de una longitud en yardas sea 2 debe ser la misma que la probabilidad de que el primer dígito de una longitud en pies sea 6, 7 u 8. Al aplicar esto a todas las escalas de medición posibles se obtiene la distribución logarítmica de Ley de Benford.

La ley de Benford para los primeros dígitos es invariante de base para los sistemas numéricos. Hay condiciones y pruebas de invariancia de suma, invariancia inversa, invariancia de suma y resta.

Aplicaciones

Detección de fraudes contables

En 1972, Hal Varian sugirió que la ley podría usarse para detectar posibles fraudes en listas de datos socioeconómicos presentados en apoyo de decisiones de planificación pública. Basado en la suposición plausible de que las personas que fabrican figuras tienden a distribuir sus dígitos de manera bastante uniforme, una simple comparación de la distribución de frecuencia del primer dígito de los datos con la distribución esperada de acuerdo con la ley de Benford debería mostrar cualquier resultado anómalo.

Uso en juicios penales

En los Estados Unidos, se han admitido pruebas basadas en la ley de Benford en casos penales a nivel federal, estatal y local.

Datos electorales

Walter Mebane , politólogo y estadístico de la Universidad de Michigan, fue el primero en aplicar la prueba de ley de Benford de segundo dígito (prueba 2BL) en análisis forense electoral . Dichos análisis se consideran un método simple, aunque no infalible, para identificar irregularidades en los resultados electorales y ayudar a detectar el fraude electoral . Un estudio de 2011 de los politólogos Joseph Deckert, Mikhail Myagkov y Peter C. Ordeshook argumentó que la ley de Benford es problemática y engañosa como indicador estadístico de fraude electoral. Su método fue criticado por Mebane en una respuesta, aunque estuvo de acuerdo en que hay muchas salvedades en la aplicación de la ley de Benford a los datos electorales.

La ley de Benford se ha utilizado como prueba de fraude en las elecciones iraníes de 2009 . Un análisis de Mebane encontró que los segundos dígitos en los recuentos de votos para el presidente Mahmoud Ahmadinejad , el ganador de las elecciones, tendían a diferir significativamente de las expectativas de la ley de Benford, y que las urnas con muy pocas papeletas inválidas tenían una mayor influencia en la votación. resultados, lo que sugiere un relleno de boletas generalizado . Otro estudio utilizó simulaciones de arranque para encontrar que el candidato Mehdi Karroubi recibió casi el doble de conteos de votos comenzando con el dígito 7 de lo que se esperaría de acuerdo con la ley de Benford, mientras que un análisis de la Universidad de Columbia concluyó que la probabilidad de que una elección justa produzca tanto muy pocos dígitos no adyacentes y las desviaciones sospechosas en las frecuencias del último dígito que se encontraron en las elecciones presidenciales iraníes de 2009 son menos del 0,5 por ciento. La ley de Benford se ha aplicado también para la auditoría y detección de fraude forense en los datos del 2003 de California elección gubernativa , las 2000 y las elecciones presidenciales de 2004 en Estados Unidos , y la 2009 elección federal alemán ; Se descubrió que la prueba de la ley de Benford "vale la pena tomarla en serio como prueba estadística de fraude", aunque "no es sensible a las distorsiones que sabemos que afectaron significativamente a muchos votos".

La ley de Benford también se ha aplicado incorrectamente para reclamar fraude electoral. Al aplicar la ley a los resultados electorales de Joe Biden para Chicago , Milwaukee y otras localidades en las elecciones presidenciales de Estados Unidos de 2020 , la distribución del primer dígito no siguió la ley de Benford. La aplicación incorrecta fue el resultado de mirar datos que estaban estrechamente ligados en el rango, lo que viola el supuesto inherente a la ley de Benford de que el rango de los datos es grande. Según Mebane, "se entiende ampliamente que los primeros dígitos de los recuentos de votos de los distritos electorales no son útiles para tratar de diagnosticar fraudes electorales".

Datos macroeconómicos

De manera similar, se demostró que los datos macroeconómicos que el gobierno griego informó a la Unión Europea antes de ingresar a la eurozona eran probablemente fraudulentos según la ley de Benford, aunque años después de la adhesión del país.

Análisis de dígitos de precios

La ley de Benford como punto de referencia para la investigación de dígitos de precios se ha introducido con éxito en el contexto de la investigación de precios. La importancia de este punto de referencia para detectar irregularidades en los precios se demostró por primera vez en un estudio a escala europea que investigó los dígitos de los precios al consumidor antes y después de la introducción del euro para los ajustes de precios. La introducción del euro en 2002, con sus distintos tipos de cambio, distorsionó las pautas de precios nominales existentes y, al mismo tiempo, mantuvo los precios reales. Si bien los primeros dígitos de los precios nominales se distribuyeron de acuerdo con la ley de Benford, el estudio mostró una clara desviación de este índice de referencia para el segundo y tercer dígitos en los precios de mercado nominales con una clara tendencia hacia los precios psicológicos después del choque nominal de la introducción del euro.

Datos del genoma

El número de marcos de lectura abiertos y su relación con el tamaño del genoma difiere entre eucariotas y procariotas, mostrando los primeros una relación log-lineal y los segundos una relación lineal. Se ha utilizado la ley de Benford para probar esta observación con un ajuste excelente a los datos en ambos casos.

Detección de fraude científico

Una prueba de coeficientes de regresión en artículos publicados mostró concordancia con la ley de Benford. Como grupo de comparación, se pidió a los sujetos que fabricaran estimaciones estadísticas. Los resultados fabricados se ajustaban a la ley de Benford en los primeros dígitos, pero no obedecían la ley de Benford en los segundos dígitos.

Pruebas estadísticas

Aunque la prueba de chi-cuadrado se ha utilizado para comprobar el cumplimiento de la ley de Benford, tiene un poder estadístico bajo cuando se utiliza con muestras pequeñas.

La prueba de Kolmogorov-Smirnov y la prueba de Kuiper son más poderosas cuando el tamaño de la muestra es pequeño, particularmente cuando se usa el factor correctivo de Stephens. Estas pruebas pueden ser demasiado conservadoras cuando se aplican a distribuciones discretas. Morrow ha generado los valores para la prueba de Benford. Los valores críticos de las estadísticas de prueba se muestran a continuación:

α
Prueba
0,10 0,05 0,01
Kuiper 1,191 1.321 1.579
Kolmogorov – Smirnov 1.012 1,148 1.420

Estos valores críticos proporcionan los valores estadísticos de prueba mínimos necesarios para rechazar la hipótesis de cumplimiento de la ley de Benford en los niveles de significancia dados .

Se han publicado dos pruebas alternativas específicas de esta ley: primero, el estadístico max ( m ) viene dado por

y en segundo lugar, el estadístico de distancia ( d ) viene dado por

donde FSD es el primer dígito significativo y N es el tamaño de la muestra. Morrow ha determinado los valores críticos para estas dos estadísticas, que se muestran a continuación:

Estadística
0,10 0,05 0,01
De Leemis m 0,851 0,967 1.212
D de Cho – Gaines 1.212 1.330 1.569

Morrow también ha demostrado que para cualquier variable aleatoria X (con un pdf continuo) dividida por su desviación estándar ( σ ), se puede encontrar un valor A tal que la probabilidad de la distribución del primer dígito significativo de la variable aleatoria (X/σ) A diferirá de la ley de Benford en menos de ε > 0. El valor de A depende del valor de ε y de la distribución de la variable aleatoria.

Se ha propuesto un método de detección de fraudes contables basado en bootstrapping y regresión.

Si el objetivo es llegar a un acuerdo con la ley de Benford en lugar de un desacuerdo, entonces las pruebas de bondad de ajuste mencionadas anteriormente son inapropiadas. En este caso deben aplicarse las pruebas específicas de equivalencia . Una distribución empírica se denomina equivalente a la ley de Benford si la distancia (por ejemplo, la distancia de variación total o la distancia euclidiana habitual) entre las funciones de masa de probabilidad es suficientemente pequeña. Este método de prueba con aplicación a la ley de Benford se describe en Ostrovski (2017).

Rango de aplicabilidad

Distribuciones conocidas por obedecer la ley de Benford

Algunas secuencias de números enteros infinitos bien conocidas satisfacen de manera probada la ley de Benford exactamente (en el límite asintótico a medida que se incluyen más y más términos de la secuencia). Entre estos se encuentran los números de Fibonacci , los factoriales , las potencias de 2 y las potencias de casi cualquier otro número.

Asimismo, algunos procesos continuos satisfacen exactamente la ley de Benford (en el límite asintótico a medida que el proceso continúa en el tiempo). Uno es un proceso de crecimiento o disminución exponencial : si una cantidad aumenta o disminuye exponencialmente en el tiempo, entonces el porcentaje de tiempo que tiene cada primer dígito satisface la ley de Benford de forma asintótica (es decir, aumenta la precisión a medida que el proceso continúa en el tiempo).

Distribuciones que se sabe que desobedecen la ley de Benford

Las raíces cuadradas y los recíprocos de los sucesivos números naturales no obedecen a esta ley. Las listas de números de teléfono locales en América del Norte (longitud de 7 dígitos) violan la ley de Benford porque no se les permite comenzar con el prefijo de larga distancia del dígito 1. La ley de Benford es violada por las poblaciones de todos los lugares con una población de al. al menos 2500 personas de cinco estados de EE. UU. según los censos de 1960 y 1970, donde solo el 19% comenzó con el dígito 1 pero el 20% comenzó con el dígito 2, porque el truncamiento en 2500 introduce sesgo estadístico. Los dígitos terminales en los informes de patología violan la ley de Benford debido al redondeo.

Las distribuciones que no abarcan varios órdenes de magnitud no seguirán la ley de Benford. Los ejemplos incluyen puntajes de altura, peso y coeficiente intelectual.

Criterios para distribuciones esperadas y no esperadas para obedecer la ley de Benford

Se han sugerido una serie de criterios, aplicables particularmente a los datos contables, donde se puede esperar que se aplique la ley de Benford.

Distribuciones de las que se puede esperar que obedezcan la ley de Benford
  • Cuando la media es mayor que la mediana y el sesgo es positivo
  • Números que resultan de una combinación matemática de números: p. Ej., Cantidad × precio
  • Datos a nivel de transacción: p. Ej., Desembolsos, ventas
Distribuciones que no se espera que obedezcan a la ley de Benford.
  • Donde los números se asignan secuencialmente: por ejemplo, números de cheque, números de factura
  • Donde los números están influenciados por el pensamiento humano: por ejemplo, precios establecidos por umbrales psicológicos ($ 1.99)
  • Cuentas con una gran cantidad de números específicos de la empresa: por ejemplo, cuentas configuradas para registrar reembolsos de $ 100
  • Cuentas con un mínimo o un máximo incorporado
  • Distribuciones que no abarcan un orden de magnitud de números.

Teorema de cumplimiento de la ley de Benford

Matemáticamente, la ley de Benford se aplica si la distribución que se está probando se ajusta al "Teorema de cumplimiento de la ley de Benford". La derivación dice que se sigue la ley de Benford si la transformada de Fourier del logaritmo de la función de densidad de probabilidad es cero para todos los valores enteros. En particular, esto se satisface si la transformada de Fourier es cero (o insignificante) para n≥1. Esto se cumple si la distribución es amplia (ya que una distribución amplia implica una pequeña transformada de Fourier). Smith resume así (p. 716):

“La ley de Benford es seguida por distribuciones que son amplias en comparación con la distancia unitaria a lo largo de la escala logarítmica. Asimismo, la ley no es seguida por distribuciones que sean estrechas en comparación con la distancia unitaria…. "Si la distribución es amplia en comparación con la distancia unitaria en el eje del registro, significa que la dispersión en el conjunto de números que se examinan es mucho mayor que diez".

En resumen, la ley de Benford requiere que los números de la distribución que se miden tengan una extensión de al menos un orden de magnitud.

Pruebas con distribuciones comunes

La ley de Benford se probó empíricamente contra los números (hasta el décimo dígito) generados por una serie de distribuciones importantes, incluida la distribución uniforme , la distribución exponencial , la distribución normal y otras.

La distribución uniforme, como era de esperar, no obedece a la ley de Benford. En contraste, la distribución de razón de dos distribuciones uniformes está bien descrita por la ley de Benford.

Ni la distribución normal ni la distribución de razón de dos distribuciones normales (la distribución de Cauchy ) obedecen a la ley de Benford. Aunque la distribución mitad normal no obedece a la ley de Benford, la distribución de razón de dos distribuciones mitad normal sí lo hace. Ni la distribución normal truncada a la derecha ni la distribución de razón de dos distribuciones normales truncadas a la derecha están bien descritas por la ley de Benford. Esto no es sorprendente ya que esta distribución está ponderada hacia números más grandes.

La ley de Benford también describe bien la distribución exponencial y la distribución de razón de dos distribuciones exponenciales. El ajuste de la distribución chi-cuadrado depende de los grados de libertad (gl) con buena concordancia con gl = 1 y concordancia decreciente a medida que aumenta la gl. La distribución F está bien adaptada para bajos grados de libertad. Al aumentar dfs, el ajuste disminuye pero mucho más lentamente que la distribución chi-cuadrado. El ajuste de la distribución logarítmica normal depende de la media y la varianza de la distribución. La varianza tiene un efecto mucho mayor en el ajuste que la media. Los valores más grandes de ambos parámetros dan como resultado un mejor acuerdo con la ley. La razón de dos distribuciones logarítmicas normales es logarítmica normal, por lo que esta distribución no se examinó.

Otras distribuciones que han sido examinados incluyen la distribución de Muth , la distribución de Gompertz , distribución de Weibull , distribución gamma , distribución log-logística y la distribución de energía exponencial todos los cuales muestran un acuerdo razonable con la ley. La distribución de Gumbel (una densidad aumenta con el valor creciente de la variable aleatoria) no muestra concordancia con esta ley.

Generalización a dígitos más allá del primero

Gráfico log-log de la probabilidad de que un número comience con el (los) dígito (s) n , para una distribución que cumple la ley de Benford. Los puntos muestran la fórmula exacta, P (n) = log 10 (1 + 1 / n). El gráfico tiende hacia la asíntota punteada que pasa por (1, log 10  e ) con pendiente -1 en escala log-log. El ejemplo en amarillo muestra que la probabilidad de que un número comience con 314 es de alrededor de 0,00138. Las líneas punteadas muestran las probabilidades de una distribución uniforme para la comparación. En la imagen SVG, coloque el cursor sobre un punto para mostrar sus valores.

Es posible extender la ley a dígitos más allá del primero. En particular, para cualquier número dado de dígitos, la probabilidad de encontrar un número que comience con la cadena de dígitos n de esa longitud, descartando los ceros iniciales , viene dada por:

Por ejemplo, la probabilidad de que un número comience con los dígitos 3, 1, 4 es log 10 (1 + 1/314) ≈ 0.00138 , como en la figura de la derecha. Los números que satisfacen esto incluyen 3.14159 ..., 314285.7 ... y 0.00314465 ....

Este resultado se puede usar para encontrar la probabilidad de que un dígito en particular ocurra en una posición dada dentro de un número. Por ejemplo, la probabilidad de que se encuentre un "2" como segundo dígito es

Y la probabilidad de que d ( d  = 0, 1, ..., 9) se encuentre como el n -ésimo ( n  > 1) dígito es

La distribución del n -ésimo dígito, a medida que n aumenta, se acerca rápidamente a una distribución uniforme con un 10% para cada uno de los diez dígitos, como se muestra a continuación. A menudo, cuatro dígitos son suficientes para asumir una distribución uniforme del 10%, ya que '0' aparece el 10.0176% del tiempo en el cuarto dígito, mientras que el '9' aparece el 9.9824% del tiempo.

Dígito 0 1 2 3 4 5 6 7 8 9
1er N / A 30,1% 17,6% 12,5% 9,7% 7,9% 6,7% 5,8% 5,1% 4,6%
2do 12,0% 11,4% 10,9% 10,4% 10,0% 9,7% 9,3% 9,0% 8,8% 8.5%
Tercero 10,2% 10,1% 10,1% 10,1% 10,0% 10,0% 9,9% 9,9% 9,9% 9,8%

Momentos

Se han calculado los promedios y momentos de las variables aleatorias para los dígitos del 1 al 9 siguiendo esta ley:

Para la distribución de dos dígitos según la ley de Benford también se conocen estos valores:

Está disponible una tabla de las probabilidades exactas para la ocurrencia conjunta de los dos primeros dígitos de acuerdo con la ley de Benford, así como la correlación poblacional entre el primer y el segundo dígitos: ρ = 0.0561 .

En la cultura popular

En los últimos años, el concepto de la ley de Benford se ha vuelto lo suficientemente conocido como para ser utilizado como un dispositivo de trama en algunos entretenimientos populares, que incluyen:

  • La ley de Benford se utilizó para ayudar a resolver una serie de robos importantes en el episodio "The Running Man" (2006) del drama criminal televisivo NUMB3RS .
  • La ley de Benford se utiliza para exponer el robo de fondos de una empresa de robótica en la película de 2016 The Accountant .
  • La ley de Benford se utiliza para analizar los estados financieros de un miembro del cártel y descubrir que está siendo defraudado en la serie de Netflix Ozark .
  • La ley de Benford se usa para probar si los personajes están en una simulación o en la realidad en la novela Infinite 2 de Jeremy Robinson .

Ver también

Referencias

Otras lecturas

enlaces externos