Base de datos MNIST - MNIST database

Imágenes de muestra de MNIST
Imágenes de muestra del conjunto de datos de prueba MNIST

La base de datos MNIST ( Modificado Instituto Nacional de Estándares y Tecnología de base de datos ) es una gran base de datos de dígitos escritos a mano que se utiliza comúnmente para la formación de varios de procesamiento de imágenes de sistemas. La base de datos también se usa ampliamente para capacitación y pruebas en el campo del aprendizaje automático . Fue creado "volviendo a mezclar" las muestras de los conjuntos de datos originales de NIST. Los creadores sintieron que, dado que el conjunto de datos de capacitación del NIST se tomó de los empleados de la Oficina del Censo de Estados Unidos , mientras que el conjunto de datos de prueba se tomó de estudiantes estadounidenses de secundaria , no era adecuado para experimentos de aprendizaje automático. Además, las imágenes en blanco y negro de NIST se normalizaron para encajar en un cuadro delimitador 28x28 pixel y anti-alias , que introdujo los niveles de escala de grises.

La base de datos MNIST contiene 60,000 imágenes de entrenamiento y 10,000 imágenes de prueba. La mitad del conjunto de entrenamiento y la mitad del conjunto de prueba se tomaron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad del conjunto de entrenamiento y la otra mitad del conjunto de prueba se tomaron del conjunto de datos de prueba del NIST. Los creadores originales de la base de datos mantienen una lista de algunos de los métodos probados en ella. En su papel original, utilizan una máquina de vectores de soporte para obtener una tasa de error del 0,8%. En 2017 se publicó un conjunto de datos extendido similar a MNIST llamado EMNIST, que contiene 240,000 imágenes de entrenamiento y 40,000 imágenes de prueba de dígitos y caracteres escritos a mano.

Historia

El conjunto de imágenes de la base de datos del MNIST se creó en 1998 como una combinación de dos bases de datos del NIST : Base de datos especial 1 y Base de datos especial 3. La base de datos especial 1 y la base de datos especial 3 constan de dígitos escritos por estudiantes de secundaria y empleados de la Oficina del censo de Estados Unidos , respectivamente.

Rendimiento

Algunos investigadores han logrado un "rendimiento casi humano" en la base de datos del MNIST, utilizando un comité de redes neuronales; En el mismo artículo, los autores logran un rendimiento doble que el de los humanos en otras tareas de reconocimiento. La tasa de error más alta que figura en el sitio web original de la base de datos es del 12 por ciento, que se logra utilizando un clasificador lineal simple sin preprocesamiento.

En 2004, los investigadores lograron una tasa de error en el mejor de los casos del 0,42 por ciento en la base de datos utilizando un nuevo clasificador llamado LIRA, que es un clasificador neuronal con tres capas de neuronas basado en los principios del perceptrón de Rosenblatt.

Algunos investigadores han probado sistemas de inteligencia artificial utilizando la base de datos sometida a distorsiones aleatorias. Los sistemas en estos casos suelen ser redes neuronales y las distorsiones utilizadas tienden a ser distorsiones afines o distorsiones elásticas . A veces, estos sistemas pueden tener mucho éxito; uno de estos sistemas logró una tasa de error en la base de datos del 0,39 por ciento.

En 2011, los investigadores informaron una tasa de error del 0,27 por ciento, mejorando el mejor resultado anterior, utilizando un sistema similar de redes neuronales. En 2013, se afirmó que un enfoque basado en la regularización de redes neuronales que utiliza DropConnect logró una tasa de error del 0,21 por ciento. En 2016, el mejor rendimiento de la red neuronal convolucional única fue una tasa de error del 0,25 por ciento. A agosto de 2018, el mejor rendimiento de una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos es una tasa de error del 0,25 por ciento. Además, el Centro de Computación Paralela (Khmelnytskyi, Ucrania) obtuvo un conjunto de solo 5 redes neuronales convolucionales que funciona en MNIST con una tasa de error del 0,21 por ciento. Algunas imágenes del conjunto de datos de prueba apenas se pueden leer y pueden evitar que se alcancen tasas de error de prueba del 0%. En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% con tres tipos de redes neuronales apiladas simultáneamente (redes neuronales totalmente conectadas, recurrentes y de convolución).

Clasificadores

Esta es una tabla de algunos de los métodos de aprendizaje automático utilizados en el conjunto de datos y sus tasas de error, por tipo de clasificador:

Escribe Clasificador Distorsión Preprocesamiento Tasa de error (%)
Clasificador lineal Clasificador lineal por pares Ninguno Enderezar 7,6
K-Vecinos más cercanos K-NN con deformación no lineal (P2DHMDM) Ninguno Bordes cambiables 0,52
Tocones potenciados Producto de tocones en las características de Haar Ninguno Características de Haar 0,87
Clasificador no lineal Clasificador cuadrático 40 PCA + Ninguno Ninguno 3.3
Bosque aleatorio Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC) Ninguno Importancia de píxeles estadísticos simples 2.8
Máquina de vectores de soporte (SVM) SVM virtual , poli deg-9, jittered de 2 píxeles Ninguno Enderezar 0,56
Red neuronal profunda (DNN) 2 capas 784-800-10 Ninguno Ninguno 1,6
Red neuronal profunda 2 capas 784-800-10 Distorsiones elásticas Ninguno 0,7
Red neuronal profunda 6 capas 784-2500-2000-1500-1000-500-10 Distorsiones elásticas Ninguno 0,35
Red neuronal convolucional (CNN) 6 capas 784-40-80-500-1000-2000-10 Ninguno Ampliación de los datos de entrenamiento 0,31
Red neuronal convolucional 6 capas 784-50-100-500-1000-10-10 Ninguno Ampliación de los datos de entrenamiento 0,27
Red neuronal convolucional (CNN) 13 capas 64-128 (5x) -256 (3x) -512-2048-256-256-10 Ninguno Ninguno 0,25
Red neuronal convolucional Comité de 35 CNN, 1-20-P-40-P-150-10 Distorsiones elásticas Normalizaciones de ancho 0,23
Red neuronal convolucional Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10 Ninguno Ampliación de los datos de entrenamiento 0,21
Aprendizaje profundo multimodelo aleatorio (RMDL) 10 NN-10 RNN - 10 CNN Ninguno Ninguno 0,18
Red neuronal convolucional Comité de 20 CNNS con redes de compresión y excitación Ninguno Aumento de datos 0,17

Ver también

Referencias

Otras lecturas

enlaces externos