Corrector ortográfico - Spell checker

En el software , un corrector ortográfico (o un corrector ortográfico o un corrector ortográfico ) es una función de software que comprueba si hay errores ortográficos en un texto . Las funciones de corrección ortográfica suelen estar integradas en software o servicios, como un procesador de texto , un cliente de correo electrónico, un diccionario electrónico o un motor de búsqueda .

Ojo tiene un corrector ortográfico,
vino con mi Pea Sea.
El avión lee marca cuatro en mi revista
Miss Steaks, puedo anudar el mar.

Ojo golpea los muelles y teclea un zumbido
Y peso cuatro, dos dicen
El tiempo ojo, escribo mal el remo
Me dice directamente un peso.

Ojo corrió este poema lo arrojó,
Tu orilla muy contenta dos no.
Su variado pulido en su peso.
Mi corrector me llamó coser.

Una ficha es una bendición,
congela vetas de tomillo.
Me ayuda a enderezar todos los estilos de enderezar,
y me ayuda cuando los ojos se llenan de lágrimas.

Cada uno de los deshilachados viene posado en mi pantalla.
Ojo atado demasiado por un joule.
El corrector vierte sobre cada palabra
Regla de ortografía de dos sumas de control.

La versión original de este poema fue escrita por Jerrold H. Zar en 1992. Un corrector ortográfico poco sofisticado encontrará poca o ninguna falla en este poema porque verifica las palabras de forma aislada. Un corrector ortográfico más sofisticado utilizará un modelo de lenguaje para considerar el contexto en el que aparece una palabra.
Corrector ortográfico de Google Chrome en acción para el poema anterior, la palabra "corrector" marcada como palabra no reconocida

Diseño

Un corrector ortográfico básico realiza los siguientes procesos:

  • Escanea el texto y extrae las palabras que contiene.
  • Luego compara cada palabra con una lista conocida de palabras escritas correctamente (es decir, un diccionario). Esto puede contener solo una lista de palabras o también puede contener información adicional, como puntos de separación de sílabas o atributos léxicos y gramaticales.
  • Un paso adicional es un algoritmo dependiente del idioma para manejar la morfología . Incluso para un idioma con ligeras inflexiones como el inglés , el corrector ortográfico deberá considerar diferentes formas de la misma palabra, como plurales, formas verbales, contracciones y posesivos . Para muchos otros lenguajes, como los que presentan aglutinación y declinación y conjugación más complejas, esta parte del proceso es más complicada.

No está claro si el análisis morfológico, que permite muchas formas de una palabra según su función gramatical, proporciona un beneficio significativo para el inglés, aunque sus beneficios para idiomas altamente sintéticos como el alemán, el húngaro o el turco son claros.

Como complemento de estos componentes, la interfaz de usuario del programa permite a los usuarios aprobar o rechazar reemplazos y modificar el funcionamiento del programa.

Los correctores ortográficos pueden utilizar algoritmos de coincidencia de cadenas aproximadas , como la distancia de Levenshtein, para encontrar la ortografía correcta de las palabras mal escritas. Un tipo alternativo de corrector ortográfico utiliza únicamente información estadística, como n-gramas , para reconocer errores en lugar de palabras correctamente escritas. Este enfoque suele requerir mucho esfuerzo para obtener suficiente información estadística. Las ventajas clave incluyen la necesidad de menos almacenamiento en tiempo de ejecución y la capacidad de corregir errores en palabras que no están incluidas en un diccionario.

En algunos casos, los correctores ortográficos utilizan una lista fija de errores ortográficos y sugerencias para esos errores ortográficos; Este enfoque menos flexible se utiliza a menudo en métodos de corrección basados ​​en papel, como ver también las entradas de las enciclopedias.

Los algoritmos de agrupamiento también se han utilizado para la revisión ortográfica combinada con información fonética.

Historia

Pre-PC

En 1961, Les Earnest , quien dirigió la investigación sobre esta tecnología en ciernes, vio necesario incluir el primer corrector ortográfico que accedió a una lista de 10.000 palabras aceptables. Ralph Gorin, un estudiante graduado de Earnest en ese momento, creó el primer programa de corrector ortográfico verdadero escrito como un programa de aplicaciones (en lugar de investigación) para texto en inglés general: SPELL para el DEC PDP-10 en el Laboratorio de Inteligencia Artificial de la Universidad de Stanford, en febrero 1971. Gorin escribió SPELL en lenguaje ensamblador , para una acción más rápida; Hizo el primer corrector ortográfico al buscar en la lista de palabras ortografías correctas plausibles que difieran en una sola letra o transposiciones de letras adyacentes y presentándolas al usuario. Gorin hizo que SPELL fuera accesible al público, como se hizo con la mayoría de los programas SAIL (Laboratorio de Inteligencia Artificial de Stanford), y pronto se extendió por todo el mundo a través de la nueva ARPAnet, unos diez años antes de que las computadoras personales se generalizaran. SPELL, sus algoritmos y estructuras de datos inspiraron el programa ispell de Unix .

Los primeros correctores ortográficos estaban ampliamente disponibles en las computadoras centrales a fines de la década de 1970. Un grupo de seis lingüistas de la Universidad de Georgetown desarrolló el primer sistema de revisión ortográfica para la corporación IBM.

Henry Kučera inventó uno para las máquinas VAX de Digital Equipment Corp en 1981.

PC

Los primeros correctores ortográficos para computadoras personales aparecieron en 1980, como "WordCheck" para sistemas Commodore, que se lanzó a fines de 1980 a tiempo para que los anuncios se imprimieran en enero de 1981. Desarrolladores como Maria Mariani y Random House apresuraron los paquetes OEM o terminaron -productos de usuario en el mercado de software en rápida expansión. En las PC anteriores a Windows, estos correctores ortográficos eran programas independientes, muchos de los cuales podían ejecutarse en modo TSR desde paquetes de procesamiento de texto en PC con suficiente memoria.

Sin embargo, el mercado de paquetes independientes duró poco, ya que a mediados de la década de 1980, los desarrolladores de paquetes de procesamiento de texto populares como WordStar y WordPerfect habían incorporado correctores ortográficos en sus paquetes, en su mayoría con licencia de las empresas mencionadas, que rápidamente expandieron el soporte de solo Inglés a muchos idiomas europeos y eventualmente incluso asiáticos . Sin embargo, esto requirió una mayor sofisticación en las rutinas de morfología del software, particularmente en lo que respecta a idiomas muy aglutinantes como el húngaro y el finlandés . Aunque el tamaño del mercado de procesamiento de textos en un país como Islandia podría no haber justificado la inversión de implementar un corrector ortográfico, empresas como WordPerfect, no obstante, se esforzaron por localizar su software para tantos mercados nacionales como fuera posible como parte de su estrategia de marketing global .

Cuando Apple desarrolló "un corrector ortográfico de todo el sistema" para Mac OS X para que "el sistema operativo se hiciera cargo de las correcciones ortográficas", fue una novedad: uno "no tenía que mantener un corrector ortográfico separado para cada" programa. La cobertura de corrección ortográfica de Mac OS X incluye prácticamente todas las aplicaciones empaquetadas y de terceros.

VT Speller de Visual Tools , presentado en 1994, fue "diseñado para desarrolladores de aplicaciones compatibles con Windows". Venía con un diccionario, pero tenía la capacidad de construir e incorporar el uso de diccionarios secundarios.

Navegadores

Firefox 2.0, un navegador web , tiene soporte de revisión ortográfica para el contenido escrito por el usuario, como cuando se edita Wikitext, se escribe en muchos sitios de correo web, blogs y sitios web de redes sociales. Los navegadores web Google Chrome , Konqueror y Opera , el cliente de correo Kmail y la mensajería instantánea cliente Pidgin también ofrecen corrección ortográfica de soporte, de forma transparente usando previamente GNU Aspell y actualmente Hunspell como su motor.

Especialidades

Algunos correctores ortográficos tienen soporte independiente para diccionarios médicos para ayudar a prevenir errores médicos.

Funcionalidad

Los primeros correctores ortográficos eran "verificadores" en lugar de "correctores". No ofrecieron sugerencias para palabras mal escritas. Esto fue útil para errores tipográficos, pero no fue tan útil para errores lógicos o fonéticos. El desafío al que se enfrentaron los desarrolladores fue la dificultad de ofrecer sugerencias útiles para las palabras mal escritas. Esto requiere reducir las palabras a una forma esquelética y aplicar algoritmos de coincidencia de patrones.

Puede parecer lógico que, en lo que respecta a los diccionarios de revisión ortográfica, "cuanto más grandes, mejor", para que las palabras correctas no se marquen como incorrectas. En la práctica, sin embargo, un tamaño óptimo para el inglés parece ser de alrededor de 90.000 entradas. Si hay más que esto, es posible que se omitan palabras mal escritas porque se confunden con otras. Por ejemplo, un lingüista podría determinar, basándose en la lingüística del corpus, que la palabra baht es más frecuentemente una falta de ortografía de bath o bat que una referencia a la moneda tailandesa. Por lo tanto, normalmente sería más útil si algunas personas que escriben sobre la moneda tailandesa tuvieran un leve inconveniente que si se pasaran por alto los errores ortográficos de muchas más personas que hablan sobre los baños.

Una captura de pantalla de Enchant , el corrector ortográfico de AbiWord .

Los primeros correctores ortográficos de MS-DOS se utilizaron principalmente en modo de revisión desde paquetes de procesamiento de texto. Después de preparar un documento, un usuario escaneó el texto en busca de errores ortográficos. Más tarde, sin embargo, el procesamiento por lotes se ofrece en este tipo de paquetes como Oracle 's-co-autor de corta duración y permitió al usuario ver los resultados después de un documento ha sido procesado y corregir sólo las palabras que se sabe que son mal. Cuando la memoria y la capacidad de procesamiento se volvieron abundantes, la revisión ortográfica se realizó en segundo plano de manera interactiva, como ha sido el caso del programa Spellbound producido por Sector Software lanzado en 1987 y Microsoft Word desde Word 95.

En los últimos años, los correctores ortográficos se han vuelto cada vez más sofisticados; algunos ahora son capaces de reconocer errores gramaticales simples . Sin embargo, incluso en el mejor de los casos, rara vez detectan todos los errores en un texto (como errores homófonos ) y marcarán neologismos y palabras extranjeras como errores ortográficos. No obstante, los correctores ortográficos se pueden considerar como un tipo de ayuda para la escritura en un idioma extranjero en el que los estudiantes de idiomas no nativos pueden confiar para detectar y corregir sus errores ortográficos en el idioma de destino.

Corrección ortográfica de idiomas distintos del inglés

El inglés es inusual en el sentido de que la mayoría de las palabras que se usan en la escritura formal tienen una única ortografía que se puede encontrar en un diccionario típico, con la excepción de algunas jergas y palabras modificadas. En muchos idiomas, las palabras a menudo se concatenan en nuevas combinaciones de palabras. En alemán, los sustantivos compuestos se acuñan con frecuencia a partir de otros sustantivos existentes. Algunos guiones no separan claramente una palabra de otra, lo que requiere algoritmos de división de palabras. Cada uno de estos presenta desafíos únicos para los correctores ortográficos de idiomas distintos del inglés.

Correctores ortográficos sensibles al contexto

Se han realizado investigaciones sobre el desarrollo de algoritmos que sean capaces de reconocer una palabra mal escrita, incluso si la palabra en sí está en el vocabulario, basándose en el contexto de las palabras circundantes. Esto no solo permite capturar palabras como las del poema anterior, sino que mitiga el efecto perjudicial de agrandar los diccionarios, lo que permite reconocer más palabras. Por ejemplo, baht en el mismo párrafo que tailandés o Tailandia no se reconocería como un error ortográfico de bath . El ejemplo más común de errores detectados por un sistema de este tipo son los errores homófonos , como las palabras en negrita en la siguiente oración:

Su venir demasiado mar si su carrete .

El algoritmo más exitoso hasta la fecha es el " algoritmo de corrección ortográfica basado en Winnow " de Andrew Golding y Dan Roth , publicado en 1999, que es capaz de reconocer alrededor del 96% de los errores ortográficos sensibles al contexto, además de los errores ortográficos ordinarios que no son palabras. Un corrector ortográfico sensible al contexto aparece en Microsoft Office 2007 , y también apareció en el ahora desaparecido Google Wave .

Los correctores gramaticales intentan solucionar problemas gramaticales más allá de los errores ortográficos, incluida la elección incorrecta de palabras.

Ver también

Referencias

enlaces externos