Texto ruidoso - Noisy text

El texto ruidoso es texto con diferencias entre la forma superficial de una representación codificada del texto y el texto pretendido, correcto u original. El ruido puede deberse a errores tipográficos o coloquialismos siempre presentes en el lenguaje natural y, por lo general, reduce la calidad de los datos de una manera que hace que el texto sea menos accesible para el procesamiento automatizado por computadoras, incluido el procesamiento del lenguaje natural . El ruido también puede haberse introducido a través de un proceso de extracción (por ejemplo, transcripción u OCR ) de medios distintos de los textos electrónicos originales .

El uso del lenguaje sobre los discursos a través del ordenador, como los chats , correos electrónicos y mensajes SMS de textos, difiere significativamente de la forma estándar de la lengua. El impulso hacia mensajes de menor longitud que faciliten una escritura más rápida y la necesidad de claridad semántica dan forma a la estructura de este texto utilizado en tales discursos.

Varios analistas de negocios estiman que los datos no estructurados constituyen alrededor del 80% de todos los datos de la empresa . Una gran proporción de estos datos comprende transcripciones de chat, correos electrónicos y otras comunicaciones internas y externas informales y semiformales. Por lo general, dicho texto está destinado al consumo humano, pero, dada la cantidad de datos, el procesamiento manual y la evaluación de esos recursos ya no es factible en la práctica. Esto plantea la necesidad de contar con métodos robustos de minería de texto .

Técnicas de reducción de ruido.

El uso de correctores ortográficos y gramaticales puede reducir la cantidad de ruido en el texto mecanografiado. Muchos procesadores de texto incluyen esto en la herramienta de edición. En línea, la Búsqueda de Google incluye un motor de sugerencia de términos de búsqueda para guiar a los usuarios cuando cometen errores con sus consultas.

Ver también

Referencias