Extracción de textos - Text mining

La minería de texto , también conocida como minería de datos de texto , similar al análisis de texto , es el proceso de derivar información de alta calidad a partir del texto . Implica "el descubrimiento por computadora de información nueva, previamente desconocida, mediante la extracción automática de información de diferentes recursos escritos". Los recursos escritos pueden incluir sitios web , libros , correos electrónicos , reseñas y artículos. La información de alta calidad se obtiene típicamente ideando patrones y tendencias por medios como el aprendizaje de patrones estadísticos . Según Hotho et al. (2005) podemos diferenciar tres perspectivas diferentes de la minería de textos: extracción de información , minería de datos y un proceso KDD (Knowledge Discovery in Databases). La minería de texto generalmente implica el proceso de estructurar el texto de entrada (generalmente análisis, junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivando patrones dentro de los datos estructurados y, finalmente, evaluación e interpretación. de la salida. La 'alta calidad' en la minería de textos generalmente se refiere a una combinación de relevancia , novedad e interés. Las tareas típicas de minería de texto incluyen categorización de texto , agrupación de texto , extracción de concepto / entidad, producción de taxonomías granulares, análisis de sentimientos , resumen de documentos y modelado de relación de entidad ( es decir , relaciones de aprendizaje entre entidades nombradas ).

El análisis de texto implica la recuperación de información , análisis léxico para estudiar distribuciones de frecuencia de palabras, reconocimiento de patrones , etiquetado / anotación , extracción de información , técnicas de minería de datos que incluyen análisis de vínculos y asociaciones, visualización y análisis predictivo . El objetivo general es, esencialmente, convertir el texto en datos para su análisis, mediante la aplicación de procesamiento del lenguaje natural (NLP), diferentes tipos de algoritmos y métodos analíticos. Una fase importante de este proceso es la interpretación de la información recopilada.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y modelar el conjunto de documentos con fines de clasificación predictiva o completar una base de datos o un índice de búsqueda con la información extraída. El documento es el elemento básico al comenzar con la minería de texto. Aquí, definimos un documento como una unidad de datos textuales, que normalmente existe en muchos tipos de colecciones.

Analítica de texto

El término análisis de texto describe un conjunto de técnicas lingüísticas , estadísticas y de aprendizaje automático que modelan y estructuran el contenido de información de fuentes textuales para inteligencia empresarial , análisis de datos exploratorios , investigación o investigación. El término es aproximadamente sinónimo de minería de texto; de hecho, Ronen Feldman modificó una descripción de 2000 de "minería de texto" en 2004 para describir "análisis de texto". El último término se utiliza ahora con más frecuencia en entornos empresariales, mientras que la "minería de texto" se utiliza en algunas de las áreas de aplicación más antiguas, que datan de la década de 1980, en particular la investigación en ciencias de la vida y la inteligencia gubernamental.

El término análisis de texto también describe la aplicación de análisis de texto para responder a problemas comerciales, ya sea de forma independiente o junto con consultas y análisis de datos numéricos en campo. Es una obviedad que el 80 por ciento de la información relevante para el negocio se origina en forma no estructurada , principalmente texto. Estas técnicas y procesos descubren y presentan conocimientos (hechos, reglas comerciales y relaciones) que, de otro modo, están bloqueados en forma textual, impenetrables para el procesamiento automatizado.

Procesos de análisis de texto

Las subtareas, componentes de un esfuerzo mayor de análisis de texto, generalmente incluyen:

  • La reducción de la dimensionalidad es una técnica importante para el preprocesamiento de datos. La técnica se utiliza para identificar la palabra raíz de palabras reales y reducir el tamaño de los datos de texto.
  • La recuperación de información o identificación de un corpus es un paso preparatorio: recopilar o identificar un conjunto de materiales textuales, en la Web o guardados en un sistema de archivos, base de datos o administrador de corpus de contenido , para su análisis.
  • Aunque algunos sistemas de análisis de texto aplican exclusivamente métodos estadísticos avanzados, muchos otros aplican un procesamiento de lenguaje natural más extenso , como parte del etiquetado de voz , análisis sintáctico y otros tipos de análisis lingüístico.
  • El reconocimiento de entidades nombradas es el uso de nomenclátores o técnicas estadísticas para identificar características de texto nombradas: personas, organizaciones, nombres de lugares, símbolos de cotizaciones bursátiles, ciertas abreviaturas, etc.
  • La desambiguación (el uso de pistas contextuales) puede ser necesaria para decidir dónde, por ejemplo, "Ford" puede referirse a un ex presidente de EE. UU., Un fabricante de vehículos, una estrella de cine, un cruce de río o alguna otra entidad.
  • Reconocimiento de entidades identificadas por patrones: características como números de teléfono, direcciones de correo electrónico, cantidades (con unidades) se pueden discernir mediante expresiones regulares u otras coincidencias de patrones.
  • Agrupación de documentos: identificación de conjuntos de documentos de texto similares.
  • Correferencia : identificación de sintagmas nominales y otros términos que se refieren al mismo objeto.
  • Relación, hecho y extracción de eventos: identificación de asociaciones entre entidades y otra información en el texto
  • El análisis de sentimientos implica discernir material subjetivo (en oposición a fáctico) y extraer varias formas de información actitudinal: sentimiento, opinión, estado de ánimo y emoción. Las técnicas de análisis de texto son útiles para analizar el sentimiento a nivel de entidad, concepto o tema y para distinguir el titular de la opinión y el objeto de la opinión.
  • El análisis cuantitativo de textos es un conjunto de técnicas derivadas de las ciencias sociales en las que un juez humano o una computadora extrae relaciones semánticas o gramaticales entre palabras para descubrir el significado o patrones estilísticos de, generalmente, un texto personal casual con el propósito de perfil psicológico, etc.

Aplicaciones

La tecnología de minería de texto ahora se aplica ampliamente a una amplia variedad de necesidades gubernamentales, de investigación y comerciales. Todos estos grupos pueden utilizar la minería de texto para la gestión de registros y la búsqueda de documentos relevantes para sus actividades diarias. Los profesionales legales pueden utilizar la minería de texto para el descubrimiento electrónico , por ejemplo. Los gobiernos y los grupos militares utilizan la minería de texto con fines de inteligencia y seguridad nacional . Los investigadores científicos incorporan enfoques de minería de texto en los esfuerzos para organizar grandes conjuntos de datos de texto (es decir, abordar el problema de los datos no estructurados ), para determinar las ideas comunicadas a través del texto (p. Ej., Análisis de sentimientos en las redes sociales ) y para apoyar el descubrimiento científico en campos como las ciencias de la vida y la bioinformática . En los negocios, las aplicaciones se utilizan para respaldar la inteligencia competitiva y la colocación automatizada de anuncios , entre muchas otras actividades.

Aplicaciones de seguridad

Muchos paquetes de software de minería de texto se comercializan para aplicaciones de seguridad , especialmente el monitoreo y análisis de fuentes de texto sin formato en línea, como noticias de Internet , blogs , etc., con fines de seguridad nacional . También participa en el estudio del cifrado / descifrado de texto .

Aplicaciones biomédicas

Un diagrama de flujo de un protocolo de minería de texto.
Un ejemplo de un protocolo de minería de texto utilizado en un estudio de complejos proteína-proteína o acoplamiento de proteínas .

Una gama de aplicaciones de minería de texto en la literatura biomédica se ha descrito, incluyendo métodos computacionales para ayudar con estudios en acoplamiento de proteínas , interacciones de proteínas , y las asociaciones de proteínas de la enfermedad. Además, con grandes conjuntos de datos textuales de pacientes en el campo clínico, conjuntos de datos de información demográfica en estudios de población e informes de eventos adversos, la minería de textos puede facilitar los estudios clínicos y la medicina de precisión. Los algoritmos de minería de texto pueden facilitar la estratificación y la indexación de eventos clínicos específicos en grandes conjuntos de datos textuales de pacientes de síntomas, efectos secundarios y comorbilidades de registros médicos electrónicos, informes de eventos e informes de pruebas de diagnóstico específicas. Una aplicación de minería de texto en línea en la literatura biomédica es PubGene , un motor de búsqueda de acceso público que combina la minería de texto biomédica con visualización en red. GoPubMed es un motor de búsqueda de textos biomédicos basado en el conocimiento. Las técnicas de minería de textos también nos permiten extraer conocimientos desconocidos de documentos no estructurados en el ámbito clínico.

Aplicaciones de software

Los métodos y el software de minería de texto también están siendo investigados y desarrollados por importantes empresas, incluidas IBM y Microsoft , para automatizar aún más los procesos de minería y análisis, y por diferentes empresas que trabajan en el área de búsqueda e indexación en general como una forma de mejorar sus resultados. . Dentro del sector público, se han concentrado muchos esfuerzos en la creación de software para rastrear y monitorear actividades terroristas . Para fines de estudio, el software Weka es una de las opciones más populares en el mundo científico y actúa como un excelente punto de entrada para principiantes. Para los programadores de Python, existe un excelente juego de herramientas llamado NLTK para propósitos más generales. Para los programadores más avanzados, también existe la biblioteca Gensim , que se centra en representaciones de texto basadas en incrustaciones de palabras.

Aplicaciones de medios online

Las grandes empresas de medios de comunicación, como Tribune Company , utilizan la minería de texto para aclarar la información y proporcionar a los lectores una mayor experiencia de búsqueda, lo que a su vez aumenta la "adherencia" del sitio y los ingresos. Además, en el back-end, los editores se benefician al poder compartir, asociar y empaquetar noticias en todas las propiedades, lo que aumenta significativamente las oportunidades de monetizar el contenido.

Aplicaciones comerciales y de marketing

La analítica de texto se está utilizando en los negocios, particularmente, en marketing, como en la gestión de relaciones con los clientes . Coussement y Van den Poel (2008) lo aplican para mejorar los modelos de análisis predictivo para la rotación de clientes ( deserción de clientes ). La minería de texto también se está aplicando en la predicción de rentabilidad de acciones.

Análisis de los sentimientos

El análisis de sentimientos puede implicar el análisis de reseñas de películas para estimar qué tan favorable es una reseña para una película. Tal análisis puede necesitar un conjunto de datos etiquetado o etiquetado de la afectividad de las palabras. Se han creado recursos para la afectividad de palabras y conceptos para WordNet y ConceptNet , respectivamente.

El texto se ha utilizado para detectar emociones en el área relacionada de la computación afectiva. Los enfoques basados ​​en texto para la computación afectiva se han utilizado en múltiples corpus, como evaluaciones de estudiantes, historias de niños y noticias.

Minería de literatura científica y aplicaciones académicas

El tema de la minería de texto es importante para los editores que tienen grandes bases de datos de información que necesitan indexarse para su recuperación. Esto es especialmente cierto en las disciplinas científicas, en las que a menudo el texto escrito contiene información muy específica. Por lo tanto, se han tomado iniciativas como la propuesta de Nature para una Interfaz de Minería de Texto Abierto (OTMI) y la Definición de Tipo de Documento de Publicación de Revistas (DTD) de los Institutos Nacionales de Salud que proporcionarían pistas semánticas a las máquinas para responder consultas específicas contenidas en el texto sin eliminar las barreras de los editores al acceso público.

Las instituciones académicas también se han involucrado en la iniciativa de minería de textos:

Métodos para la minería de literatura científica

Se han desarrollado métodos computacionales para ayudar con la recuperación de información de la literatura científica. Los enfoques publicados incluyen métodos para buscar, determinar la novedad y aclarar homónimos entre informes técnicos.

Humanidades digitales y sociología computacional

El análisis automático de amplios corpus textuales ha creado la posibilidad de que los académicos analicen millones de documentos en varios idiomas con una intervención manual muy limitada. Las tecnologías habilitadoras clave han sido el análisis, la traducción automática , la categorización de temas y el aprendizaje automático.

Red narrativa de las elecciones estadounidenses de 2012

El análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo los datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan luego mediante el uso de herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave, y propiedades generales como la robustez o estabilidad estructural de la red en general, o la centralidad de ciertos nodos. Esto automatiza el enfoque introducido por el análisis narrativo cuantitativo, mediante el cual los tripletes sujeto-verbo-objeto se identifican con pares de actores vinculados por una acción, o pares formados por actor-objeto.

El análisis de contenido ha sido una parte tradicional de las ciencias sociales y los estudios de medios durante mucho tiempo. La automatización del análisis de contenido ha permitido que se produzca una revolución del " big data " en ese campo, con estudios en redes sociales y contenidos de periódicos que incluyen millones de noticias. El sesgo de género , la legibilidad , la similitud de contenido, las preferencias del lector e incluso el estado de ánimo se han analizado en función de los métodos de extracción de texto de millones de documentos. El análisis de legibilidad, sesgo de género y sesgo de tema se demostró en Flaounas et al. mostrar cómo los diferentes temas tienen diferentes sesgos de género y niveles de legibilidad; También se demostró la posibilidad de detectar patrones de humor en una gran población mediante el análisis del contenido de Twitter.

Software

Los programas informáticos de minería de texto están disponibles en muchas empresas y fuentes comerciales y de código abierto . Consulte Lista de software de minería de texto .

Ley de Propiedad Intelectual

Situación en Europa

Video de la campaña Fix Copyright que explica TDM y sus problemas de derechos de autor en la UE, 2016 [3:52

Según las leyes europeas de derechos de autor y bases de datos , la extracción de obras protegidas por derechos de autor (por ejemplo, mediante la minería web ) sin el permiso del propietario de los derechos de autor es ilegal. En el Reino Unido en 2014, por recomendación de la revisión de Hargreaves , el gobierno enmendó la ley de derechos de autor para permitir la minería de texto como limitación y excepción . Fue el segundo país del mundo en hacerlo, después de Japón , que introdujo una excepción específica de minería en 2009. Sin embargo, debido a la restricción de la Directiva sobre la sociedad de la información (2001), la excepción del Reino Unido solo permite la minería de contenido para los propósitos comerciales. La ley de derechos de autor del Reino Unido no permite que esta disposición sea anulada por los términos y condiciones contractuales.

La Comisión Europea facilitó el debate de las partes interesadas sobre la minería de datos y textos en 2013, bajo el título de Licencias para Europa. El hecho de que el foco en la solución de este problema legal fueran las licencias, y no las limitaciones y excepciones a la ley de derechos de autor, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013.

Situación en los Estados Unidos

La ley de derechos de autor de EE. UU. , Y en particular sus disposiciones de uso justo , significa que la minería de texto en Estados Unidos, así como en otros países de uso justo como Israel, Taiwán y Corea del Sur, se considera legal. Como la minería de texto es transformadora, lo que significa que no reemplaza el trabajo original, se considera que es legal bajo el uso legítimo. Por ejemplo, como parte del acuerdo de Google Book, el juez que presidía el caso dictaminó que el proyecto de digitalización de libros con derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de esos usos es la minería de datos y texto. .

Trascendencia

Hasta hace poco, los sitios web utilizaban con mayor frecuencia búsquedas basadas en texto, que solo encontraban documentos que contenían palabras o frases específicas definidas por el usuario. Ahora, mediante el uso de una web semántica , la minería de texto puede encontrar contenido según el significado y el contexto (en lugar de solo por una palabra específica). Además, el software de minería de texto se puede utilizar para crear grandes expedientes de información sobre personas y eventos específicos. Por ejemplo, se pueden construir grandes conjuntos de datos basados ​​en datos extraídos de informes de noticias para facilitar el análisis de redes sociales o la contrainteligencia . En efecto, el software de minería de texto puede actuar en una capacidad similar a la de un analista de inteligencia o un bibliotecario de investigación, aunque con un alcance de análisis más limitado. La minería de texto también se utiliza en algunos filtros de correo no deseado como una forma de determinar las características de los mensajes que probablemente sean anuncios u otro material no deseado. La minería de texto juega un papel importante en la determinación del sentimiento del mercado financiero .

Futuro

Se está prestando cada vez más interés a la minería de datos multilingüe: la capacidad de obtener información en varios idiomas y agrupar elementos similares de diferentes fuentes lingüísticas de acuerdo con su significado.

El desafío de explotar la gran proporción de información empresarial que se origina en forma "no estructurada" ha sido reconocido durante décadas. Se reconoce en la primera definición de inteligencia empresarial (BI), en un artículo del IBM Journal de octubre de 1958 de HP Luhn, A Business Intelligence System, que describe un sistema que:

"... utilizar máquinas de procesamiento de datos para resumir y codificar automáticamente documentos y para crear perfiles de interés para cada uno de los 'puntos de acción' en una organización. Tanto los documentos entrantes como los generados internamente se abstraen automáticamente, caracterizados por una palabra patrón, y se envía automáticamente a los puntos de acción apropiados ".

Sin embargo, a medida que los sistemas de información gerencial se desarrollaron a partir de la década de 1960, y cuando BI surgió en las décadas de 1980 y 1990 como una categoría de software y un campo de práctica, se hizo hincapié en los datos numéricos almacenados en bases de datos relacionales. Esto no es sorprendente: el texto de los documentos "no estructurados" es difícil de procesar. El surgimiento de la analítica de texto en su forma actual se debe a una reorientación de la investigación a fines de la década de 1990 del desarrollo de algoritmos a la aplicación, como lo describe el profesor Marti A. Hearst en el artículo Untangling Text Data Mining:

Durante casi una década, la comunidad lingüística computacional ha visto las grandes colecciones de texto como un recurso que debe aprovecharse para producir mejores algoritmos de análisis de texto. En este artículo, he intentado sugerir un nuevo énfasis: el uso de grandes colecciones de texto en línea para descubrir nuevos hechos y tendencias sobre el mundo mismo. Sugiero que para progresar no necesitamos un análisis de texto completamente inteligente y artificial; más bien, una combinación de análisis guiado por el usuario y guiado por computadores puede abrir la puerta a nuevos y emocionantes resultados.

La declaración de necesidad de Hearst en 1999 describe bastante bien el estado de la tecnología y la práctica de análisis de texto una década después.

Ver también

Referencias

Citas

Fuentes

  • Ananiadou, S. y McNaught, J. (Editores) (2006). Minería de textos para biología y biomedicina . Libros de Artech House. ISBN  978-1-58053-984-5
  • Bilisoly, R. (2008). Minería de textos práctica con Perl . Nueva York: John Wiley & Sons. ISBN  978-0-470-17643-6
  • Feldman, R. y Sanger, J. (2006). El manual de minería de textos . Nueva York: Cambridge University Press. ISBN  978-0-521-83657-9
  • Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, Vol. 20 (1), pág. 19-62
  • Indurkhya, N. y Damerau, F. (2010). Manual de procesamiento del lenguaje natural , segunda edición. Boca Raton, FL: CRC Press. ISBN  978-1-4200-8592-1
  • Kao, A. y Poteet, S. (Editores). Procesamiento de lenguaje natural y minería de textos . Saltador. ISBN  1-84628-175-X
  • Konchady, M. Programación de aplicaciones de minería de textos (Serie de programación) . Charles River Media. ISBN  1-58450-460-9
  • Manning, C. y Schutze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. ISBN  978-0-262-13360-9
  • Miner, G., élder, J., Hill. T, Nisbet, R., Delen, D. y Fast, A. (2012). Minería de textos práctica y análisis estadístico para aplicaciones de datos de texto no estructurados . Prensa académica de Elsevier. ISBN  978-0-12-386979-1
  • McKnight, W. (2005). "Construcción de inteligencia empresarial: minería de datos de texto en inteligencia empresarial". DM Review , 21-22.
  • Srivastava, A. y Sahami. M. (2009). Minería de texto: clasificación, agrupación y aplicaciones . Boca Raton, FL: CRC Press. ISBN  978-1-4200-5940-3
  • Zanasi, A. (Editor) (2007). Text Mining y sus aplicaciones a la inteligencia, CRM y gestión del conocimiento . WIT Press. ISBN  978-1-84564-131-3

enlaces externos