Wikcionario - Wiktionary

Wikcionario
WiktionaryEn - DP Derivative.svg
Logotipo de Wiktionary en inglés
Captura de pantalla
English Wiktionary Main Page.png
Página principal del Wikcionario en inglés el 14 de enero de 2019
Tipo de sitio
Diccionario en línea
Disponible en Multilingüe (158 activos)
Dueño Fundación Wikimedia
Creado por Jimmy Wales y la comunidad de Wikimedia
URL wikcionario .org
Comercial No
Registro Opcional
Lanzado 12 de diciembre de 2002 ; Hace 18 años (2002-12-12)
Estado actual activo

Wiktionary es un proyecto multilingüe basado en la web para crear un diccionario de contenido gratuito de términos (incluidas palabras , frases , proverbios , reconstrucciones lingüísticas , etc.) en todos los lenguajes naturales y en varios lenguajes artificiales . Estas entradas pueden contener definiciones , imágenes para ilustraciones, pronunciaciones , etimologías , inflexiones , ejemplos de uso, citas , términos relacionados y traducciones de palabras a otros idiomas, entre otras características. Se edita de forma colaborativa a través de una wiki . Su nombre es una combinación de las palabras wiki y diccionario . Está disponible en 182 idiomas y en inglés simple . Al igual que su proyecto hermano Wikipedia , Wiktionary está dirigido por la Fundación Wikimedia y está escrito en colaboración por voluntarios , apodados "Wiktionarians". Su software wiki , MediaWiki , permite que casi cualquier persona con acceso al sitio web cree y edite entradas.

Debido a que Wiktionary no está limitado por consideraciones de espacio impreso, la mayoría de las ediciones de idiomas de Wiktionary proporcionan definiciones y traducciones de palabras de muchos idiomas, y algunas ediciones ofrecen información adicional que normalmente se encuentra en tesauros .

Los datos de Wiktionary se utilizan con frecuencia en varias tareas de procesamiento del lenguaje natural .

Historia y desarrollo

Wiktionary se puso en línea el 12 de diciembre de 2002, siguiendo una propuesta de Daniel Alston y una idea de Larry Sanger , cofundador de Wikipedia. El 28 de marzo de 2004, se iniciaron los primeros wikcionarios no ingleses en francés y polaco . Desde entonces, se han creado wikcionarios en muchos otros idiomas. Wiktionary estuvo alojado en un nombre de dominio temporal (wiktionary.wikipedia.org) hasta el 1 de mayo de 2004, cuando cambió al nombre de dominio actual. En julio de 2021, Wiktionary presenta más de 30 millones de artículos (e incluso más entradas) en sus ediciones. La mayor de las ediciones en idiomas es el Wiktionary en inglés, con más de 6,8 millones de entradas, seguido del Wiktionary en francés con más de 4,2 millones y el Wiktionary malgache con más de 1,7 millones de entradas. Cuarenta y tres ediciones en idiomas de Wiktionary contienen más de 100.000 entradas cada una.

El uso de bots para generar una gran cantidad de artículos es visible como "rachas de crecimiento" en este gráfico de recuentos de artículos en las ocho ediciones más grandes de Wiktionary. (Datos a diciembre de 2009)

Muchas de las definiciones en las ediciones de idiomas más grandes del proyecto fueron creadas por bots que encontraron formas creativas de generar entradas o (rara vez) importaron automáticamente miles de entradas de diccionarios publicados anteriormente. Siete de los 18 bots registrados en el Wiktionary inglés en 2007 crearon 163.000 de las entradas allí.

Otro de estos bots, "ThirdPersBot", fue responsable de la adición de una serie de conjugaciones en tercera persona que no habrían recibido sus propias entradas en los diccionarios estándar; por ejemplo, definió "humeantes" como la "forma presente simple de ardor en tercera persona del singular". De las 1.269.938 definiciones que el Wikcionario en inglés proporciona para 996.450 palabras en inglés, 478.068 son definiciones de "forma de" de este tipo. Esto significa que incluso sin tales entradas, su cobertura de inglés es significativamente mayor que la de los principales diccionarios impresos monolingües. El tercer nuevo diccionario internacional de la lengua inglesa de Merriam-Webster , íntegro , por ejemplo, tiene 475.000 entradas (con muchos encabezados incrustados adicionales); el Oxford English Dictionary tiene 615.000 entradas, pero también incluye inglés medio , para el cual el Wiktionary en inglés tiene 34.234 definiciones de glosa adicionales. Existen estadísticas detalladas para mostrar cuántas entradas de varios tipos existen.

El Wikcionario en inglés no se basa en bots en la medida en que lo hacen algunas otras ediciones. Los diccionarios de francés y vietnamita , por ejemplo, importaron grandes secciones del Free Vietnamese Dictionary Project (FVDP), que ofrece diccionarios bilingües de contenido gratuito hacia y desde vietnamita. Estas entradas importadas constituyen prácticamente todo el contenido de la edición vietnamita. Al igual que la edición en inglés, el Wiktionary francés ha importado aproximadamente 20.000 entradas de la base de datos de Unihan de caracteres chinos, japoneses y coreanos . El Wikcionario francés creció rápidamente en 2006 gracias en gran parte a que los bots copiaron muchas entradas de diccionarios antiguos con licencia gratuita, como la octava edición del Dictionnaire de l'Académie française (1935, alrededor de 35.000 palabras), y usaron bots para agregar palabras de otras ediciones de Wiktionary con traducción al francés. La edición rusa creció en casi 80.000 entradas ya que "LXbot" agregó entradas repetitivas (con títulos, pero sin definiciones) para palabras en inglés y alemán .

En julio de 2021, en.wiktionary tiene más de 791,870 definiciones de brillo y más de 1,269,938 definiciones en total (incluidas diferentes formas) solo para entradas en inglés, con un total de más de 9,928,056 definiciones en todos los idiomas.

Logotipos

Históricamente, Wiktionary ha carecido de un logotipo uniforme en sus numerosas ediciones lingüísticas. Algunas ediciones usan logotipos que representan una entrada de diccionario sobre el término "Wiktionary", basado en el logotipo anterior de Wiktionary en inglés, que fue diseñado por Brion Vibber, un desarrollador de MediaWiki . Debido a que un logotipo puramente textual debe variar considerablemente de un idioma a otro, se llevó a cabo un concurso de cuatro fases para adoptar un logotipo uniforme en Wikimedia Meta-Wiki de septiembre a octubre de 2006. Algunas comunidades adoptaron la obra ganadora de "Smurrayinchester", un 3 × 3 cuadrícula de baldosas de madera, cada una con un personaje de un sistema de escritura diferente. Sin embargo, la encuesta no vio tanta participación de la comunidad de Wiktionary como esperaban algunos miembros de la comunidad, y varios de los wikis más grandes finalmente mantuvieron sus logotipos textuales.

En abril de 2009, el problema resucitó con un nuevo concurso. Esta vez, una representación de "AAEngelman" de un diccionario de tapa dura abierta ganó una votación cara a cara contra el logotipo de 2006, pero el proceso para refinar y adoptar el nuevo logotipo se estancó. En los años siguientes, algunos wikis reemplazaron sus logotipos textuales con uno de los dos logotipos más nuevos. En 2012, 55 wikis que habían estado usando el logotipo de Wiktionary en inglés recibieron versiones localizadas del diseño de 2006 de "Smurrayinchester". En julio de 2016, el Wiktionary en inglés adoptó una variante de este logotipo. A 4 de julio de 2016, 135 wikis, que representan el 61% de las entradas de Wiktionary, utilizan un logotipo basado en el diseño de 2006 de "Smurrayinchester", 33 wikis (36%) utilizan un logotipo textual y tres wikis (3%) utilizan el diseño de "AAEngelman".

Criterios para garantizar la precisión

Para garantizar la precisión, el Wikcionario en inglés tiene una política que requiere que los términos estén certificados . Los términos en los principales idiomas, como inglés y chino, deben ser verificados por:

  1. uso claramente extendido, o
  2. uso en medios de grabación permanente, transmitiendo significado, en al menos tres instancias independientes que abarquen al menos un año.

Para lenguas menos documentadas como el Creek y lenguas extintas como el latín , un uso en un medio registrado permanentemente o una mención en una obra de referencia es verificación suficiente.

Plurilingüe

A octubre de 2021, hay sitios de Wiktionary para 182 idiomas, de los cuales 158 están activos y 24 están cerrados. Los sitios activos tienen 30,604,247 artículos y los sitios cerrados tienen 339 artículos. Hay 6.401.039 usuarios registrados de los cuales 4.727 están activos recientemente.

Los diez mejores proyectos de lenguaje wikcionario según recuento de artículos de mainspace:

Idioma Wiki Bien Total Ediciones Administradores Usuarios Usuarios activos Archivos
1 inglés en 6,805,664 7.748.050 64,159,832 103 3.865.931 1.804 24
2 francés fr 4.252.066 4.572.906 29,847,394 35 313,809 465 6
3 madagascarí mg 1,709,188 1,792,331 29,121,199 2 9,706 9 3
4 ruso ru 1,148,801 2.404.961 12,025,802 14 266,488 258 142
5 chino Z h 1.079.226 1,643,278 6.317.646 7 98,920 sesenta y cinco 36
6 alemán Delaware 1.007.724 1,173,340 8.869.745 17 204,475 215 99
7 Serbocroata sh 911,567 916,410 1,469,307 4 6.515 1 3
8 Español es 908,462 962,857 5,020,845 8 133,449 89 14
9 sueco sv 810,881 851,493 3.622.458 14 49,527 64 1
10 griego el 798,915 839,603 5.321.529 7 47.661 68 55

Para obtener una lista completa con los totales, consulte Estadísticas de Wikimedia:

Recepción de la crítica

La recepción crítica de Wiktionary ha sido mixta. En 2006, Jill Lepore escribió en el artículo "El arca de Noé" para The New Yorker ,

En Wiktionary no se levanta la mano . Ni siquiera hay un equipo editorial. "¡Sé tu propio lexicógrafo!", Podría ser el lema de Wiktionary . ¿Quién necesita expertos? ¿Por qué pagar un buen dinero por un diccionario escrito por lexicógrafos cuando podríamos improvisar uno nosotros mismos?

Wiktionary no es tanto republicano o democrático como maoísta. Y es tan bueno como los libros con derechos de autor caducados de los que roba.

La revisión de Keir Graff para Booklist fue menos crítica:

¿Existe un lugar para el Wikcionario? Indudablemente. La industria y el entusiasmo de sus numerosos creadores son prueba de que existe un mercado. Y es maravilloso tener otra fuente sólida para usar al buscar los términos extraños que surgen en el mundo en rápido cambio de hoy y en el entorno en línea. Pero al igual que con tantas fuentes web (incluida esta columna), es mejor que la utilicen usuarios sofisticados junto con fuentes de mayor reputación.

Las referencias en otras publicaciones son fugaces y forman parte de discusiones más amplias de Wikipedia, sin progresar más allá de una definición, aunque David Brooks en The Nashua Telegraph lo describió como "salvaje y lanoso". Uno de los impedimentos para la cobertura independiente de Wiktionary es la confusión continua de que es simplemente una extensión de Wikipedia.

La medida de corrección de las inflexiones para un subconjunto de las palabras polacas en el Wikcionario en inglés mostró que estos datos gramaticales son muy estables. Solo se han corregido los datos de inflexión de 131 de las 4.748 palabras polacas.

A partir de 2016, Wiktionary ha tenido un uso creciente en el mundo académico.

Datos de wikcionario en el procesamiento del lenguaje natural

Wiktionary tiene datos semiestructurados . Los datos lexicográficos de Wiktionary se pueden convertir a un formato legible por máquina para ser utilizados en tareas de procesamiento de lenguaje natural .

La minería de datos de Wiktionary es una tarea compleja. Existen las siguientes dificultades:

    • (1) los cambios constantes y frecuentes de datos y esquemas
    • (2) la heterogeneidad en los esquemas de edición del lenguaje Wikcionario y
    • (3) la naturaleza centrada en el ser humano de una wiki .

Hay varios analizadores para diferentes ediciones de idiomas de Wiktionary:

  • DBpedia Wiktionary: un subproyecto de DBpedia , los datos se extraen de wikcionarios en inglés, francés, alemán y ruso; los datos incluyen lenguaje, partes del discurso, definiciones, relaciones semánticas y traducciones. La descripción declarativa del esquema de página, las expresiones regulares y el transductor de estado finito se utilizan para extraer información.
  • JWKTL (Biblioteca de Wikcionario de Java): proporciona acceso a volcados de Wikcionario en inglés y Wiktionary en alemán a través de una API de Wiktionary de Java . Los datos incluyen lenguaje, partes del discurso, definiciones, citas, relaciones semánticas, etimologías y traducciones. JWKTL se distribuye bajo la licencia Apache .
  • wikokit: el analizador de Wikcionario en inglés y Wikcionario en ruso. Los datos analizados incluyen idioma, partes del discurso, definiciones, citas, relaciones semánticas y traducciones. Este es un software de código abierto con múltiples licencias .
  • Las entradas etimológicas se analizaron en el proyecto Etimológico WordNet .

Ejemplos de tareas de procesamiento del lenguaje natural que se han resuelto con la ayuda de datos de Wiktionary incluyen:

  • Traducción automática basada en reglas entre el idioma holandés y el afrikáans ; Se utilizaron datos de Wiktionary en inglés, Wiktionary en holandés y Wikipedia con la plataforma de traducción automática Apertium .
  • Construcción de diccionario legible por máquina por el analizador NULEX, que integra recursos lingüísticos abiertos: English Wiktionary, WordNet y VerbNet . Los NULEX analizador raspaduras Inglés Wikcionario para obtener información tensa (verbos), forma plural y partes del discurso (sustantivos).
  • Reconocimiento y síntesis de voz , donde se utilizó Wiktionary para crear automáticamente diccionarios de pronunciación. Se recuperaron pares de pronunciación de palabras de 6 ediciones de idiomas de Wiktionary (checo, inglés, francés, español, polaco y alemán). Las pronunciaciones están en términos del Alfabeto Fonético Internacional . El sistema ASR basado en Wiktionary en inglés tiene la tasa de error de palabras más alta, donde cada tercer fonema debe cambiarse.
  • Ingeniería de ontología y construcción de redes semánticas .
  • Coincidencia de ontología .
  • Simplificación de texto . Medero & Ostendorf evaluaron la dificultad de vocabulario ( detección del nivel de lectura ) con la ayuda de datos de Wikcionario. Se investigaron las propiedades de las palabras extraídas de las entradas de Wiktionary (longitud de la definición y POS , sentido y recuento de traducciones). Medero & Ostendorf esperaban que
    • (1) es más probable que las palabras muy comunes tengan múltiples partes del habla,
    • (2) es más probable que las palabras comunes tengan múltiples sentidos,
    • (3) es más probable que las palabras comunes se hayan traducido a varios idiomas. Estas características extraídas de las entradas de Wiktionary fueron útiles para distinguir los tipos de palabras que aparecen en los artículos de Wikipedia en inglés simple de las palabras que solo aparecen en los artículos comparables en inglés estándar.
  • Etiquetado de parte del discurso . Li y col. (2012) construyeron etiquetadores POS multilingües para ocho idiomas de escasos recursos sobre la base de Wiktionary en inglés y modelos ocultos de Markov .
  • Análisis de sentimiento .

"Wikidata: datos lexicográficos" se inició en 2018 para proporcionar soporte de datos estructurados a los wikitonarios. Almacena datos de palabras de todos los idiomas en un modelo de datos legible por máquina, bajo un espacio de nombres dedicado "Lexeme" en Wikidata. Hasta octubre de 2021, el proyecto ha acumulado más de 600.000 entradas de lexemas de varios idiomas.

Ver también

Notas

Referencias

Citas

Fuentes

  • Krizhanovsky, Andrew (2010). "Transformación de la estructura de entrada de Wiktionary en tablas y relaciones en un esquema de base de datos relacional". arXiv : 1011,1368 [ cs ].
  • Krizhanovsky, Andrew (2010). "La comparación de tesauros de Wiktionary se transformó en el formato legible por máquina". arXiv : 1006,5040 [ cs ].
  • Li, Shen; Graça, Joao V .; Taskar, Ben (2012). "Etiquetado de parte del discurso supervisado por Wiki-ly" (PDF) . Actas de la Conferencia conjunta de 2012 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural . Isla de Jeju, Corea: Asociación de Lingüística Computacional. págs. 1389-1398.
  • Lin, Feiyu; Krizhanovsky, Andrew (2011). "Coincidencia de ontologías multilingües basada en datos de Wiktionary accesibles a través del punto final SPARQL". Proc. de la XIII Conferencia Rusa sobre Bibliotecas Digitales RCDL'2011 . Voronezh, Rusia. págs. 19-26. arXiv : 1109.0732 . Código Bibliográfico : 2011arXiv1109.0732L .
  • "Wikcionario" . Top 101 sitios web. Revista de PC . Ziff Davis. 6 de abril de 2005. Archivado desde el original el 21 de diciembre de 2005 . Consultado el 16 de diciembre de 2005 .

enlaces externos