Wikidata - Wikidata

Wikidata
Wikidata-logo-en.svg
Captura de pantalla
Captura de pantalla de la página principal de Wikidata.png
Página principal de Wikidata en abril de 2021
Tipo de sitio
Disponible en Múltiples idiomas
Dueño Fundación Wikimedia
Editor Comunidad Wikimedia
URL www .wikidata .org Edita esto en Wikidata
Comercial No
Registro Opcional
Lanzado 29 de octubre de 2012 ; Hace 8 años ( 2012-10-29 )

Wikidata es un gráfico de conocimiento multilingüe editado en colaboración alojado por la Fundación Wikimedia . Es una fuente común de datos abiertos que proyectos de Wikimedia como Wikipedia y cualquier otra persona pueden usar bajo la licencia de dominio público CC0 . Wikidata es una wiki impulsada por el software MediaWiki , y también está impulsada por el conjunto de extensiones de gráficos de conocimiento de MediaWiki conocidas como Wikibase .

Concepto

Este diagrama muestra los términos más importantes utilizados en Wikidata.

Wikidata es una base de datos orientada a documentos , centrada en elementos, que representan cualquier tipo de tema, concepto u objeto. A cada elemento se le asigna un identificador persistente único, un número entero positivo prefijado con la letra Q mayúscula, conocida como "QID". Esto permite traducir la información básica necesaria para identificar el tema que cubre el ítem sin privilegiar ningún idioma.

Ejemplos de artículos incluyen los Juegos Olímpicos de Verano de 1988 (Q8470) , el amor (Q316) , Johnny Cash (Q42775) , Elvis Presley (Q303) y Gorilla (Q36611) .

Las etiquetas de los artículos no tienen por qué ser únicas. Por ejemplo, hay dos elementos llamados "Elvis Presley": Elvis Presley (Q303) , que representa al cantante y actor estadounidense , y Elvis Presley (Q610926) , que representa su álbum homónimo . Sin embargo, la combinación de una etiqueta y su descripción debe ser única. Por lo tanto, para evitar la ambigüedad, el identificador único de un artículo ( QID ) está vinculado a esta combinación.

Los tipos de elementos son generales y lexemas.

Partes principales

Captura de pantalla de Wikidata


Un diseño de los cuatro componentes principales de una página de Wikidata de fase 1: la etiqueta, la descripción, los alias y los enlaces entre idiomas.

Básicamente, un artículo consta de:

  • Obligatoriamente, un identificador (el QID), relacionado con una etiqueta y una descripción.
  • Opcionalmente, múltiples alias y cierto número de declaraciones (y sus propiedades y valores).

Declaraciones

Captura de pantalla de Wikidata
Tres declaraciones del artículo de Wikidata sobre el planeta Marte (Q111). Los valores incluyen enlaces a otros elementos y a Wikimedia Commons .

Las declaraciones son cómo se registra cualquier información conocida sobre un elemento en Wikidata. Formalmente, constan de pares clave-valor , que hacen coincidir una propiedad (como "autor" o "fecha de publicación") con uno o más valores de entidad (como " Sir Arthur Conan Doyle " o "1902"). Por ejemplo, la declaración informal en inglés "la leche es blanca" estaría codificada por una declaración que empareje la propiedad color (P462) con el valor blanco (Q23444) bajo el elemento leche (Q8495) .

Las declaraciones pueden asignar una propiedad a más de un valor. Por ejemplo, la propiedad de "ocupación" de Marie Curie podría vincularse con los valores "físico" y "químico", para reflejar el hecho de que ella se dedicó a ambas ocupaciones.

Los valores pueden adoptar muchos tipos, incluidos otros elementos, cadenas, números o archivos multimedia de Wikidata. Las propiedades prescriben con qué tipos de valores se pueden emparejar. Por ejemplo, el sitio web oficial de la propiedad (P856) solo puede emparejarse con valores de tipo "URL".

Propiedad y valor

Ejemplo de una declaración simple que consta de un par propiedad-valor

El método de Wikidata para estructurar datos involucra dos elementos principales: propiedades y valores de dichas propiedades (denominados "elementos" en la terminología de Wikidata).

Una propiedad describe el valor de datos de una declaración y se puede considerar como una categoría de datos, por ejemplo, color (P462) para el valor de datos azul (Q1088) o educación para un elemento de persona.

Como se dijo, las propiedades , cuando se combinan con valores , forman una declaración en Wikidata.

La propiedad más utilizada es cites work (P2860) , que se utiliza en más de 210.000.000 páginas de elementos.

Las propiedades tienen sus propias páginas en Wikidata y, como un elemento puede incluir varias propiedades, esto da como resultado una estructura de datos vinculada de páginas, bajo la misma declaración.

Las propiedades también pueden definir reglas más complejas sobre su uso previsto, denominadas restricciones . Por ejemplo, la propiedad de capital (P36) incluye una "restricción de valor único", lo que refleja la realidad de que (típicamente) los territorios tienen solo una ciudad capital. Las restricciones se tratan como alertas y sugerencias de prueba, en lugar de reglas inviolables.

Opcionalmente, los calificadores se pueden utilizar para refinar el significado de una declaración proporcionando información adicional que se aplica al alcance de la declaración, dentro de los valores. Por ejemplo, la propiedad "población" podría modificarse con un calificador como "a partir de 2011". Los valores en las declaraciones también se pueden anotar con referencias , apuntando a una fuente que respalda el contenido de la declaración.

Lexemes

En lingüística , un lexema es una unidad de significado léxico . Del mismo modo, los lexemas de Wikidata son elementos con una estructura que los hace más adecuados para almacenar datos lexicográficos . Además de almacenar el lenguaje al que se refiere el lexema, tienen una sección para formas y una sección para sentidos .

EntitySchemas

En enero de 2019, comenzó el desarrollo de una nueva extensión para MediaWiki para permitir almacenar expresiones de forma en un espacio de nombres separado.

Desde entonces, esta extensión se ha instalado en Wikidata y permite a los contribuyentes utilizar expresiones de formas para validar y describir los datos del marco de descripción de recursos en elementos y lexemas. Cualquier elemento o lexema en Wikidata se puede validar con un esquema de entidad, y esto lo convierte en una herramienta importante para garantizar la calidad.

Desarrollo

La creación del proyecto se financió con donaciones del Instituto Allen de Inteligencia Artificial , la Fundación Gordon y Betty Moore y Google, Inc. , por un total de 1,3 millones de euros. El desarrollo del proyecto está impulsado principalmente por Wikimedia Deutschland bajo la dirección de Lydia Pintscher , y originalmente se dividió en tres fases:

  1. Centralización de enlaces entre idiomas: enlaces entre artículos de Wikipedia sobre el mismo tema en diferentes idiomas.
  2. Proporcionar un lugar central para los datos de la caja de información para todas las wikipedias.
  3. Crear y actualizar artículos de listas basados ​​en datos en Wikidata y vincularlos a otros proyectos hermanos de Wikimedia, incluidos Meta-Wiki y la propia Wikidata (interwikilinks).

Lanzamiento inicial

Captura de pantalla de Wikipedia


Una lista de enlaces entre idiomas de un artículo de Wikipedia tal como aparecían en un cuadro de edición (izquierda) y en la página del artículo (derecha) antes de Wikidata. Cada enlace en estas listas es a un artículo que requiere su propia lista de enlaces entre idiomas a los otros artículos; esta es la información centralizada por Wikidata.
Captura de pantalla de Wikidata
El enlace "Editar enlaces" hoy en día lleva al lector a Wikidata para editar enlaces entre idiomas e interwiki.

Wikidata se lanzó el 29 de octubre de 2012 y fue el primer proyecto nuevo de la Fundación Wikimedia desde 2006. En este momento, solo estaba disponible la centralización de enlaces de idiomas. Esto permitió crear elementos y completarlos con información básica: una etiqueta - un nombre o título, alias - términos alternativos para la etiqueta, una descripción y enlaces a artículos sobre el tema en todas las ediciones de varios idiomas de Wikipedia (enlaces interwikipedia) .

Históricamente, un artículo de Wikipedia incluía una lista de enlaces entre idiomas , que eran enlaces a artículos sobre el mismo tema en otras ediciones de Wikipedia, si existieran. Inicialmente, Wikidata era un repositorio autónomo de enlaces entre idiomas. Las ediciones en idiomas de Wikipedia aún no podían acceder a Wikidata, por lo que necesitaban continuar manteniendo sus propias listas de enlaces entre idiomas, principalmente al final de las páginas de los artículos.

El 14 de enero de 2013, la Wikipedia húngara se convirtió en la primera en permitir el suministro de enlaces entre idiomas a través de Wikidata. Esta funcionalidad se amplió a las Wikipedias hebreas e italianas el 30 de enero, a la Wikipedia en inglés el 13 de febrero y a todas las demás Wikipedias el 6 de marzo. Después de que no se alcanzó un consenso sobre una propuesta para restringir la eliminación de enlaces de idiomas de la Wikipedia en inglés, se otorgó el poder de eliminarlos de la Wikipedia en inglés a los editores automáticos ( bots ). El 23 de septiembre de 2013, se lanzaron enlaces entre idiomas en Wikimedia Commons.

Declaraciones y acceso a datos

El 4 de febrero de 2013, se introdujeron declaraciones en las entradas de Wikidata. Los posibles valores para las propiedades se limitaron inicialmente a dos tipos de datos (elementos e imágenes en Wikimedia Commons), con más tipos de datos (como coordenadas y fechas) para seguir más adelante. El primer tipo nuevo, string, se implementó el 6 de marzo.

Entre el 27 de marzo y el 25 de abril de 2013, se implementó progresivamente la capacidad de las ediciones de Wikipedia en varios idiomas para acceder a los datos de Wikidata. El 16 de septiembre de 2015, Wikidata comenzó a permitir el llamado acceso arbitrario , o el acceso desde un artículo determinado de Wikipedia a las declaraciones sobre los elementos de Wikidata que no están directamente relacionados con él. Por ejemplo, fue posible leer datos sobre Alemania del artículo de Berlín, lo que antes no era factible. El 27 de abril de 2016 se activó el acceso arbitrario en Wikimedia Commons.

Según un estudio de 2020, una gran proporción de los datos en Wikidata consisten en entradas importadas en masa de otras bases de datos por bots de Internet , lo que ayuda a "derribar las paredes" de los silos de datos .

Servicio de consultas y otras mejoras

El 7 de septiembre de 2015, la Fundación Wikimedia anunció el lanzamiento del Servicio de consultas Wikidata, que permite a los usuarios realizar consultas sobre los datos contenidos en Wikidata. El servicio utiliza SPARQL como lenguaje de consulta. A noviembre de 2018, existen al menos 26 herramientas diferentes que permiten consultar los datos de diferentes formas.

Por otro lado, en el panel lateral de Wiktionary, las herramientas ahora incluyen un "elemento de Wikidata" para ayudar a crear un nuevo elemento y enlaces a nuevas páginas. Por ejemplo, esto es útil cuando el elemento está solo en el Wiktionary en inglés y debe estar vinculado a otro proyecto de Wikimedia, en lugar de a Wiktionaries en otros idiomas.

A continuación se muestra un ejemplo de SPARQL para buscar una instancia de (P31) serie de televisión (Q5398426) con el tema principal (P921) sobre isla (Q23442) y accidente de aviación (Q744913). Sin embargo, también se pueden encontrar resultados similares directamente en Wikipedia utilizando intersecciones de categorías si existen y están permitidas las categorías adecuadas.

SELECT ?item ?itemLabel
WHERE {
  ?item wdt:P31 wd:Q5398426.
  ?item wdt:P921 wd:Q23442.
  ?item wdt:P921 wd:Q744913.
  SERVICE wikibase:label {bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".}
}

A continuación se muestra otro ejemplo de SPARQL para encontrar una instancia de la serie de televisión (P31) (Q5398426) donde el miembro del elenco (P161) incluye a Daniel Dae Kim (Q299700) y Jorge García (Q264914). La condición de la serie de televisión evita que se muestre un episodio de la serie de televisión (Q21191270) / episodio de dos partes (Q21664088) y no muestra resultados que sean una película (Q11424).

SELECT ?item ?itemLabel
WHERE {
  ?item wdt:P31 wd:Q5398426.
  ?item wdt:P161 wd:Q299700.
  ?item wdt:P161 wd:Q264914.
  SERVICE wikibase:label {bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en".}
}

Las barras del logotipo contienen la palabra "WIKI" codificada en código Morse . Fue creado por Arun Ganesh y seleccionado a través de la decisión de la comunidad.

Recepción

En noviembre de 2014, Wikidata recibió el premio Open Data Publisher Award del Open Data Institute "por su gran escala y apertura incorporada".

En noviembre de 2018, la información de Wikidata se utilizó en el 58,4% de todos los artículos de Wikipedia en inglés, principalmente para identificadores externos o ubicaciones de coordenadas. En conjunto, los datos de Wikidata se muestran en el 64% de todas las páginas de Wikipedias , el 93% de todos los artículos de Wikivoyage , el 34% de todos los Wikiquotes , el 32% de todos los Wikisources y el 27% de Wikimedia Commons. El uso en otros proyectos de la Fundación Wikimedia es un testimonio.

A diciembre de 2020, los datos de Wikidata fueron visualizados por al menos otras 20 herramientas externas y se han publicado más de 300 artículos sobre Wikidata.

El conjunto de datos estructurados de Wikidata ha sido utilizado por asistentes virtuales como Siri de Apple y Amazon Alexa .

Aplicaciones

  • La extensión Mwnci puede importar datos de Wikidata a hojas de cálculo de LibreOffice Calc
  • Hay (en octubre de 2019) discusiones sobre el uso de elementos QID en relación con lo que se llama emoji QID
  • Wiki Explorer: aplicación de Android para descubrir cosas a tu alrededor y microedición de Wikidata
  • Itinerario de KDE: un asistente de viaje de código abierto consciente de la privacidad que utiliza datos de Wikidata

Ver también

Referencias

Otras lecturas

enlaces externos