Programa automatizado de evaluación de similitudes - Automated Similarity Judgment Program

Programa automatizado de evaluación de similitudes
Productor Instituto Max Planck para la Ciencia de la Historia Humana (Alemania)
Idiomas inglés
Acceso
Costo Gratis
Cobertura
Disciplinas Lingüística comparativa cuantitativa
Enlaces
Sitio web http://asjp.clld.org

El Programa Automatizado de Juicio de Similitud ( ASJP ) es un proyecto colaborativo que aplica enfoques computacionales a la lingüística comparativa utilizando una base de datos de listas de palabras. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos para más de la mitad de los idiomas del mundo. Se está expandiendo continuamente. Además de aislamientos y lenguajes de grupos genealógicos demostrados, la base de datos incluye pidgins , criollos , lenguas mixtas y lenguas construidas . Las palabras de la base de datos se transcriben a una ortografía estándar simplificada ( código ASJP ). La base de datos se ha utilizado para estimar las fechas en las que las familias lingüísticas han divergido en lenguas hijas mediante un método relacionado con la glotocronología , pero aún diferente de la misma , para determinar la patria ( Urheimat ) de una protolengua , para investigar el simbolismo sonoro , para evaluar diferentes filogenias. métodos y varios otros propósitos.

ASJP no es ampliamente aceptado entre los lingüistas históricos como un método adecuado para establecer o evaluar relaciones entre familias lingüísticas.

Es parte del proyecto Cross-Linguistic Linked Data organizado por el Instituto Max Planck para la Ciencia de la Historia Humana .

Historia

Metas originales

ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, con base en las similitudes léxicas observadas. En el primer artículo de ASJP, dos palabras semánticamente idénticas de idiomas comparados se juzgaron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se consideraron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de familias lingüísticas que incluyen austroasiático , indoeuropeo , maya y muskogeano .

Consorcio ASJP

El Consorcio ASJP, fundado alrededor de 2008, llegó a involucrar a unos 25 lingüistas profesionales y otras partes interesadas que trabajaban como transcriptores voluntarios y / o ayudaban al proyecto de otras formas. El principal impulsor de la fundación del consorcio fue Cecil H. Brown. Søren Wichmann es el comisario diario del proyecto. Un tercer miembro central del consorcio es Eric W. Holman, quien ha creado la mayor parte del software utilizado en el proyecto.

Listas de palabras más cortas

Si bien las listas de palabras utilizadas se basaron originalmente en la lista Swadesh de 100 elementos , se determinó estadísticamente que un subconjunto de 40 de los 100 elementos producía resultados clasificatorios tan buenos, si no ligeramente mejores, que la lista completa. Por lo tanto, las listas de palabras recopiladas posteriormente contienen solo 40 elementos (o menos, cuando faltan las certificaciones de algunos).

Distancia de Levenshtein

En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (LD). Se encontró que este enfoque produce mejores resultados de clasificación comparados con la opinión de expertos que el método utilizado inicialmente. LD se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo LD por el número de símbolos de la más larga de las dos palabras comparadas. Esto produce LD normalizado (LDN). Un LDN dividido (LDND) entre los dos idiomas se calcula dividiendo el LDN promedio para todos los pares de palabras que tienen el mismo significado por el LDN promedio para todos los pares de palabras que tienen significados diferentes. Esta segunda normalización está destinada a corregir la similitud del azar.

Lista de palabras

El ASJP utiliza la siguiente lista de 40 palabras. Es similar a la lista Swadesh-Yakhontov , pero tiene algunas diferencias.

Partes del cuerpo
  • ojo
  • oreja
  • nariz
  • lengua
  • diente
  • mano
  • rodilla
  • sangre
  • hueso
  • pecho (de mujer)
  • hígado
  • piel
Animales y plantas
  • piojo
  • perro
  • fish (sustantivo)
  • cuerno (parte animal)
  • árbol
  • hoja
Gente
  • persona
  • name (sustantivo)
Naturaleza
  • sol
  • estrella
  • agua
  • fuego
  • piedra
  • sendero
  • montaña
  • noche (tiempo oscuro)
Verbos y adjetivos
  • beber (verbo)
  • morir
  • ver
  • escuchar
  • venir
  • nuevo
  • lleno
Numerales y pronombres
  • uno
  • dos
  • I
  • usted
  • nosotros

Código ASJP

La versión ASJP de 2016 utiliza los siguientes símbolos para codificar fonemas : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! es decir, E 3 auo

Representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.

Sonidos representados por código ASJP
Código ASJP Descripción IPA
I vocal frontal alta, redondeada y no redondeada yo, ɪ, y, ʏ
mi vocal delantera media, redondeada y no redondeada e, ø
mi vocal frontal baja, redondeada y no redondeada a, æ, ɛ, ɶ, œ
3 vocal central alta y media, redondeada y no redondeada ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
a vocal central baja, sin redondear ɐ
tu vocal posterior alta, redondeada y no redondeada ɯ, u
o vocal posterior media y baja, redondeada y no redondeada ɤ, ʌ, ɑ, o, ɔ, ɒ
pag parada bilabial sorda y fricativa p, ɸ
B parada bilabial sonora y fricativa b, β
metro nasal bilabial metro
F fricativa labiodental muda F
v fricativa labiodental sonora v
8 fricativa dental sorda y sonora θ, ð
4 nasal dental norte
t parada alveolar sorda t
D parada alveolar sonora D
s fricativa alveolar sorda s
z fricativa alveolar sonora z
C africada alveolar sorda y sonora ts, dz
norte nasal alveolar sorda y sonora norte
S fricativa postalveolar sorda ʃ
Z fricativa postalveolar sonora ʒ
C África palato-alveolar sorda
j africada palato-alveolar sonora
T parada palatina sorda y sonora c, ɟ
5 nasal palatino ɲ
k parada velar muda k
gramo parada velar sonora ɡ
X fricativa velar sorda y sonora x, ɣ
norte velar nasal norte
q parada uvular sorda q
GRAMO parada uvular sonora ɢ
X fricativa uvular sorda y sonora, fricativa faríngea sorda y sonora χ, ʁ, ħ, ʕ
7 parada glotal sorda ʔ
h fricativa glotal sorda y sonora h, ɦ
l lateral alveolar sonoro aproximado l
L todos los demás laterales ʟ, ɭ, ʎ
w aproximante bilabial-velar sonora w
y aproximante palatino j
r trino apico-alveolar sonoro y todas las variedades de "sonidos r" r, ʀ, etc.
! todas las variedades de "sonidos de clic" ǃ, ǀ, ǁ, ǂ

Ver también

Referencias

Fuentes

enlaces externos