Cyc - Cyc

Cyc
	En el sentido de las agujas del reloj: Logos para la base de conocimientos de Cyc, motores de inferencia, salida procesable, selección inteligente de datos
Autor (es) original (es)	Douglas Lenat
Desarrollador (es)	Cycorp, Inc.
Versión inicial	1984 ; Hace 37 años
Lanzamiento estable	6.1 / 27 de noviembre de 2017 ; hace 3 años
Escrito en	Lisp , CycL , SubL
Escribe	La ontología y la base de conocimientos y la representación del conocimiento de idiomas y motor de inferencia
Sitio web	www .cyc .com

Cic (pronunciado / s aɪ k / SYKE ) es un largo plazo de inteligencia artificial proyecto que se propone elaborar una amplia ontología y la base de conocimientos que abarca los conceptos básicos y las reglas acerca de cómo funciona el mundo. Con la esperanza de capturar el conocimiento del sentido común , Cyc se centra en el conocimiento implícito que otras plataformas de IA pueden dar por sentado. Esto contrasta con los hechos que uno puede encontrar en Internet o recuperar a través de un motor de búsqueda o Wikipedia. Cyc permite a los razonadores semánticos realizar razonamientos similares a los humanos y ser menos "frágiles" cuando se enfrentan a situaciones novedosas.

Douglas Lenat inició el proyecto en julio de 1984 en MCC , donde fue científico principal de 1984 a 1994, y luego, desde enero de 1995, ha estado en desarrollo activo por parte de la empresa Cycorp , de la que es director ejecutivo .

Visión general

La necesidad de un proyecto masivo de inteligencia artificial simbólica de este tipo nació a principios de la década de 1980. Los primeros investigadores de IA tenían una amplia experiencia durante los últimos 25 años con programas de IA que generarían resultados tempranos alentadores pero que luego no podían "escalar": ir más allá del "conjunto de entrenamiento" para abordar una gama más amplia de casos. Douglas Lenat y Alan Kay dieron a conocer esta necesidad y organizaron una reunión en Stanford en 1983 para abordar el problema. Los cálculos iniciales de Lenat, Kay y sus colegas (incluidos Marvin Minsky , Allen Newell , Edward Feigenbaum y John McCarthy ) indicaron que ese esfuerzo requeriría entre 1000 y 3000 años-persona de esfuerzo, mucho más allá el modelo de proyecto académico estándar. Sin embargo, los eventos dentro de un año de esa reunión permitieron que se pusiera en marcha un esfuerzo de esa escala.

El proyecto comenzó en julio de 1984 como el proyecto insignia de la Corporación de Microelectrónica y Tecnología Informática (MCC), de 400 personas , un consorcio de investigación iniciado por dos docenas de grandes corporaciones con sede en los Estados Unidos "para contrarrestar un entonces ominoso esfuerzo japonés en IA, el llamado proyecto de " quinta generación ". El gobierno de los EE. UU. Reaccionó a la amenaza de la quinta generación aprobando la Ley de Investigación Cooperativa Nacional de 1984, que por primera vez permitió a las empresas estadounidenses "coludirse" en investigaciones de alto riesgo a largo plazo y de alto rendimiento, y MCC y Sematech surgieron para aproveche esa oportunidad de diez años. El primer presidente y director ejecutivo de MCC fue Bobby Ray Inman , ex director de la NSA y subdirector de la Agencia Central de Inteligencia.

El objetivo del proyecto Cyc era codificar, en forma utilizable por máquinas, los millones de conocimientos que componen el sentido común humano. Esto implicó, a lo largo del camino, (1) desarrollar un lenguaje de representación adecuadamente expresivo, CycL , (2) desarrollar una ontología que abarque todos los conceptos humanos hasta un nivel apropiado de detalle, (3) desarrollar una base de conocimiento sobre ese marco ontológico, que comprende todo el conocimiento humano sobre esos conceptos hasta un nivel apropiado de detalle, y (4) desarrollar un motor de inferencia exponencialmente más rápido que los utilizados en los sistemas expertos convencionales en ese momento, para poder inferir los mismos tipos y profundidad de conclusiones que los humanos son capaces de, dado su conocimiento del mundo.

Con un poco más de detalle:

El lenguaje de representación CycL comenzó como una extensión de RLL (el llamado lenguaje de lenguaje de representación, desarrollado en 1979-1980 por Lenat y su estudiante graduado Russell Greiner mientras estaba en la Universidad de Stanford), pero pocos años después del lanzamiento del proyecto Cyc. Se hizo evidente que incluso representar una noticia, una novela o un anuncio típico requeriría más que el poder expresivo de la lógica completa de primer orden
, es decir, el cálculo de predicados de segundo orden ("¿Cuál es la relación entre la lluvia y el agua?") y luego incluso órdenes de lógica de nivel superior, incluida la lógica modal , la reflexión (que permite al sistema razonar sobre su progreso hasta el momento, sobre un problema en el que está trabajando) y la lógica de contexto (que permite al sistema razonar explícitamente sobre los contextos en los que se encuentran sus diversas premisas). y las conclusiones podrían sostenerse), lógica no monótona y circunscripción . Para 1989, CycL se había expandido en poder expresivo a lógica de orden superior (HOL).
- Las representaciones de
Triplestore (que son similares a los lenguajes de representación de cuadros y ranuras de la década de 1970 de los que surgió RLL) están muy extendidas hoy en día en la IA. Puede ser útil citar algunos ejemplos que acentúan o rompen ese tipo de representación, típicos de los ejemplos que obligaron al proyecto Cyc a pasar de una representación de triple tienda a una mucho más expresiva durante el período 1984-1989: Oraciones en inglés que incluyen negaciones ("Fred no tiene un perro"), cuantificadores anidados ("Todo estadounidense tiene una madre" significa para -todo x existe y ... pero "Todo estadounidense tiene un presidente" significa que existe y tal que para- todo x ...), modales anidados como "Estados Unidos cree que Alemania quiere que la OTAN evite perseguir ..." y es incluso incómodo representar, en un Triplestore , relaciones de aridad superiores a 2, como "Los Ángeles está entre San Diego y San Francisco a lo largo de la US101 ".

La ontología de Cyc creció a aproximadamente 100,000 términos durante la primera década del proyecto, hasta 1994, y en 2017 contenía alrededor de 1,500,000 términos. Esta ontología incluyó:

416.000 colecciones (tipos, géneros, tipos naturales , que incluye ambos tipos de cosas como Pescado y tipos de acciones como Pesca)
un poco más de un millón de personas que representan
- 42,500 predicados (relaciones, atributos, campos, propiedades, funciones),
- alrededor de un millón de entidades generalmente conocidas como TheUnitedStatesOfAmerica, BarackObama, TheSigningOfTheUSDeclarationOfIndependence, etc.
- Un número arbitrariamente grande de términos adicionales también está implícitamente presente en la ontología Cyc, en el sentido de que hay funciones que denotan términos como CalendarYearFn (cuando se le da el argumento 2016, denota el año calendario 2016), GovernmentFn (cuando se le da el argumento Francia denota el gobierno de Francia), Metro (cuando se le da el argumento de 2016, denota una distancia de 2.016 kilómetros) y anidaciones y composiciones de tales términos que denotan funciones.

La base de conocimiento de Cyc de reglas generales de sentido común y afirmaciones que involucran esos términos ontológicos fue creada en gran parte por la escritura de axiomas a mano; creció a alrededor de 1 millón en 1994, y en 2017 es de alrededor de 24,5 millones y su construcción ha requerido más de 1,000 años-persona de esfuerzo.

Es importante comprender que los ingenieros Cyc ontológicos se esfuerzan por mantener esos números lo más pequeños posible, no inflarlos, siempre que no se reduzca el cierre deductivo de la base de conocimientos. Supongamos que se le dice a Cyc acerca de mil millones de personas, animales, etc. Entonces se podrían contar 10 ¹⁸ hechos de la forma "Mickey Mouse no es el mismo individuo que <Bullwinkle the Moose / Abraham Lincoln / Jennifer Lopez>". Pero en lugar de eso, uno podría decirle a Cyc 10,000 reglas de taxonomía Linnaean seguidas por solo ¹⁰⁸ reglas de la forma "Ningún ratón es un alce". E incluso de manera más compacta, Cyc podría simplemente recibir esas 10,000 reglas de taxonomía de Linneo seguidas por una sola regla de la forma "Para dos taxones de Linneo cualesquiera, si no se sabe explícitamente que ninguno es una supertaxón del otro, entonces son disjuntos". Esas 10.001 afirmaciones tienen el mismo cierre deductivo que los 10 ¹⁸ hechos antes mencionados .

El diseño del motor de inferencia Cyc separa el problema epistemológico (qué contenido debería estar en el Cyc KB) del problema heurístico (cómo Cyc podría inferir de manera eficiente argumentos a cientos de pasos de profundidad, en un mar de decenas de millones de axiomas). Para hacer lo primero, el lenguaje CycL y la inferencia lógica bien entendida pueden ser suficientes. Para este último, Cyc utilizó una arquitectura de comunidad de agentes, donde los módulos de razonamiento especializados, cada uno con su propia estructura de datos y algoritmo, "levantaron la mano" si podían progresar de manera eficiente en cualquiera de los subproblemas actualmente abiertos. En 1994 había 20 módulos de nivel heurístico (HL) de este tipo; a 2017 hay más de 1.050 módulos HL.

Algunos de estos módulos HL son muy generales, como un módulo que almacena en caché la estrella de Kleene ( cierre transitivo ) de todas las relaciones transitivas de uso común en la ontología de Cyc.
Algunos son de dominio específico, como un equilibrador de ecuaciones químicas. Estos pueden ser y a menudo son un "escape" a (puntero a) algún programa o servicio web disponible externamente o base de datos en línea, como un módulo para "calcular" rápidamente la población actual de una ciudad sabiendo dónde / cómo buscarlo.

CycL tiene una especificación publicada públicamente y docenas de módulos HL se describieron en el libro de texto de Lenat y Guha, pero el código del motor de inferencia Cyc real, y la lista completa de más de 1000 módulos HL, es propiedad de Cycorp.

El nombre "Cyc" (de "enciclopedia", pronunciado [saɪk] , como " syke ") es una marca registrada propiedad de Cycorp. El acceso a Cyc se realiza a través de licencias pagas, pero los grupos de investigación de IA de buena fe reciben licencias sin costo de investigación únicamente (cf. ResearchCyc ); A partir de 2017, más de 600 de estos grupos en todo el mundo tienen estas licencias.

Los conocimientos típicos representados en la base de conocimientos de Cyc son "Cada árbol es una planta" y "Las plantas mueren eventualmente". Cuando se le pregunta si los árboles mueren, el motor de inferencia puede sacar la conclusión obvia y responder la pregunta correctamente.

La mayor parte del conocimiento de Cyc, fuera de las matemáticas, solo es cierto de forma predeterminada. Por ejemplo, Cyc sabe que, por defecto, los padres aman a sus hijos, cuando te hacen feliz sonríes, dar tu primer paso es un gran logro, cuando alguien a quien amas tiene un gran logro que te hace feliz y solo los adultos tienen hijos. . Cuando se le preguntó si una imagen titulada "Alguien que ve a su hija dar el primer paso" contiene una persona adulta sonriente, Cyc puede inferir lógicamente que la respuesta es Sí y "mostrar su trabajo" presentando el argumento lógico paso a paso utilizando esas cinco piezas. del conocimiento de su base de conocimientos. Estos están formulados en el lenguaje CycL , que se basa en el cálculo de predicados y tiene una sintaxis similar a la del lenguaje de programación Lisp .

En 2008, los recursos de Cyc se asignaron a muchos artículos de Wikipedia . Cyc está actualmente conectado a Wikidata . Los planes futuros pueden conectar Cyc tanto a DBpedia como a Freebase .

Gran parte del trabajo actual de Cyc sigue siendo la ingeniería del conocimiento , representando hechos sobre el mundo a mano e implementando mecanismos de inferencia eficientes sobre ese conocimiento. Sin embargo, cada vez más, el trabajo en Cycorp implica dar al sistema Cyc la capacidad de comunicarse con los usuarios finales en lenguaje natural y ayudar con el proceso continuo de formación de conocimientos a través del aprendizaje automático y la comprensión del lenguaje natural . Otro gran esfuerzo en Cycorp es construir un conjunto de herramientas de ingeniería ontológica impulsadas por Cyc para bajar la barra a la entrada para que las personas contribuyan, editen, examinen y consulten a Cyc.

Como muchas empresas, Cycorp tiene la ambición de utilizar el procesamiento del lenguaje natural de Cyc para analizar todo Internet y extraer datos estructurados; a diferencia de todos los demás, puede recurrir al propio sistema Cyc para que actúe como un sesgo inductivo y como un adjudicador de ambigüedad , metáfora y elipsis . Hay pocos, si es que hay alguno, estudios comparativos sistemáticos del desempeño de Cyc.

Base de conocimientos

Los nombres de los conceptos en Cyc son términos o constantes de CycL . Las constantes comienzan con un "# $" opcional y distinguen entre mayúsculas y minúsculas. Hay constantes para:

Artículos individuales conocidos como individuos , como # $ BillClinton o # $ France.
Colecciones , como # $ Tree-ThePlant (que contiene todos los árboles) o # $ EquivalenceRelation (que contiene todas las relaciones de equivalencia ). Un miembro de una colección se denomina instancia de esa colección.
Funciones , que producen nuevos términos a partir de determinados. Por ejemplo, # $ FruitFn, cuando se le proporciona un argumento que describe un tipo (o colección) de plantas, devolverá la colección de sus frutos. Por convención, las constantes de función comienzan con una letra mayúscula y terminan con la cadena "Fn".
Funciones de verdad , que pueden aplicarse a uno o más conceptos y devolver verdadero o falso. Por ejemplo, # $ hermanos es la relación entre hermanos, verdadero si los dos argumentos son hermanos. Por convención, las constantes de la función de verdad comienzan con una letra minúscula. Las funciones de verdad se pueden dividir en conectivos lógicos (como # $ y, # $ o, # $ no, # $ implica), cuantificadores (# $ para todos, # $ existe, etc.) y predicados .

Dos predicados binarios importantes son # $ isa y # $ genls. El primero describe que un elemento es una instancia de alguna colección, el segundo describe que una colección es una subcolección de otra. Los hechos sobre conceptos se afirman utilizando ciertas oraciones CycL . Los predicados se escriben antes de sus argumentos, entre paréntesis:

(#$isa #$BillClinton #$UnitedStatesPresident)

"Bill Clinton pertenece a la colección de presidentes de Estados Unidos".

(#$genls #$Tree-ThePlant #$Plant)

"Todos los árboles son plantas".

(#$capitalCity #$France #$Paris)

"París es la capital de Francia."

Las oraciones también pueden contener variables, cadenas que comienzan con "?". Estas oraciones se llaman "reglas". Una regla importante afirmada sobre el predicado # $ isa dice:

(#$implies
   (#$and
     (#$isa ?OBJ ?SUBSET)
     (#$genls ?SUBSET ?SUPERSET))
   (#$isa ?OBJ ?SUPERSET))

"Si OBJ es una instancia de la colección SUBSET y SUBSET es una subcolección de SUPERSET , entonces OBJ es una instancia de la colección SUPERSET". Otro ejemplo típico es

(#$relationAllExists #$biologicalMother #$ChordataPhylum #$FemaleAnimal)

lo que significa que para cada instancia de la colección # $ ChordataPhylum (es decir, para cada cordado ), existe un animal hembra (instancia de # $ FemaleAnimal), que es su madre (descrita por el predicado # $ BiologicalMother).

La base de conocimientos se divide en microteorías (Mt), colecciones de conceptos y hechos que suelen pertenecer a un ámbito particular de conocimiento. A diferencia de la base de conocimientos en su conjunto, cada microteoría debe estar libre de contradicciones monótonas . Cada microteoría es un objeto de primera clase en la Cyc ontología; tiene un nombre que es una constante regular; Las constantes de microteoría contienen la cadena "Mt" por convención. Un ejemplo es # $ MathMt, la microteoría que contiene el conocimiento matemático. Las microteorías pueden heredarse unas de otras y están organizadas en una jerarquía: una especialización de # $ MathMt es # $ GeometryGMt, la microteoría sobre la geometría.

Máquina de inferencia

Un motor de inferencia es un programa informático que intenta obtener respuestas de una base de conocimientos. El motor de inferencia Cyc realiza deducción lógica general (incluyendo modus ponens , modus tollens , cuantificación universal y cuantificación existencial ). También realiza razonamiento inductivo , aprendizaje automático estadístico y aprendizaje automático simbólico, y razonamiento abductivo (pero, por supuesto, con moderación y utilizando la base de conocimientos existente como filtro y guía).

Lanzamientos

OpenCyc

La primera versión de OpenCyc se lanzó en la primavera de 2002 y contenía solo 6.000 conceptos y 60.000 hechos. La base de conocimientos se publicó bajo la licencia Apache . Cycorp declaró su intención de lanzar OpenCyc bajo licencias paralelas y sin restricciones para satisfacer las necesidades de sus usuarios. El intérprete CycL y SubL (el programa que permite a los usuarios navegar y editar la base de datos, así como hacer inferencias) se lanzó de forma gratuita, pero solo como binario, sin código fuente. Estaba disponible para Linux y Microsoft Windows . El proyecto Texai de código abierto lanzó el contenido compatible con RDF extraído de OpenCyc. Una versión de OpenCyc, 4.0, fue lanzada en junio de 2012. OpenCyc 4.0 incluía gran parte de la ontología Cyc en ese momento, conteniendo cientos de miles de términos, junto con millones de afirmaciones que relacionan los términos entre sí; sin embargo, estas son principalmente afirmaciones taxonómicas, no las complejas reglas disponibles en Cyc. La base de conocimientos de OpenCyc 4.0 contenía 239.000 conceptos y 2.093.000 hechos.

El objetivo principal del lanzamiento de OpenCyc fue ayudar a los investigadores de IA a comprender lo que faltaba en lo que ahora llaman ontologías y gráficos de conocimiento . Es útil e importante tener conceptos taxonomizados adecuadamente como persona, noche, dormir, acostarse, despertarse, feliz, etc., pero lo que falta en el contenido de OpenCyc sobre esos términos, pero presente en el contenido de Cyc KB, son las diversas reglas de pulgar que la mayoría de nosotros compartimos sobre esos términos: que (por defecto, en ModernWesternHumanCultureMt) cada persona duerme por la noche, duerme acostada, se puede despertar, no está contenta con que la despierten, etc. Ese punto no requiere versiones actualizadas continuamente de OpenCyc, por lo que, a partir de 2017, OpenCyc ya no está disponible.

ResearchCyc

En julio de 2006, Cycorp lanzó el ejecutable de ResearchCyc 1.0, una versión de Cyc dirigida a la comunidad de investigadores, sin cargo. (ResearchCyc estuvo en fase beta de desarrollo durante todo 2004; se lanzó una versión beta en febrero de 2005). Además de la información taxonómica contenida en OpenCyc, ResearchCyc incluye mucho más conocimiento semántico (es decir, hechos y reglas generales adicionales) que involucran los conceptos en su base de conocimientos; También incluye un amplio léxico, herramientas de generación y análisis del inglés e interfaces basadas en Java para la edición y consulta de conocimientos. Además, contiene un sistema para la integración de datos basada en ontologías . A partir de 2017, continuaron apareciendo lanzamientos regulares de ResearchCyc, con 600 grupos de investigación que utilizan licencias en todo el mundo sin costo para fines de investigación no comerciales. A partir de diciembre de 2019, ResearchCyc ya no es compatible. Cycorp espera mejorar y revisar las herramientas para desarrolladores externos en los próximos años.

Aplicaciones

Ha habido más de cien aplicaciones exitosas de Cyc; A continuación se enumeran algunas instancias mutuamente diferentes: -

Gerente / Integrador de Tesauro de Término Farmacéutico

Durante más de una década, Glaxo ha utilizado Cyc para integrar semiautomáticamente todos los grandes tesauros (cientos de miles de términos) de términos de la industria farmacéutica que reflejan el uso diferente entre empresas, países, años y subindustrias. Esta tarea de integración de ontología requiere conocimiento de dominio, conocimiento semántico superficial, pero también conocimiento y razonamiento arbitrariamente profundos de sentido común. El vocabulario farmacéutico varía entre países, (sub) industrias, empresas, departamentos y décadas. Por ejemplo, ¿qué es un paquete de gel ? ¿Cuál es el "nombre de la calle" para el clorhidrato de ranitidina ? Cada uno de estos n vocabularios controlados es una ontología con aproximadamente 300k términos. Los investigadores de Glaxo deben emitir una consulta en su vocabulario actual , hacer que se traduzca a un "significado verdadero" neutral y luego transformarlo en la dirección opuesta para encontrar posibles coincidencias con documentos, cada uno de los cuales fue escrito para cumplir con un vocabulario conocido en particular. . Habían estado utilizando un gran personal para hacerlo manualmente. Cyc se utiliza como la interlingua universal capaz de representar la unión de todos los "significados verdaderos" de los términos, y capaz de representar las 300k transformaciones entre cada uno de esos vocabularios controlados y Cyc, convirtiendo así un problema n² en uno lineal sin introducir el tipo habitual de atenuación de significado de "juego telefónico". Además, Cyc realiza la creación de cada una de esas 300.000 asignaciones para cada tesauro de una manera en gran medida automatizada.

Base de conocimientos sobre terrorismo

La base de conocimientos integral sobre terrorismo fue una aplicación de Cyc en desarrollo que trató de contener en última instancia todo el conocimiento relevante sobre los grupos "terroristas", sus miembros, líderes, ideología, fundadores, patrocinadores, afiliaciones, instalaciones, ubicaciones, finanzas, capacidades, intenciones y comportamientos. , tácticas y descripciones completas de eventos terroristas específicos. El conocimiento se almacena como declaraciones en lógica matemática, adecuadas para la comprensión y el razonamiento informático.

Fundación de la Clínica Cleveland

La Clínica Cleveland ha utilizado Cyc para desarrollar una interfaz de consulta en lenguaje natural de información biomédica, que abarca décadas de información sobre cirugías cardiotorácicas. Una consulta se analiza en un conjunto de fragmentos CycL (lógica de orden superior) con variables abiertas (p. Ej., "Esta pregunta se refiere a una persona que desarrolló una infección por endocarditis", "esta pregunta se refiere a un subconjunto de pacientes de Cleveland Clinic que fue intervenido allí en 2009 ", etc.); luego se aplican varias restricciones (conocimiento del dominio médico, sentido común, pragmática del discurso, sintaxis) para ver cómo esos fragmentos podrían encajar juntos en una consulta formal semánticamente significativa; Significativamente, en la mayoría de los casos, existe exactamente una y sólo una forma de incorporar e integrar esos fragmentos. Integrar los fragmentos implica (i) decidir qué variables abiertas en qué fragmentos realmente representan la misma variable, y (ii) para todas las variables finales, decidir qué orden y alcance de cuantificación debe tener esa variable y de qué tipo (universal o existencial) . Esa consulta lógica (CycL) se convierte luego en una consulta SPARQL que se pasa a CCF SemanticDB, que es su lago de datos .

MathCraft

La aplicación One Cyc tiene como objetivo ayudar a los estudiantes a hacer matemáticas a un nivel de sexto grado, ayudándolos a comprender mucho más profundamente esa materia. Se basa en la experiencia de que a menudo pensamos que entendimos algo, pero solo lo entendimos realmente después de que tuvimos que explicarlo o enseñarlo a otra persona. A diferencia de casi todos los demás software educativos, donde la computadora desempeña el papel del profesor, esta aplicación de Cyc, llamada MathCraft, tiene Cyc desempeña el papel de un compañero de estudios que siempre está un poco más confundido de lo que usted, el usuario, está sobre el tema. . La función del usuario es observar el avatar de Cyc y darle consejos, corregir sus errores, orientarlo, hacer que vea qué está haciendo mal, etc. A medida que el usuario da buenos consejos, Cyc permite que el avatar cometa menos errores de ese tipo. , por lo tanto, desde el punto de vista del usuario, parece que el usuario acaba de enseñarle algo con éxito. Ésta es una variación del aprendizaje mediante la enseñanza .

Criticas

El proyecto Cyc ha sido descrito como "uno de los esfuerzos más controvertidos de la historia de la inteligencia artificial". Catherine Havasi , directora ejecutiva de Luminoso, dice que Cyc es el proyecto predecesor de Watson de IBM . El científico de aprendizaje automático Pedro Domingos se refiere al proyecto como un "fracaso catastrófico" por varias razones, incluida la cantidad interminable de datos necesarios para producir resultados viables y la incapacidad de Cyc para evolucionar por sí solo.

Robin Hanson , profesor de economía en la Universidad George Mason, ofrece un análisis más equilibrado:

Por supuesto, el proyecto CYC está abierto a críticas sobre sus muchas opciones particulares. La gente se ha quejado de sus representaciones de tipo lógico y de lenguaje, sobre su selección de casos prototípicos a partir de los cuales construir (por ejemplo, artículos de enciclopedia), sobre su enfoque en responder sobre actuar, sobre la frecuencia con la que reconstruye frente al mantenimiento de sistemas heredados, y sobre ser privado versus publicarlo todo. Pero cualquier proyecto de gran envergadura como este produciría tales disputas, y no es obvio que ninguna de sus opciones haya sido seriamente errónea. Tenían que empezar por algún lado y, en mi opinión, ahora han recopilado una base de conocimientos con un tamaño, alcance e integración realmente espectaculares. Es posible que otras arquitecturas funcionen mejor, pero si conocer lotes es tan importante como piensa Lenat, esperaría que la inteligencia artificial hiciera intentos serios de importar el conocimiento de CYC, traduciéndolo en una nueva representación. Ninguna otra fuente tiene el tamaño, el alcance y la integración de CYC.

Marvin Minsky expresó un sentimiento similar : "Desafortunadamente, las estrategias más populares entre los investigadores de IA en la década de 1980 han llegado a un callejón sin salida", dijo Minsky. Los llamados " sistemas expertos " , que emulaban la experiencia humana dentro de áreas temáticas estrictamente definidas como derecho y medicina, podrían hacer coincidir las consultas de los usuarios con diagnósticos, artículos y resúmenes relevantes, pero no pudieron aprender conceptos que la mayoría de los niños conocen cuando están 3 años de edad. "Para cada tipo diferente de problema", dijo Minsky, "la construcción de sistemas expertos tuvo que comenzar de nuevo, porque no acumularon conocimiento de sentido común". Solo un investigador se ha comprometido con la colosal tarea de construir un sistema integral de razonamiento de sentido común, según Minsky. Douglas Lenat, a través de su proyecto Cyc, ha dirigido la entrada línea por línea de más de 1 millón de reglas en una base de conocimientos de sentido común ".

Gary Marcus , profesor de psicología y ciencias neuronales en la Universidad de Nueva York y cofundador de una empresa de inteligencia artificial llamada Geometric Intelligence, dice que "representa un enfoque que es muy diferente de todas las cosas de aprendizaje profundo que han aparecido en las noticias". Esto es consistente con la posición de Doug Lenat de que "A veces, el barniz de inteligencia no es suficiente".

Stephen Wolfram escribe:

En los primeros días del campo de la inteligencia artificial, hubo muchas discusiones sobre la “representación del conocimiento”, con enfoques basados de diversas formas en la gramática del lenguaje natural, la estructura de la lógica de predicados o el formalismo de las bases de datos. Se intentaron muy pocos proyectos a gran escala (el Cyc de Doug Lenat es un contraejemplo notable).

Marcus escribe:

El campo podría beneficiarse si el CYC se describiera y evaluara sistemáticamente. Si CYC ha resuelto alguna fracción significativa del razonamiento de sentido común, entonces es fundamental saberlo, como herramienta útil y como punto de partida para futuras investigaciones. Si CYC ha tenido dificultades, sería útil aprender de los errores que se cometieron. Si CYC es completamente inútil, entonces los investigadores pueden al menos dejar de preocuparse por si están reinventando la rueda.

Cada pocos años desde que comenzó a publicarse (1993), hay un nuevo artículo de Wired Magazine sobre Cyc, algunos positivos y otros negativos (incluido un número que contenía uno de cada uno).

Empleados notables

Esta es una lista de algunas de las personas notables que trabajan o han trabajado en Cyc mientras era un proyecto en MCC (donde se inició Cyc) o Cycorp.

Ver también

Referencias

Otras lecturas

Alan Belasco y col. (2004). "Representar eficazmente las lagunas de conocimiento" . En: D. Karagiannis, U. Reimer (Eds.): Aspectos prácticos de la gestión del conocimiento, Actas de PAKM 2004, Viena, Austria, 2 y 3 de diciembre de 2004 . Springer-Verlag, Berlín Heidelberg.
Elisa Bertino , Gian Piero y BC Zarria (2001). Sistemas de bases de datos inteligentes . Addison-Wesley Professional.
John Cabral y otros (2005). "Conversión del metaconocimiento semántico en sesgo inductivo" . En: Actas de la 15ª Conferencia Internacional sobre Programación Lógica Inductiva . Bonn, Alemania, agosto de 2005.
Jon Curtis y col. (2005). "Sobre el uso eficaz de Cyc en un sistema de respuesta a preguntas" . En: Artículos del Taller IJCAI sobre Conocimiento y Razonamiento para Responder Preguntas . Edimburgo, Escocia: 2005.
Chris Deaton y col. (2005). "La base de conocimientos integral sobre terrorismo en Cyc" . En: Actas de la Conferencia Internacional sobre Análisis de Inteligencia de 2005, McLean, Virginia, mayo de 2005.
Kenneth Forbus y col. (2005). "Combinando analogía, recuperación inteligente de información e integración del conocimiento para el análisis: un informe preliminar" . En: Actas de la Conferencia Internacional sobre Análisis de Inteligencia de 2005 , McLean, Virginia, mayo de 2005
douglas foxvog (2010), "Cyc". En: Teoría y Aplicaciones de la Ontología: Aplicaciones Informáticas ”, Springer .
Fritz Lehmann y d. foxvog (1998), " Poner carne en los huesos: problemas que surgen en la creación de bases de conocimiento anatómicas con estructuras relacionales ricas ". En: Intercambio de conocimientos en sistemas basados en conocimientos biológicos y médicos , AAAI .
Douglas Lenat y RV Guha (1990). Construcción de grandes sistemas basados en el conocimiento: representación e inferencia en el proyecto Cyc . Addison-Wesley. ISBN 0-201-51752-3 .
James Masters (2002). "Integración estructurada de fuentes de conocimiento y sus aplicaciones a la fusión de información" . En: Actas de la Quinta Conferencia Internacional sobre Fusión de Información . Annapolis, MD, julio de 2002.
James Masters y Z. Güngördü (2003). . "Integración estructurada de fuentes de conocimiento: un informe de progreso" En: Integración de sistemas multiagente intensivos en conocimiento . Cambridge, Massachusetts, Estados Unidos, 2003.
Cynthia Matuszek y col. (2006). "Introducción a la sintaxis y el contenido de Cyc". . En: Proc. del Simposio de primavera de la AAAI de 2006 sobre la formalización y compilación de conocimientos básicos y sus aplicaciones a la representación del conocimiento y la respuesta a preguntas . Stanford, 2006
Cynthia Matuszek y col. (2005). "Búsqueda de sentido común: poblar Cyc desde la Web" . En: Actas de la XX Conferencia Nacional sobre Inteligencia Artificial . Pittsburgh, Pensilvania, julio de 2005.
Tom O'Hara y col. (2003). "Criterios de inducción para asignaciones léxicas de sustantivo masivo utilizando Cyc Knowledge Base y su extensión a WordNet" . En: Actas del Quinto Taller Internacional de Semántica Computacional . Tilburg, 2003.
Fabrizio Morbini y Lenhart Schubert (2009). "Evaluación de EPILOG: un razonador de lógica episódica" . Universidad de Rochester, Conferencia Commonsense '09 (describe la biblioteca de Cyc de ~ 1600 'Pruebas de sentido común')
Kathy Panton y col. (2002). "Formación de conocimientos y diálogo con el conjunto de herramientas de KRAKEN" . En: XVIII Congreso Nacional de Inteligencia Artificial . Edmonton, Canadá, 2002.
Deepak Ramachandran P. Reagan y K. Goolsbey (2005). "ResearchCyc de primer orden: expresividad y eficiencia en una ontología de sentido común" . En: Artículos del Taller AAAI sobre Contextos y Ontologías: Teoría, Práctica y Aplicaciones . Pittsburgh, Pensilvania, julio de 2005.
Stephen Reed y D. Lenat (2002). "Mapeo de ontologías en Cyc" . En: Taller de la Conferencia AAAI 2002 sobre Ontologías para la Web Semántica . Edmonton, Canadá, julio de 2002.
Benjamin Rode y col. (2005). "Hacia un modelo de recuperación de patrones en datos relacionales" . En: Actas de la Conferencia Internacional sobre Análisis de Inteligencia de 2005 . McLean, Virginia, mayo de 2005.
Dave Schneider y col. (2005). "Recopilación y gestión de hechos para análisis de inteligencia" . En: Actas de la Conferencia Internacional sobre Análisis de Inteligencia de 2005 ". McLean, Virginia, mayo de 2005.
Schneider, D. y Witbrock, MJ (mayo de 2015). "Gramática de la construcción semántica: superando la división entre NL y lógica" En las actas de la 24ª Conferencia Internacional sobre la World Wide Web (págs. 673-678).
Blake Shepard y col. (2005). "Un enfoque basado en el conocimiento para la seguridad de la red: aplicación de Cyc en el dominio de la evaluación de riesgos de la red" . En: Actas de la decimoséptima conferencia sobre aplicaciones innovadoras de la inteligencia artificial . Pittsburgh, Pensilvania, julio de 2005.
Nick Siegel y col. (2004). "Arquitecturas de agentes: combinando las fortalezas de la ingeniería de software y los sistemas cognitivos" . En: Artículos del Taller AAAI sobre Arquitecturas de Agentes Inteligentes: Combinando las Fortalezas de la Ingeniería de Software y los Sistemas Cognitivos . Informe técnico WS-04-07, págs. 74–79. Menlo Park, California: AAAI Press, 2004.
Nick Siegel y col. (2005). Generación de hipótesis y ensamblaje de pruebas para el análisis de inteligencia: aplicación Nooscape de Cycorp " . En Actas de la Conferencia Internacional sobre Análisis de Inteligencia de 2005, McLean, Virginia, mayo de 2005.
Michael Witbrock y col. (2002). "Un sistema de diálogo interactivo para la adquisición de conocimiento en Cyc" . En: Actas de la Decimoctava Conferencia Conjunta Internacional sobre Inteligencia Artificial . Acapulco, México, 2003.
Michael Witbrock y col. (2004). "Anotación automatizada de OWL asistida por una gran base de conocimientos" . En: Notas del Taller del Taller de 2004 sobre Marcado de Conocimiento y Anotación Semántica en la 3ª Conferencia Internacional de Web Semántica ISWC2004 . Hiroshima, Japón, noviembre de 2004, págs. 71–80.
Michael Witbrock y col. (2005). "El conocimiento engendra conocimiento: pasos hacia la adquisición asistida de conocimiento en Cyc" . En: Artículos del Simposio de primavera de la AAAI de 2005 sobre la recopilación de conocimientos de los contribuyentes voluntarios (KCVC) . págs. 99-105. Stanford, California, marzo de 2005.
William Jarrold (2001). "Validación de inteligencia en grandes sistemas basados en reglas con sentido común" . "Validación de inteligencia basada en modelos: artículos del Simposio AAAI de 2001" (Informe técnico de AAAI SS-01-04).
William Jarrold. (2003). Uso de una ontología para evaluar una gran ontología basada en reglas: teoría y práctica . {\ em Performance Metrics for Intelligent Systems PerMIS '03} (Publicación especial NIST 1014).

enlaces externos

Página de inicio de Cycorp

Languages

In other projects