AlphaZero - AlphaZero

AlphaZero es un programa informático desarrollado por la empresa de investigación en inteligencia artificial DeepMind para dominar los juegos de ajedrez , shogi y go . Este algoritmo utiliza un enfoque similar a AlphaGo Zero .

El 5 de diciembre de 2017, el equipo de DeepMind lanzó un preprint presentando AlphaZero, que dentro de las 24 horas posteriores al entrenamiento logró un nivel de juego sobrehumano en estos tres juegos al derrotar a los programas de campeones mundiales Stockfish , elmo y la versión de tres días de AlphaGo Zero. . En cada caso, hizo uso de unidades de procesamiento tensorial personalizadas (TPU) que los programas de Google fueron optimizados para usar. AlphaZero fue entrenado únicamente a través de "auto-juego" usando 5,000 TPU de primera generación para generar los juegos y 64 TPU de segunda generación para entrenar las redes neuronales , todo en paralelo , sin acceso a libros de apertura o tablas de finales . Después de cuatro horas de entrenamiento, DeepMind estimó que AlphaZero estaba jugando al ajedrez con una calificación Elo más alta que Stockfish 8; Después de 9 horas de entrenamiento, el algoritmo derrotó a Stockfish 8 en un torneo de 100 juegos controlado por tiempo (28 victorias, 0 derrotas y 72 empates). El algoritmo entrenado se jugó en una sola máquina con cuatro TPU.

El artículo de DeepMind sobre AlphaZero se publicó en la revista Science el 7 de diciembre de 2018. En 2019, DeepMind publicó un nuevo artículo que detallaba MuZero , un nuevo algoritmo capaz de generalizar el trabajo de AlphaZero, jugando tanto a Atari como a juegos de mesa sin el conocimiento de las reglas o representaciones del juego.

Relación con AlphaGo Zero

AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ) , y puede jugar shogi y ajedrez además de Go . Las diferencias entre AZ y AGZ incluyen:

  • AZ tiene reglas codificadas para establecer hiperparámetros de búsqueda .
  • La red neuronal ahora se actualiza continuamente.
  • Go (a diferencia del ajedrez) es simétrico bajo ciertos reflejos y rotaciones; AlphaGo Zero fue programado para aprovechar estas simetrías. AlphaZero no lo es.
  • El ajedrez puede terminar en tablas a diferencia del Go; por lo tanto, AlphaZero tiene en cuenta la posibilidad de un juego empatado.

Stockfish y elmo

Al comparar las búsquedas de árboles de Monte Carlo , AlphaZero busca solo 80.000 posiciones por segundo en ajedrez y 40.000 en shogi, en comparación con 70 millones de Stockfish y 35 millones de elmo. AlphaZero compensa el menor número de evaluaciones utilizando su red neuronal profunda para enfocarse de manera mucho más selectiva en la variación más prometedora.

Capacitación

AlphaZero se entrenó únicamente a través del juego automático, utilizando 5,000 TPU de primera generación para generar los juegos y 64 TPU de segunda generación para entrenar las redes neuronales . Paralelamente, el AlphaZero en entrenamiento se comparó periódicamente con su punto de referencia (Stockfish, elmo o AlphaGo Zero) en breves juegos de un segundo por movimiento para determinar qué tan bien estaba progresando el entrenamiento. DeepMind juzgó que el rendimiento de AlphaZero superó el punto de referencia después de aproximadamente cuatro horas de entrenamiento para Stockfish, dos horas para elmo y ocho horas para AlphaGo Zero.

Resultados preliminares

Salir

Ajedrez

En la partida de ajedrez de AlphaZero contra Stockfish 8 ( campeón mundial TCEC 2016 ), cada programa recibió un minuto por movimiento. A Stockfish se le asignaron 64 subprocesos y un tamaño de hash de 1 GB, una configuración que Tord Romstad de Stockfish criticó más tarde como subóptima. AlphaZero fue entrenado en ajedrez durante un total de nueve horas antes del partido. Durante el partido, AlphaZero se ejecutó en una sola máquina con cuatro TPU específicos de la aplicación . En 100 juegos desde la posición inicial normal, AlphaZero ganó 25 juegos como blancas, ganó 3 como negras y empató las 72 restantes. En una serie de doce, 100 juegos (de tiempo o limitaciones de recursos no especificados) contra Stockfish comenzando desde el Las 12 aperturas humanas más populares, AlphaZero ganó 290, empató 886 y perdió 24.

Shogi

AlphaZero fue entrenado en shogi durante un total de dos horas antes del torneo. En 100 juegos de shogi contra elmo (World Computer Shogi Championship 27 versión del torneo de verano de 2017 con búsqueda de YaneuraOu 4.73), AlphaZero ganó 90 veces, perdió 8 veces y empató dos veces. Al igual que en las partidas de ajedrez, cada programa obtuvo un minuto por movimiento, y elmo recibió 64 hilos y un tamaño de hash de 1 GB.

Ir

Después de 34 horas de autoaprendizaje de Go y contra AlphaGo Zero, AlphaZero ganó 60 juegos y perdió 40.

Análisis

DeepMind declaró en su preimpresión: "El juego de ajedrez representó el pináculo de la investigación de la IA durante varias décadas. Los programas de vanguardia se basan en potentes motores que buscan muchos millones de posiciones, aprovechando la experiencia de dominio artesanal y las adaptaciones de dominio sofisticadas. AlphaZero es un algoritmo genérico de aprendizaje por refuerzo , originalmente diseñado para el juego del go, que logró resultados superiores en unas pocas horas, buscando mil veces menos posiciones, sin ningún conocimiento de dominio excepto las reglas ". Demis Hassabis , de DeepMind , un jugador de ajedrez, llamó "alien" al estilo de juego de AlphaZero: a veces gana ofreciendo sacrificios contrarios a la intuición, como ofrecer una reina y un alfil para explotar una ventaja posicional. "Es como ajedrez de otra dimensión".

Dada la dificultad en el ajedrez de forzar una victoria contra un oponente fuerte , el resultado +28 –0 = 72 es un margen significativo de victoria. Sin embargo, algunos grandes maestros, como Hikaru Nakamura y el desarrollador de Komodo Larry Kaufman , restaron importancia a la victoria de AlphaZero, argumentando que el partido habría estado más cerca si los programas hubieran tenido acceso a una base de datos de apertura (ya que Stockfish estaba optimizado para ese escenario). Romstad también señaló que Stockfish no está optimizado para movimientos de tiempo fijo rígidamente y que la versión utilizada tenía un año.

De manera similar, algunos observadores de shogi argumentaron que el tamaño del hash de elmo era demasiado bajo, que la configuración de renuncia y la configuración de "EnteringKingRule" (cf. shogi § Entering King ) pueden haber sido inapropiadas y que elmo ya es obsoleto en comparación con los programas más nuevos.

Reacción y crítica

Los periódicos titulaban que el entrenamiento de ajedrez tomó solo cuatro horas: "Se manejó en poco más que el tiempo entre el desayuno y el almuerzo". Wired promocionó a AlphaZero como "el primer campeón de juegos de mesa de IA con múltiples habilidades". La experta en inteligencia artificial Joanna Bryson señaló que la "habilidad de Google para la buena publicidad" la estaba colocando en una posición sólida frente a los rivales. "No se trata solo de contratar a los mejores programadores. También es muy político, ya que ayuda a que Google sea lo más fuerte posible al negociar con gobiernos y reguladores que miran al sector de la inteligencia artificial".

Los grandes maestros del ajedrez humanos generalmente expresaron su entusiasmo por AlphaZero. El gran maestro danés Peter Heine Nielsen comparó el juego de AlphaZero con el de una especie alienígena superior. El gran maestro noruego Jon Ludvig Hammer caracterizó el juego de AlphaZero como un "ajedrez de ataque loco" con un profundo entendimiento posicional. El ex campeón Garry Kasparov dijo "Es un logro notable, incluso si deberíamos haberlo esperado después de AlphaGo".

El gran maestro Hikaru Nakamura quedó menos impresionado y declaró: "No necesariamente pongo mucha credibilidad en los resultados simplemente porque tengo entendido que AlphaZero está usando básicamente la supercomputadora de Google y Stockfish no se ejecuta en ese hardware; Stockfish básicamente se estaba ejecutando en lo que sería mi computadora portátil. Si quieres tener una coincidencia que sea comparable, también debes tener Stockfish funcionando en una supercomputadora ".

El mejor jugador de ajedrez por correspondencia de EE. UU., Wolff Morrow, tampoco se mostró impresionado, afirmando que AlphaZero probablemente no llegaría a las semifinales de una competencia justa como TCEC, donde todos los motores funcionan con el mismo hardware. Morrow declaró además que, aunque podría no ser capaz de vencer a AlphaZero si AlphaZero jugara aperturas de empate como la Defensa Petroff , AlphaZero tampoco podría vencerlo en una partida de ajedrez por correspondencia .

Motohiro Isozaki, el autor de YaneuraOu, señaló que aunque AlphaZero superó ampliamente a Elmo, la calificación de AlphaZero en shogi dejó de crecer en un punto que es como mucho 100 ~ 200 más alto que elmo. Esta brecha no es tan alta, y elmo y otros programas de shogi deberían poder ponerse al día en uno o dos años.

Resultados finales

DeepMind abordó muchas de las críticas en su versión final del artículo, publicado en diciembre de 2018 en Science . Aclararon además que AlphaZero no se estaba ejecutando en una supercomputadora; se entrenó usando 5,000 unidades de procesamiento de tensor (TPU), pero solo se ejecutó en cuatro TPU y una CPU de 44 núcleos en sus coincidencias.

Ajedrez

En los resultados finales, la versión 8 de Stockfish se ejecutó en las mismas condiciones que en la superfinal TCEC : 44 núcleos de CPU, bases de tablas de finales de Syzygy y un tamaño de hash de 32 GB. En lugar de un control de tiempo fijo de un movimiento por minuto, ambos motores recibieron 3 horas más 15 segundos por movimiento para terminar el juego. En un partido de 1000 juegos, AlphaZero ganó con una puntuación de 155 victorias, 6 derrotas y 839 empates. DeepMind también jugó una serie de juegos usando las posiciones de apertura de TCEC; AlphaZero también ganó de manera convincente. Stockfish necesitaba probabilidades de tiempo de 10 a 1 para igualar AlphaZero.

Shogi

Al igual que Stockfish, Elmo corrió en las mismas condiciones que en el campeonato CSA 2017. La versión de Elmo utilizada fue WCSC27 en combinación con YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo operaba con el mismo hardware que Stockfish: 44 núcleos de CPU y un tamaño de hash de 32 GB. AlphaZero ganó el 98,2% de los juegos jugando con negras (que juega primero en shogi) y el 91,2% en general.

Reacciones y críticas

Los grandes maestros humanos generalmente quedaron impresionados con los juegos de AlphaZero contra Stockfish. El ex campeón mundial Garry Kasparov dijo que era un placer ver jugar a AlphaZero, especialmente porque su estilo era abierto y dinámico como el suyo.

En la comunidad de ajedrez informático, el desarrollador de Komodo Mark Lefler lo calificó como un "logro bastante sorprendente", pero también señaló que los datos eran antiguos, ya que Stockfish había ganado mucha fuerza desde enero de 2018 (cuando se lanzó Stockfish 8). El desarrollador Larry Kaufman dijo que AlphaZero probablemente perdería una partida contra la última versión de Stockfish, Stockfish 10, bajo las condiciones del Top Chess Engine Championship (TCEC). Kaufman argumentó que la única ventaja de los motores basados ​​en redes neuronales era que usaban una GPU, por lo que si no se tenía en cuenta el consumo de energía (por ejemplo, en un concurso de hardware igual en el que ambos motores tenían acceso a la misma CPU y GPU), entonces cualquier cosa la GPU conseguida fue "gratuita". En base a esto, afirmó que el motor más potente probablemente sea un híbrido con redes neuronales y búsqueda estándar alfa-beta .

AlphaZero inspiró a la comunidad de ajedrez informático a desarrollar Leela Chess Zero , utilizando las mismas técnicas que AlphaZero. Leela disputó varios campeonatos contra Stockfish, donde mostró una fuerza aproximadamente similar a Stockfish.

En 2019 DeepMind publicó MuZero , un sistema unificado que jugaba excelente ajedrez, shogi y go, así como juegos en el entorno de aprendizaje Atari , sin estar preprogramado con sus reglas.

Ver también

Notas

Referencias

enlaces externos