Titán (superordenador) - Titan (supercomputer)

Titán
Titán, 2013 (49912802521) .jpg
Titán en 2013
Activo Entró en funcionamiento el 29 de octubre de 2012; fuera de servicio el 2 de agosto de 2019
Patrocinadores DOE de EE. UU. Y NOAA (<10%)
Operadores Cray Inc.
Localización Laboratorio Nacional Oak Ridge
Arquitectura 18.688 AMD Opteron 6274 CPUs 16 de núcleo
18.688 Nvidia Tesla K20X GPU
Energía 8,2 MW
Sistema operativo Entorno Cray Linux
Espacio 404 m 2 (4352 pies 2 )
Memoria 693,5  TiB (CPU de 584 TiB y GPU de 109,5 TiB)
Almacenamiento 40  PB , sistema de archivos IO Lustre de 1,4 TB / s
Velocidad 17.59 petaFLOPS ( LINPACK )
27 petaFLOPS pico teórico
Costo US $ 97 millones (equivalente a $ 108 millones en 2019)
Clasificación TOP500 : 4 de junio de 2017
Propósito Investigación científica
Legado Clasificado 1 en TOP500 cuando se construye.
Primera supercomputadora basada en GPU en realizar más de 10 petaFLOPS
Sitio web www .olcf .ornl .gov / titan /

Titan u OLCF-3 era una supercomputadora construida por Cray en el Laboratorio Nacional de Oak Ridge para su uso en una variedad de proyectos científicos. Titan fue una actualización de Jaguar , una supercomputadora anterior en Oak Ridge, que usa unidades de procesamiento de gráficos (GPU) además de unidades de procesamiento central (CPU) convencionales . Titan fue el primer híbrido de este tipo en realizar más de 10  petaFLOPS . La actualización comenzó en octubre de 2011, comenzó las pruebas de estabilidad en octubre de 2012 y estuvo disponible para los investigadores a principios de 2013. El costo inicial de la actualización fue de US $ 60 millones, financiado principalmente por el Departamento de Energía de los Estados Unidos .

Titan fue eclipsado en Oak Ridge por Summit en 2019, que fue construido por IBM y presenta menos nodos con una capacidad de GPU mucho mayor por nodo, así como almacenamiento en caché no volátil local por nodo de datos de archivos del sistema de archivos paralelo del sistema .

Titan empleó CPU AMD Opteron junto con GPU Nvidia Tesla para mejorar la eficiencia energética al tiempo que proporciona un aumento de orden de magnitud en la potencia computacional sobre Jaguar. Usó 18 688 CPU emparejadas con un número igual de GPU para funcionar a un pico teórico de 27 petaFLOPS; en el punto de referencia LINPACK utilizado para clasificar la velocidad de las supercomputadoras, tuvo un rendimiento de 17,59 petaFLOPS. Esto fue suficiente para ocupar el primer lugar en la lista de noviembre de 2012 de la organización TOP500 , pero Tianhe-2 lo superó en la lista de junio de 2013.

Titán estaba disponible para cualquier propósito científico; el acceso depende de la importancia del proyecto y su potencial para explotar la arquitectura híbrida. Todos los programas seleccionados también deben ser ejecutables en otras supercomputadoras para evitar la dependencia exclusiva de Titan. Seis programas de vanguardia fueron los primeros seleccionados. Se ocuparon principalmente de la física a escala molecular o modelos climáticos , mientras que otros 25 estaban en cola detrás de ellos. La inclusión de GPU obligó a los autores a modificar sus programas. Las modificaciones generalmente aumentaron el grado de paralelismo , dado que las GPU ofrecen muchos más subprocesos simultáneos que las CPU . Los cambios a menudo producen un mayor rendimiento incluso en máquinas con solo CPU.

Historia

Los planes para crear una supercomputadora capaz de 20 petaFLOPS en las instalaciones de computación de liderazgo de Oak Ridge (OLCF) en el Laboratorio Nacional de Oak Ridge (ORNL) se remontan a 2005, cuando se construyó Jaguar. Titan será reemplazada por un sistema de aproximadamente 200 petaFLOPS en 2016 como parte del plan de ORNL para operar una máquina a exaescala (1000 petaFLOPS a 1 exaFLOPS) para 2020. El plan inicial para construir un nuevo edificio de 15,000 metros cuadrados (160,000 pies 2 ) para Titán, se descartó a favor de utilizar la infraestructura existente de Jaguar. La arquitectura precisa del sistema no se finalizó hasta 2010, aunque en 2009 se firmó un acuerdo con Nvidia para suministrar las GPU. Titan se anunció por primera vez en la conferencia privada ACM / IEEE Supercomputing Conference (SC10) el 16 de noviembre de 2010, y se anunció públicamente el 11 de octubre de 2011, cuando comenzó la primera fase de la actualización Titan.

Jaguar había recibido varias actualizaciones desde su creación. Comenzó con la plataforma Cray XT3 que produjo 25 teraFLOPS. Para 2008, Jaguar se había expandido con más gabinetes y actualizado a la plataforma XT4 , alcanzando 263 teraFLOPS. En 2009, se actualizó a la plataforma XT5 , alcanzando 1,4 petaFLOPS. Sus actualizaciones finales llevaron a Jaguar a 1,76 petaFLOPS.

Titan fue financiado principalmente por el Departamento de Energía de EE. UU. A través de ORNL. La financiación fue suficiente para comprar las CPU, pero no todas las GPU, por lo que la Administración Nacional Oceánica y Atmosférica acordó financiar los nodos restantes a cambio de tiempo de cómputo. El jefe de informática científica de ORNL, Jeff Nichols, señaló que Titan costó aproximadamente $ 60 millones por adelantado, de los cuales la contribución de la NOAA fue de menos de $ 10 millones, pero las cifras precisas estaban cubiertas por acuerdos de no divulgación. El término completo del contrato con Cray incluyó $ 97 millones, excluyendo posibles actualizaciones.

La conversión de un año comenzó el 9 de octubre de 2011. Entre octubre y diciembre, 96 de los 200 gabinetes de Jaguar, cada uno con 24  blades XT5 (dos CPU de 6 núcleos por nodo, cuatro nodos por blade), se actualizaron a XK7 blade (uno de 16 núcleos CPU por nodo, cuatro nodos por hoja) mientras que el resto de la máquina permaneció en uso. En diciembre, la computación se trasladó a los 96 gabinetes XK7, mientras que los 104 gabinetes restantes se actualizaron a blades XK7. La conexión ESnet externa de ORNL se actualizó de 10  Gbit / sa 100 Gbit / sy la interconexión del sistema (la red a través de la cual las CPU se comunican entre sí) se actualizó. El diseño Seastar utilizado en Jaguar se actualizó a la interconexión Gemini utilizada en Titán, que conecta los nodos en una red de interconexión directa de toro en 3D . Géminis utiliza el control de flujo de agujeros de gusano internamente. La memoria del sistema se duplicó a 584  TiB . 960 de los nodos XK7 (10 gabinetes) fueron equipados con una GPU basada en Fermi ya que las GPU Kepler no estaban disponibles en ese momento; estos 960 nodos se denominaron TitanDev y se utilizaron para probar el código. Esta primera fase de la actualización aumentó el rendimiento máximo de Jaguar a 3.3 petaFLOPS. A partir del 13 de septiembre de 2012, las GPU Nvidia K20X se instalaron en todos los blades informáticos XK7 de Jaguar, incluidos los 960 nodos TitanDev. En octubre, la tarea se completó y la computadora finalmente pasó a llamarse Titán.

En marzo de 2013, Nvidia lanzó GTX Titan , una tarjeta gráfica de consumo que usa el mismo chip de GPU que las GPU K20X en Titan. Titan se sometió a pruebas de aceptación a principios de 2013, pero solo completó el 92% de las pruebas, menos del 95% requerido. Se descubrió que el problema era el exceso de oro en los conectores de borde hembra de las ranuras PCIe de las placas base , lo que provocaba grietas en la soldadura de las placas base. El costo de reparación corrió a cargo de Cray y se repararon entre 12 y 16 gabinetes cada semana. Durante las reparaciones, los usuarios tuvieron acceso a las CPU disponibles. El 11 de marzo, obtuvieron acceso a 8,972 GPU. ORNL anunció el 8 de abril que las reparaciones se completaron y la finalización de la prueba de aceptación se anunció el 11 de junio de 2013.

El hardware de Titan tiene un rendimiento máximo teórico de 27  petaFLOPS con software "perfecto". El 12 de noviembre de 2012, la organización TOP500 que clasifica a las supercomputadoras del mundo según el rendimiento de LINPACK , clasificó a Titan en primer lugar con 17,59 petaFLOPS, desplazando a IBM Sequoia . Titan también ocupó el tercer lugar en el Green500 , las mismas 500 supercomputadoras clasificadas en términos de eficiencia energética. En el ranking TOP500 de junio de 2013, Titan cayó al segundo lugar detrás de Tianhe-2 y al vigésimo noveno en la lista Green500. Titan no volvió a realizar la prueba para el ranking de junio de 2013, porque todavía se habría clasificado en segundo lugar, con 27 petaFLOPS.

Hardware

Titan utiliza los 200 gabinetes de Jaguar, que cubren 404 metros cuadrados (4,352 pies 2 ), con componentes internos reemplazados y redes mejoradas. La reutilización de los sistemas de energía y enfriamiento de Jaguar ahorró aproximadamente $ 20 millones. Se proporciona energía a cada gabinete a 480  V trifásicos . Esto requiere cables más delgados que el estándar estadounidense de 208 V, lo que ahorra $ 1 millón en cobre. En su punto máximo, Titan consume 8,2  MW , 1,2 MW más que Jaguar, pero funciona casi diez veces más rápido en términos de cálculos de punto flotante . En caso de un corte de energía, el almacenamiento de energía del volante de fibra de carbono puede mantener la red y la infraestructura de almacenamiento en funcionamiento hasta por 16 segundos. Después de 2 segundos sin energía, los generadores diésel se encienden y tardan aproximadamente 7 segundos en alcanzar la máxima potencia. Pueden proporcionar energía indefinidamente. Los generadores están diseñados únicamente para mantener alimentados los componentes de red y almacenamiento, de modo que el reinicio sea mucho más rápido; los generadores no son capaces de alimentar la infraestructura de procesamiento.

Titan tiene 18,688 nodos (4 nodos por blade, 24 blades por gabinete), cada uno con una CPU AMD Opteron 6274 de 16 núcleos con 32 GB de memoria DDR3 ECC y una GPU Nvidia Tesla K20X con 6 GB de memoria GDDR5 ECC. Hay un total de 299,008 núcleos de procesador y un total de 693,6 TiB de CPU y GPU RAM.

Inicialmente, Titan usó 10 PB de almacenamiento Lustre de Jaguar con una velocidad de transferencia de 240 GB / s, pero en abril de 2013, el almacenamiento se actualizó a 40 PB con una tasa de transferencia de 1,4 TB / s. Las GPU se seleccionaron por su eficiencia de procesamiento paralelo mucho mayor que las CPU. Aunque las GPU tienen una velocidad de reloj más lenta que las CPU, cada GPU contiene 2.688 núcleos CUDA a 732  MHz , lo que resulta en un sistema general más rápido. En consecuencia, los núcleos de las CPU se utilizan para asignar tareas a las GPU en lugar de procesar directamente los datos como en las supercomputadoras convencionales.

Titan ejecuta Cray Linux Environment , una versión completa de Linux en los nodos de inicio de sesión a los que los usuarios acceden directamente, pero una versión más pequeña y eficiente en los nodos de cómputo.

Los componentes de Titan se enfrían por aire mediante disipadores de calor , pero el aire se enfría antes de ser bombeado a través de los gabinetes. El ruido del ventilador es tan fuerte que se requiere protección auditiva para las personas que pasan más de 15 minutos en la sala de máquinas. El sistema tiene una capacidad de enfriamiento de 23,2 MW (6600 toneladas) y funciona enfriando agua a 5,5 ° C (42 ° F), que a su vez enfría el aire recirculado.

Los investigadores también tienen acceso a EVEREST (Entorno de visualización exploratoria para investigación y tecnología) para comprender mejor los datos que genera Titan. EVEREST es una sala de visualización con una pantalla de 10 por 3 metros (33 por 10 pies) y una pantalla secundaria más pequeña. Las pantallas son de 37 y 33  megapíxeles respectivamente con capacidad 3D estereoscópica .

Proyectos

En 2009, Oak Ridge Leadership Computing Facility que administra Titan redujo las cincuenta aplicaciones para el primer uso de la supercomputadora a seis códigos "vanguardistas" elegidos por la importancia de la investigación y por su capacidad para utilizar completamente el sistema. Los seis proyectos de vanguardia para usar Titan fueron:

  • S3D , un proyecto que modela la física molecular de la combustión, tiene como objetivo mejorar la eficiencia de los motores diésel y biocombustible . En 2009, con Jaguar, produjo la primera simulación completamente resuelta de llamas de hidrocarburos autoinflamables relevantes para la eficiencia de los motores diésel de inyección directa .
  • WL-LSMS simula las interacciones entre electrones y átomos en materiales magnéticos a temperaturas distintas del cero absoluto . Una versión anterior del código fue la primera en funcionar a más de un petaFLOPS en Jaguar.
  • Denovo simula reacciones nucleares con el objetivo de mejorar la eficiencia y reducir el desperdicio de los reactores nucleares . El rendimiento de Denovo en máquinas convencionales basadas en CPU se duplicó después de los ajustes de Titan y funciona 3,5 veces más rápido en Titan que en Jaguar.
  • El simulador masivo paralelo atómico / molecular a gran escala ( LAMMPS ) es un código de dinámica molecular que simula partículas en una gama de escalas, desde cuántica hasta relativista , para mejorar la ciencia de los materiales con aplicaciones potenciales en el desarrollo de semiconductores , biomoléculas y polímeros .
  • CAM-SE es una combinación de dos códigos: Community Atmosphere Model , un modelo de atmósfera global y High Order Method Modeling Environment , un código que resuelve ecuaciones de fluidos y termodinámicas. CAM-SE permitirá una mayor precisión en las simulaciones climáticas.
  • Difusión de radiación sin equilibrio ( NRDF ) traza partículas no cargadas a través de supernovas con aplicaciones potenciales en fusión láser , dinámica de fluidos , imágenes médicas , reactores nucleares, almacenamiento de energía y combustión. Su código Chimera usa cientos de ecuaciones diferenciales parciales para rastrear la energía, el ángulo, el ángulo de dispersión y el tipo de cada neutrino modelado en una estrella que se convierte en supernova , lo que da como resultado millones de ecuaciones individuales. El código recibió el nombre de Quimera en honor a la criatura mitológica porque tiene tres "cabezas": la primera simula la hidrodinámica del material estelar , la segunda simula el transporte de radiación y la tercera simula la combustión nuclear .
  • Bonsai es un código de árbol gravitacional para la simulación de n cuerpos . Se ha utilizado para la nominación al premio Gordon Bell 2014 por simular la Vía Láctea estrella por estrella, con 200 mil millones de estrellas. En esta aplicación, la computadora alcanzó una velocidad sostenida de 24.773 petaFlops.
  • VERA es una simulación de reactor de agua ligera escrita en el Consortium for Advanced Simulation of Light Water Reactors (CASL) en Jaguar. VERA permite a los ingenieros monitorear el rendimiento y el estado de cualquier parte del núcleo de un reactor a lo largo de la vida útil del reactor para identificar puntos de interés. Aunque no es uno de los primeros seis proyectos, se planeó que VERA se ejecutara en Titan después de la optimización con la ayuda de CAAR y las pruebas en TitanDev. El informático Tom Evans descubrió que la adaptación a la arquitectura híbrida de Titán era más difícil que a las anteriores supercomputadoras basadas en CPU. Su objetivo era simular todo el ciclo de combustible de un reactor , un proceso de dieciocho a treinta y seis meses de duración, en una semana en Titán.

En 2013, se planeó ejecutar treinta y un códigos en Titán, generalmente cuatro o cinco a la vez.

Modificaciones de código

El código de muchos proyectos debe modificarse para adaptarse al procesamiento de GPU de Titan, pero se requiere que cada código sea ejecutable en sistemas basados ​​en CPU para que los proyectos no dependan únicamente de Titan. OLCF formó el Centro para la preparación de aplicaciones aceleradas (CAAR) para ayudar con el proceso de adaptación. Lleva a cabo talleres para desarrolladores en la sede de Nvidia para educar a los usuarios sobre la arquitectura, los compiladores y las aplicaciones de Titan. CAAR ha estado trabajando en compiladores con Nvidia y proveedores de código para integrar directivas para GPU en sus lenguajes de programación. De esta forma, los investigadores pueden expresar paralelismo en su código con su lenguaje de programación existente, típicamente Fortran , C o C ++ , y el compilador puede expresarlo a las GPU. El Dr. Bronson Messer, un astrofísico computacional , dijo sobre la tarea: "una aplicación que utilice Titan al máximo también debe encontrar una manera de mantener ocupada la GPU, recordando todo el tiempo que la GPU es rápida, pero menos flexible que la CPU. " Moab Cluster Suite se utiliza para priorizar los trabajos en los nodos para mantener una alta utilización; mejoró la eficiencia de un 70% a aproximadamente un 95% en el software probado. Algunos proyectos encontraron que los cambios aumentaron la eficiencia de su código en máquinas sin GPU; el rendimiento de Denovo se duplicó en máquinas basadas en CPU.

La cantidad de alteración de código necesaria para ejecutarse en las GPU varía según el proyecto. Según el Dr. Messer de NRDF , solo un pequeño porcentaje de su código se ejecuta en GPU porque los cálculos son relativamente simples pero se procesan repetidamente y en paralelo. NRDF está escrito en CUDA Fortran , una versión de Fortran con extensiones CUDA para las GPU. La tercera "cabeza" de Chimera fue la primera en ejecutarse en las GPU, ya que la arquitectura de la GPU podía simular más fácilmente la combustión nuclear. Se planeó modificar con el tiempo otros aspectos del código. En Jaguar, el proyecto modeló 14 o 15 especies nucleares, pero Messer anticipó la simulación de hasta 200 especies, lo que permite una precisión mucho mayor al comparar la simulación con la observación empírica.

Ver también

Referencias

enlaces externos

Escuche este artículo ( 20 minutos )
Icono de Wikipedia hablado
Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 8 de julio de 2016 y no refleja ediciones posteriores.  ( 08/07/2016 )
Registros
Precedido por
IBM Sequoia
16.325 petaflops
La supercomputadora más poderosa del mundo
noviembre de 2012 - junio de 2013
Sucedido por
Tianhe-2
33,9 petaflops