POTENCIA8 - POWER8

POTENCIA8
Información general
Lanzado 2014
Diseñada por IBM
Rendimiento
Max. Frecuencia de reloj de la CPU 2,5 GHz a 5 GHz
Cache
Caché L1 64 + 32 KB por núcleo
Caché L2 512 KB por núcleo
Caché L3 8 MB por chiplet
Caché L4 16 MB por Centauro
Arquitectura y clasificación
Min. tamaño de la característica 22 millas náuticas
Conjunto de instrucciones Power ISA ( Power ISA v.2.07 )
Especificaciones físicas
Núcleos
Historia
Predecesor POTENCIA7
Sucesor PODER9
IBM Power E870 se puede configurar con hasta 80 núcleos POWER8 y 8 TB de RAM.

POWER8 es una familia de microprocesadores superescalares multinúcleo basados ​​en Power ISA , anunciado en agosto de 2013 en la conferencia Hot Chips . Los diseños están disponibles para licencia bajo la OpenPOWER Foundation , que es la primera vez que existe tal disponibilidad de los procesadores de gama más alta de IBM.

Los sistemas basados ​​en POWER8 estuvieron disponibles en IBM en junio de 2014. Los diseños de sistemas y procesadores POWER8 hechos por otros miembros de OpenPOWER estuvieron disponibles a principios de 2015.

Diseño

POWER8 está diseñado para ser un chip de múltiples subprocesos masivos, con cada uno de sus núcleos capaz de manejar ocho subprocesos de hardware simultáneamente, para un total de 96 subprocesos ejecutados simultáneamente en un chip de 12 núcleos. El procesador utiliza grandes cantidades de cachés eDRAM dentro y fuera del chip , y los controladores de memoria en el chip permiten un ancho de banda muy alto para la memoria y la E / S del sistema. Para la mayoría de las cargas de trabajo, se dice que el chip funciona de dos a tres veces más rápido que su predecesor, el POWER7 .

Los chips POWER8 vienen en variantes de 6 o 12 núcleos; cada versión se fabrica en un proceso de silicio sobre aislante (SOI) de 22 nm utilizando 15 capas de metal. La versión de 12 núcleos consta de 4.200 millones de transistores y tiene un tamaño de 650 mm 2, mientras que la versión de 6 núcleos tiene solo 362 mm 2 de tamaño. Sin embargo, las variantes de 6 y 12 núcleos pueden tener todos o solo algunos núcleos activos, por lo que los procesadores POWER8 vienen con 4, 6, 8, 10 o 12 núcleos activados.

CAPI

Donde los procesadores POWER anteriores usan el bus GX ++ para la comunicación externa, POWER8 lo elimina del diseño y lo reemplaza con el puerto CAPI (Coherent Accelerator Processor Interface) que se superpone a PCI Express 3.0 . El puerto CAPI se utiliza para conectar procesadores auxiliares especializados como GPU , ASIC y FPGA . Las unidades conectadas al bus CAPI pueden usar el mismo espacio de direcciones de memoria que la CPU, lo que reduce la longitud de la ruta de cálculo. En la Conferencia de Supercomputación ACM / IEEE 2013 , IBM y Nvidia anunciaron una asociación de ingeniería para acoplar estrechamente POWER8 con las GPU de Nvidia en los futuros sistemas HPC , y el primero de ellos se anunció como Power Systems S824L.

El 14 de octubre de 2016, IBM anunció la formación de OpenCAPI , una nueva organización para difundir la adopción de CAPI a otras plataformas. Los miembros iniciales son Google, AMD, Xilinx, Micron y Mellanox.

OCC

POWER8 también contiene el llamado controlador en chip (OCC), que es un microcontrolador de administración térmica y de energía basado en un procesador PowerPC 405 . Tiene dos motores de descarga de propósito general (GPE) y 512  KB de RAM estática incorporada (SRAM) (1 KB = 1024 bytes), junto con la posibilidad de acceder a la memoria principal directamente, mientras se ejecuta un firmware de código abierto . OCC administra la frecuencia operativa, el voltaje, el ancho de banda de la memoria y el control térmico de POWER8 tanto para el procesador como para la memoria; Puede regular voltajes a través de 1,764 reguladores de voltaje integrados (IVR) sobre la marcha. Además, el OCC se puede programar para overclockear el procesador POWER8, o para reducir su consumo de energía al reducir la frecuencia de operación (que es similar al TDP configurable que se encuentra en algunos de los procesadores Intel y AMD).

Chip de búfer de memoria

POWER8 divide las funciones del controlador de memoria alejando algunas de ellas del procesador y acercándolas a la memoria. La lógica de programación, la gestión de energía de la memoria y el punto de decisión RAS se mueven a un chip de búfer de memoria (también conocido como Centaur ). La descarga de ciertos procesos de memoria al chip Memory Buffer permite optimizar el acceso a la memoria, ahorrar ancho de banda y permitir una comunicación más rápida entre el procesador y la memoria. También contiene estructuras de almacenamiento en caché para 16 MB adicionales  de caché L4 por chip (hasta 128 MB por procesador) (1 MB = 1024 KB). Dependiendo de la arquitectura del sistema, los chips de memoria intermedia se colocan en los módulos de memoria (DIMM / CDIMM personalizados, por ejemplo, en los modelos S824 y E880) o en la tarjeta vertical de memoria que contiene DIMM estándar (por ejemplo, en los modelos S822LC).

El chip Memory Buffer se conecta al procesador mediante un enlace en serie de varios carriles de alta velocidad. El canal de memoria que conecta cada chip de búfer es capaz de escribir 2 bytes y leer 1 byte a la vez. Funciona a 8  GB / s en los primeros modelos Entry, luego aumentó en los modelos de gama alta y HPC a 9,6 GB / s con una latencia de 40 ns, para un ancho de banda sostenido de 24 GB / sy 28,8 GB / s por canal respectivamente. Cada procesador tiene dos controladores de memoria con cuatro canales de memoria cada uno, y el ancho de banda máximo de procesador a búfer de memoria es de 230,4 GB / s por procesador. Dependiendo del modelo, solo se puede habilitar un controlador, o solo se pueden usar dos canales por controlador. Para una mayor disponibilidad, el enlace proporciona aislamiento y reparación de carriles "sobre la marcha".

Cada chip Memory Buffer tiene cuatro interfaces que permiten usar memoria DDR3 o DDR4 a 1600 MHz sin cambios en la interfaz de enlace del procesador. Los 32 canales de memoria resultantes por procesador permiten una tasa de acceso máxima de 409,6 GB / s entre los chips Memory Buffer y los bancos DRAM. Inicialmente, el soporte estaba limitado a módulos DIMM de 16 GB, 32 GB y 64 GB, lo que permitía que el procesador direccionara hasta 1 TB. Posteriormente se anunció la compatibilidad con módulos DIMM de 128 GB y 256 GB, lo que permite hasta 4 TB por procesador.

Especificaciones

El núcleo POWER8 tiene una caché de datos L1 de 64  KB contenida en la unidad de almacenamiento de carga y una caché de instrucciones L1 de 32 KB contenida en la unidad de búsqueda de instrucciones, junto con una caché L2 de 512 KB estrechamente integrada . En un solo ciclo, cada núcleo puede obtener hasta ocho instrucciones, decodificar y enviar hasta ocho instrucciones, emitir y ejecutar hasta diez instrucciones y confirmar hasta ocho instrucciones.

Cada núcleo de POWER8 consta principalmente de las siguientes seis unidades de ejecución :

Cada núcleo tiene dieciséis pipelines de ejecución:

  • Dos tuberías de punto fijo
  • Dos tuberías de almacenamiento de carga
  • Dos tuberías de carga
  • Cuatro tuberías de punto flotante de doble precisión , que también pueden actuar como ocho tuberías de precisión simple
  • Dos canalizaciones vectoriales completamente simétricas con soporte para instrucciones VMX y VSX AltiVec .
  • Una canalización criptográfica ( AES , modo contador de Galois , SHA-2 )
  • Canalización de ejecución de una rama
  • Canalización lógica de registro de una condición
  • Una canalización de coma flotante decimal

Tiene una cola de problemas más grande con 4 × 16 entradas, predictores de rama mejorados y puede manejar el doble de fallos de caché. Cada núcleo tiene un hardware de ocho vías multiproceso y se puede particionar de forma dinámica y automática para tener uno, dos, cuatro o los ocho subprocesos activos. POWER8 también agregó soporte para memoria transaccional de hardware . IBM estima que cada núcleo es 1,6 veces más rápido que el POWER7 en operaciones de un solo subproceso.

Un procesador POWER8 es un diseño de 6 o 12 chips con variantes de 4, 6, 8, 10 o 12 chips activados, en los que un chiplet consta de un núcleo de procesamiento, 512 KB de caché SRAM L2 en un ancho de 64 bytes bus (que es el doble de ancho que en su predecesor) y 8 MB de caché eDRAM L3 por chiplet que se pueden compartir entre todos los chiplets. Por lo tanto, un procesador de seis chips tendría 48 MB de caché eDRAM L3, mientras que un procesador de 12 chips tendría un total de 96 MB de caché eDRAM L3. El chip también puede utilizar hasta 128 MB de caché eDRAM L4 fuera del chip utilizando chips complementarios Centaur. Los controladores de memoria en chip pueden manejar 1 TB de RAM y un ancho de banda de memoria sostenido de 230 GB / s. Los controladores PCI Express integrados pueden manejar 48 GB / s de E / S a otras partes del sistema. Los núcleos están diseñados para funcionar a frecuencias de reloj de entre 2,5 y 5 GHz.

Los chips de seis núcleos se montan en pares en módulos de doble chip (DCM) en los servidores escalables de IBM . En la mayoría de las configuraciones, no todos los núcleos están activos, lo que da como resultado una variedad de configuraciones en las que el recuento real de núcleos es diferente. La versión de 12 núcleos se utiliza en los modelos E880 y E880C de gama alta.

El módulo POWER8 de un solo chip de IBM se llama Turismo y la variante de doble chip se llama Murano. La versión modificada de PowerCore se llama CP1.

POWER8 con NVLink

Esta es una versión revisada del POWER8 original de 12 núcleos de IBM, y solía llamarse POWER8 + . La principal característica nueva es que tiene soporte para la tecnología de bus NVLink de Nvidia , que conecta hasta cuatro dispositivos NVLink directamente al chip. IBM eliminó las interfaces A Bus y PCI para conexiones SMP a otros sockets POWER8 y las reemplazó con interfaces NVLink. La conexión a un segundo zócalo de CPU ahora se proporciona a través del X Bus . Además de eso y un ligero aumento de tamaño a 659 mm 2 , las diferencias parecen mínimas en comparación con los procesadores POWER8 anteriores.

Licenciatarios

El 19 de enero de 2014, Suzhou PowerCore Technology Company anunció que se unirá a OpenPOWER Foundation y otorgará la licencia del núcleo POWER8 para diseñar procesadores personalizados para su uso en aplicaciones de big data y computación en la nube .

Variantes

  • IBM Murano  : un procesador de 12 núcleos con dos chips de seis núcleos. El procesador escalable está disponible en configuraciones con núcleos deshabilitados.
  • IBM Turismo  : un procesador de 12 núcleos de un solo chip. El procesador escalable está disponible comercialmente para licenciamiento y compra en configuraciones con núcleos deshabilitados.
  • PowerCore CP1  : una variante de POWER8 con características de seguridad revisadas debido a las restricciones de exportación entre Estados Unidos y China que se fabricará en la fábrica de GlobalFoundries (anteriormente la planta de IBM) en East Fishkill, Nueva York . Lanzado en 2015.

Sistemas

Vista trasera de un E870, en el que la unidad de control del sistema está en la parte superior y el nodo del sistema está en el medio.
IBM
Servidores escalables, que admiten uno o dos sockets, cada uno con un módulo de doble chip con dos procesadores POWER8 de seis núcleos. Vienen en factores de forma de 2U o 4U y una configuración de torre. Las versiones "L" ejecutan solo Linux , mientras que las otras ejecutan AIX , IBM iy Linux. Las versiones "LC" son construidas por socios de OpenPOWER.
  • Power Systems S812L  - 1 × POWER8 DCM (4, 6 u 8 núcleos), 2U
  • Power Systems S814  - 1 × POWER8 DCM (6 u 8 núcleos), 4U o torre
  • Power Systems S822 y S822L  - 1 × o 2 × POWER8 DCM (6, 10, 12 o 20 núcleos), 2U
  • Power Systems S824 y S824L  - 1 × o 2 × POWER8 DCM (6, 8, 12, 16 o 24 núcleos), 4U
  • Power Systems S821LC "Stratton"  - 2 × POWER8 SCM (8 o 10 núcleos), 1U. Hasta 512 GB de RAM DDR4 con búfer de cuatro chips Centaur L4. Fabricado por Supermicro .
  • Power Systems S822LC para Big Data "Briggs"  - 2 × POWER8 SCM (8 o 10 núcleos), 2U. Hasta 512 GB de RAM DDR4 con búfer de cuatro chips Centaur L4. Fabricado por Supermicro.
Servidores empresariales , que admiten nodos con cuatro sockets, cada uno con módulos de 8, 10 o 12 núcleos, para un máximo de 16 sockets, 128 núcleos y 16 TB de RAM. Estas máquinas pueden ejecutar AIX , IBM i o Linux .
  • Power Systems E850  - 2 ×, 3 × o 4 × POWER8 DCM (8, 10 o 12 núcleos), 4U
  • Power Systems E870  - 1 × o 2 × nodos 5U, cada uno con cuatro zócalos con módulos de un solo chip POWER8 de 8 o 10 núcleos, para un total de 80 núcleos
  • Power Systems E880  - 1x, 2x, 3x o 4x nodos 5U, cada uno con cuatro zócalos con módulos de un solo chip POWER8 de 8 o 12 núcleos para un total de 192 núcleos
Computación de alto rendimiento :
  • Power Systems S812LC  - 1 × POWER8 SCM (8 o 10 núcleos), 2U. Fabricado por Tyan.
  • Power Systems S822LC "Firestone"  - 2 × POWER8 SCM (8 o 10 núcleos), 2U. Dos GPU Nvidia Tesla K80 y hasta 1 TB de RAM DDR3 básica. Fabricado por Wistron .
  • Power Systems S822LC para HPC "Minsky"  - 2 × POWER8 + SCM (8 o 10 núcleos), 2U. Hasta cuatro GPU Nvidia Tesla P100 con NVLinked y hasta 1 TB de RAM DDR4 básica. Fabricado por Wistron .
Consola de administración de hardware
  • 7063-CR1 HMC  - 1 × POWER8 SCM (6 núcleos), 1U. Basado en el diseño SuperMicro "Stratton".
Tyan
  • Una placa base ATX con un zócalo POWER8 de un solo chip llamado SP010GM2NR.
  • Palmetto GN70-BP010 , sistema de referencia OpenPower. Servidor de 2U, con un POWER8 SCM de cuatro núcleos, cuatro zócalos de RAM, basado en una placa base de Tyan.
  • Habanero TN-71-BP012 . 2U, con un POWER8 SCM de 8 núcleos, 32 zócalos de RAM
  • GT75-BP012 . 1U, con un único POWER8 SCM de 8 o 10 núcleos y 32 zócalos para módulos RAM
Google
Google ha mostrado una placa base con dos enchufes, diseñada solo para uso interno.
StackVelocity
StackVelocity ha diseñado una plataforma de referencia de alto rendimiento, Saba.
Inspur
Inspur ha llegado a un acuerdo con IBM para desarrollar hardware de servidor basado en POWER8 y tecnologías relacionadas.
  • Servidor 4U, dos sockets POWER8.
Cirrascale
RM4950  - 4U, 4-core POWER8 SCM con cuatro aceleradores Nvidia Tesla K40. Basado en la placa base de Tyan.
Zoom Netcom
RedPOWER C210 y C220  - Servidores de 2U y 4U con dos sockets POWER8 y 64 sockets para módulos RAM.
RedPOWER C310 y C320  - Servidores 2U y 4U con dos sockets CP1.
ChuangHe
OP-1X  - 1U, socket único, 32 ranuras RAM.
Rackspace
Barreleye  - 1U, 2 zócalos, 32 ranuras RAM. Basado en la plataforma Open Compute Project para usar en su servicio OnMetal.
Sistemas informáticos Raptor / Ingeniería Raptor
Talos I  : servidor o estación de trabajo 4U inédito, 1 socket, 8 ranuras de RAM.
Computación pingüino
Serie de productos Magna
  • Magna 2001 (desarrollo de software)
  • Magna 1015 (virtualización)
  • Magna 2002 y Magna 2002S (aprendizaje automático)

Ver también

Referencias

enlaces externos