Google Cloud presenta el mayor centro de Machine Learning del mundo

Este clúster de pods de Cloud TPU v4, dedicado al aprendizaje automático, hará posible que los investigadores y desarrolladores hagan avances revolucionarios en IA

Las avanzadas capacidades que tienen los productos de Google como el Buscador o YouTube son posibles gracias a las unidades de procesamiento de tensor (TPU), nuestros aceleradores del aprendizaje automático (ML). Estos aceleradores están a disposición de los clientes de Google Cloud en forma de TPU de Cloud. Y el caso es que la demanda de capacidad, rendimiento y escala del aprendizaje automático está creciendo a un ritmo extraordinario. Google Cloud ha anunciado durante Google I/O 2022 la vista preliminar del clúster de aprendizaje automático de Google Cloud con pods de Cloud TPU v4: uno de los centros de infraestructura de ML más rápidos, eficientes y sostenibles del mundo, que ayudará a desarrollar la próxima hornada de avances fundamentales en inteligencia artificial (IA).

Este clúster de pods de Cloud TPU v4, dedicado al aprendizaje automático, hará posible que los investigadores y desarrolladores hagan avances revolucionarios en IA, ya que les permitirá entrenar modelos con un grado creciente de sofisticación y gestionar cargas de trabajo como las que exige el procesamiento del lenguaje natural (NLP) a gran escala, los sistemas de recomendación o los algoritmos de visión artificial. Con una capacidad punta agregada de 9 exaflops, creemos que nuestro clúster de pods de Cloud TPU v4 es el mayor centro de ML de acceso público del mundo en términos de potencia de cálculo acumulada. El 90% de su consumo se cubre con energías sin huella de carbono. 

«Una encuesta reciente entre 2000 líderes del sector de TI nos reveló que, con frecuencia, la causa raíz del fracaso de los proyectos de IA son unas capacidades de infraestructura inadecuadas. Google ha puesto en marcha un nuevo clúster de aprendizaje automático en Oklahoma, con una potencia agregada de 9 exaflops, precisamente en respuesta a esta necesidad creciente de infraestructuras específicas de IA a disposición de las empresas. Creemos que se trata del mayor centro mundial de ML de acceso público y, según parece, el 90% de su consumo se cubrirá con energías libres de carbono. Sin duda, demuestra el compromiso continuado de Google con la innovación en infraestructuras de IA, sin perder de vista la sostenibilidad». – Matt Eastwood, Vicepresidente Senior, IDC

Más allá los límites de lo posible

Desde que anunciamos Cloud TPU v4 en el Google I/O 2021, hemos dado acceso a los pods de Cloud TPU v4 a varios equipos de primera línea en investigación sobre IA, como son los de Cohere, LG AI Research, Meta AI y Salesforce Research. Los investigadores se han mostrado satisfechos con las prestaciones y la escalabilidad que les ofrece TPU v4, con su rápida interconexión y su pila de software optimizada. También les ha gustado la posibilidad de configurar su propio entorno de desarrollo interactivo con nuestra nueva arquitectura de máquinas virtuales TPU y la flexibilidad para utilizar marcos de su elección, como JAX, PyTorch o TensorFlow. Con estas características, los investigadores pueden elevar la IA a una nueva dimensión, y entrenar modelos de aprendizaje automático de última generación a gran escala, con una excelente relación precio-prestaciones y una buena eficiencia de emisiones de carbono.

«…al pasar de TPU v3 a TPU v4, hemos observado una mejora del 70% en los tiempos de entrenamiento de nuestro modelo ‘extremadamente grande’; eso agiliza el proceso de iteración para nuestros investigadores y ofrece resultados de mayor calidad a nuestros clientes. Otro factor nada desdeñable para nosotros es la huella de carbono excepcionalmente baja de los pods de Cloud TPU v4…» Aidan Gómez, CEO y cofundador de Cohere

«…LG EXAONE está equipada con capacidades multimodales y la hemos entrenado con TPU v4 y con una ingente cantidad de datos —un corpus textual de más de 600.000 millones de tokens y más de 250 millones de imágenes—, con el objetivo de superar a los expertos humanos en términos de comunicación, productividad, creatividad y muchas otras categorías. Aparte de que el rendimiento de TPU v4 es superior al de otras arquitecturas de computación punteras, el soporte orientado al cliente superó de largo nuestras expectativas». Dr. Kyunghoon Bae, Director de LG AI Research

«Hemos empezado a probar TPU v4 con el objetivo de acelerar el entrenamiento y dar cabida a modelos más amplios e innovadores. Esperamos que los sistemas basados en PyTorch, XLA y TPU v4 nos permitan ampliar las fronteras de la investigación en visión artificial».– Ronghang Hu, investigador científico, Meta AI

«El acceso temprano a TPU v4 nos ha ayudado a hacer avances en la programación conversacional de IA, en el contexto de nuestro proyecto CodeGen, un modelo de lenguaje autorregresivo con 16.000 millones de parámetros, que convierte indicaciones sencillas en inglés en código ejecutable. TPU v4 es una plataforma fantástica para este tipo de entrenamiento de ML a gran escala, y ofrece prestaciones significativamente superiores a las de otras alternativas comparables de hardware para IA.» Erik Nijkamp, investigador científico, Salesforce Research

Adicionalmente, TPU v4 ha propiciado avances en las actividades de investigación de Google en campos como la comprensión del lenguaje, la visión artificial, el reconocimiento del habla y muchos otros, entre ellos el  modelo de lenguaje Pathways (PaLM) —recientemente anunciado—, que se ha entrenado utilizando dos pods de TPU v4.

«Hace unos años pusimos en marcha el programa TPU Research Cloud (TRC) con la idea de hacer más accesible el hardware avanzado de IA. A día de hoy, este programa ha dado acceso sin coste a las TPU a miles de entusiastas del ML de todo el mundo. Como resultado, se han publicado centenares de artículos y bibliotecas de código abierto en la plataforma Github sobre temáticas tan variadas como ‘Escribir poesía persa con IA’ o ‘Discriminar entre el sueño y la fatiga inducida por el ejercicio mediante visión por ordenador y genética del comportamiento'». El lanzamiento de Cloud TPU v4 es un hito importante tanto para Google Research como para nuestro programa TRC. Estamos muy ilusionados con nuestra colaboración a largo plazo con desarrolladores de ML de todo el mundo, para dar el mejor uso a la IA». – Jeff Dean, SVP, Google Research and AI

Avances en aprendizaje automático y sostenibilidad

El clúster de ML de Google Cloud es todavía más notable si pensamos que toda esta actividad investigadora se alimenta con energía esencialmente libre de carbono. Desde 2017 y dentro del compromiso con la sostenibilidad de Google, hemos compensado el 100% del consumo anual de energía de nuestros centros de datos y regiones de la nube con compras de energías renovables. Nuestro objetivo es que, para 2030, todas nuestras actividades consuman exclusivamente energía libre de carbono durante todas las horas del día y de la noche. El centro de datos de Google en Oklahoma, en donde se encuentra el clúster de ML, está a punto de alcanzar este objetivo, ya que actualmente opera con un 90% de energía libre de carbono cada hora, dentro de la misma red.

Además del suministro directo de energía limpia, el centro de datos tiene una calificación de eficiencia energética (PUE) de 1,10, lo que lo convierte en uno de los centros de datos con mejor calificación en esta categoría en todo el mundo. El propio chip TPU v4 tiene también una alta eficiencia energética, con una potencia en torno al triple de FLOPS por vatio de consumo máximo, en comparación con el TPU v3. En definitiva, Cloud TPU v4 aporta tres buenas prácticas esenciales  que pueden ayudar a reducir significativamente el consumo de energía y las emisiones de carbono: equipos específicos de ML con alta eficiencia energética, un centro de datos altamente eficiente de por sí y un suministro de energía excepcionalmente limpia.

Extraordinario por su escala y por su relación precio-prestaciones

Aparte de la sostenibilidad, en nuestro trabajo con equipos de ML de primera magnitud hemos observado otros dos aspectos muy interesantes: la escala y la relación precio-prestaciones. Nuestro clúster de ML de Oklahoma ofrece la capacidad que los investigadores necesitan para entrenar sus modelos, con una relación precio-prestaciones muy atractiva, utilizando la nube más limpia del sector. Cloud TPU v4 ha sido fundamental en todo ello.

  • Escala: Cada pod de Cloud TPU v4 consta de 4096 chips conectados entre sí a través de una red de interconexión ultrarrápida, con el equivalente a un ancho de banda por host de 6 terabits por segundo (Tbps). Imprescindible para entrenar los modelos más grandes.
  • Precio-prestaciones: Cada chip de CloudTPU v4 puede alcanzar picos de FLOPS en torno a 2,2 veces más altos que Cloud TPU v3, lo que supone cerca de 1,4 veces más FLOPS pico por dólar. Cloud TPU v4 también consigue una utilización excepcionalmente alta de esos FLOPS durante el entrenamiento de modelos ML a gran escala empleando miles de chips. Aunque se suelen utilizar las FLOPS máximas como base para comparar sistemas entre sí, en realidad lo que determina la eficiencia a efectos de entrenamiento de modelos son las FLOPS sostenidas a gran escala. En ese sentido, la alta utilización de FLOPS de Cloud TPU v4 (significativamente superior a la de otros sistemas debido al elevado ancho de banda de la red y a las optimizaciones del compilador) ayuda a reducir los tiempos de entrenamiento y mejora la eficacia de costes.
Característica de los chipsCloud TPU v3Cloud TPU v4
Pico de cálculo por chip123 teraflops (bf16)275 teraflops (bf16 o int8)
Capacidad y ancho de banda HBM232 GiB, 900 GB/s32 GiB, 1200 GB/s
Potencia mínima/media/máxima medida123/220/262 W90/170/192 W
Tamaño de los pods de TPU1024 chips4096 chips
Topología de interconexióntoroidal 2Dtoroidal 3D
Pico de computación por pod126 petaflops (bf16)1,1 exaflops (bf16 o int8)
Ancho de banda reducido por pod340 TB/s1,1 PB/s
Ancho de banda de bisección por pod6,4 TB/s24 TB/s

Tabla 1: Los pods de Cloud TPU v4 ofrecen prestaciones superiores, gracias a los avances significativos en FLOPS, interconexión y eficiencia energética

Las porciones de pods de Cloud TPU v4 se encuentran disponibles en configuraciones que van desde cuatro chips (una máquina virtual TPU) hasta miles de chips. Las porciones de TPU de la generación anterior inferiores a un pod completo carecían de enlaces toroidales («conexiones envolventes»). En los pods de Cloud TPU v4, todas las porciones de al menos 64 chips tienen enlaces toroidales en las tres dimensiones, lo que proporciona un mayor ancho de banda para las operaciones de comunicación colectiva.

Cloud TPU v4 también permite acceder a 32 GiB de memoria desde un único dispositivo, en comparación con los 16 GiB de TPU v3, y ofrece una aceleración de la incrustación el doble de rápida. Todo ello contribuye a mejorar el rendimiento a la hora de entrenar modelos de recomendación a gran escala.


Deja un comentario

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

TE PUEDE GUSTAR

RECIBE LA NEWSLETTER

*Email: *Nombre apellidos: *Empresa: Cargo: Sector:

 
Please don't insert text in the box below!

ARTÍCULOS MÁS RECIENTES

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Ir arriba