Microsoft ha presentado en Wisconsin (EEUU) su nuevo centro de datos de IA Fairwater, que será su fábrica de IA más grande y sofisticada construida hasta la fecha y que forma parte de su nueva ola de data centers que está construyendo en todo el mundo, como los de Noruega o Reino Unido.
Estos centros de datos de IA se conectarán con la nube global de la compañía, compuesta por más de 400 centros de datos en 70 regiones de todo el mundo. Esto le permite multiplicar la eficiencia y la computación exponencialmente para democratizar aún más el acceso a los servicios de IA a nivel mundial.
Fairwater tiene 127 hectáreas de superficie y tres edificios que suman 114.000 m2 bajo techo. Su construcción ha supuesto 75.8 kilómetros de pilotes de cimentación profunda, 11.8 millones de kilos de acero estructural, 193.8 kilómetros de cable subterráneo de media tensión y 117.8 kilómetros de tuberías mecánicas.
El centro de datos está diseñado para funcionar como una gigantesca supercomputadora de IA mediante una única red plana que interconecta cientos de miles de las GPU NVIDIA más recientes. De hecho, ofrecerá un rendimiento diez veces superior al de la supercomputadora más rápida del mundo actual, lo que permitirá cargas de trabajo de entrenamiento e inferencia de IA a un nivel sin precedentes.
Este centro de datos gestiona un único y masivo clúster de servidores NVIDIA GB200 interconectados, millones de núcleos de cómputo y exabytes de almacenamiento, todo diseñado para las cargas de trabajo de IA más exigentes. Los centros de datos de IA de Noruega y el Reino Unido utilizarán clústeres similares y aprovecharán el próximo diseño de chip de IA de NVIDIA (GB300), que ofrece aún más memoria agrupada por rack.
Al distribuirse en un pasillo tradicional de un centro de datos, la distancia física entre los racks introduce latencia en el sistema. Para solucionar esto, los racks del centro de datos de IA de Wisconsin están distribuidos en una configuración de dos plantas, de modo que, además de los racks conectados en red a los racks adyacentes, también están conectados en red a racks adicionales situados por encima o por debajo de ellos. Cada rack funciona como un acelerador gigante, procesando hasta 865.000 tokens por segundo.
La refrigeración por aire tradicional no puede soportar la densidad del hardware de IA moderno. Los centros de datos de la compañía utilizan sistemas avanzados de refrigeración líquida: tuberías integradas hacen circular líquido frío directamente a los servidores, extrayendo el calor de forma eficiente. La recirculación de circuito cerrado garantiza un desperdicio cero de agua, ya que solo es necesario rellenarla una vez y luego se reutiliza continuamente.
Al diseñar centros de datos de IA, la compañía ha integrado infraestructura de refrigeración líquida directamente en las instalaciones para lograr una mayor densidad de racks. Fairwater cuenta con el respaldo de la segunda planta de refrigeración por agua más grande del planeta y mantendrá el agua en circulación continua en su sistema de refrigeración de circuito cerrado. El agua caliente se canaliza a las aletas de refrigeración a cada lado del centro de datos, donde 172 ventiladores de 6 metros enfrían y recirculan el agua de vuelta al centro de datos. Este sistema mantiene el centro de datos de IA funcionando eficientemente, incluso en picos de carga.
Más del 90% de la capacidad del centro de datos utiliza este sistema, que requiere agua solo una vez durante la construcción y la reutiliza continuamente sin pérdidas por evaporación. El 10% restante de los servidores tradicionales utiliza aire exterior para refrigeración, cambiando a agua solo durante los días más calurosos, un diseño que reduce drásticamente el consumo de agua en comparación con los centros de datos tradicionales.
También utiliza refrigeración líquida para soportar cargas de trabajo de IA en muchos de sus centros de datos existentes; esta refrigeración líquida se logra con unidades de intercambio de calor (HXU) que también funcionan con un uso operativo cero de agua.
Los centros de datos modernos pueden contener exabytes de almacenamiento y millones de capacidades de procesamiento de CPU. Para soportar el clúster de infraestructura de IA, se necesita una infraestructura de centro de datos completamente independiente para almacenar y procesar los datos utilizados y generados por el clúster.
Se ha rediseñado el almacenamiento de Azure para las cargas de trabajo de IA más exigentes, en estas implementaciones masivas de centros de datos para lograr una verdadera escalabilidad de supercomputación. Cada cuenta de Azure Blob Storage puede gestionar más de 2 millones de transacciones de lectura/escritura por segundo, y con millones de cuentas disponibles, podemos escalar elásticamente para satisfacer prácticamente cualquier requisito de datos.
Esta capacidad se basa en una base de almacenamiento rediseñada que integra capacidad y ancho de banda en miles de nodos de almacenamiento y cientos de miles de unidades. Esto permite escalar el almacenamiento a escala de exabytes, eliminando la necesidad de fragmentación manual y simplificando las operaciones incluso para las cargas de trabajo de IA y análisis más grandes.
Innovaciones clave como BlobFuse2 ofrecen acceso de alto rendimiento y baja latencia para el entrenamiento local en nodos de GPU, lo que garantiza que los recursos computacionales nunca estén inactivos y que los conjuntos de datos masivos de entrenamiento de IA estén siempre disponibles cuando se necesiten. La compatibilidad con múltiples protocolos permite una integración fluida con diversas canalizaciones de datos, mientras que la integración profunda con motores de análisis y herramientas de IA acelera la preparación y el despliegue de datos.
El escalamiento automático asigna recursos dinámicamente a medida que crece la demanda y, combinado con seguridad avanzada, resiliencia y almacenamiento en niveles rentable, la plataforma de almacenamiento de Azure marca el ritmo para las cargas de trabajo de próxima generación.
Estos nuevos centros de datos de IA forman parte de una red global de centros de datos de IA de Azure, interconectados a través de la Red de Área Amplia (WAN) de la compañía. No se trata solo de un edificio, sino de un sistema distribuido, resiliente y escalable que funciona como una única y potente máquina de IA. Esta WAN de IA está diseñada con capacidades de crecimiento en escalas de ancho de banda nativas de IA para permitir el entrenamiento distribuido a gran escala en múltiples regiones de Azure geográficamente diversas, lo que permite a los clientes aprovechar la potencia de una supercomputadora de IA gigante.
Este es un cambio fundamental en la concepción de la compañía de las supercomputadoras de IA. En lugar de limitarse a una única instalación, se construye un sistema distribuido donde los recursos de computación, almacenamiento y red se agrupan y orquestan de forma fluida en todas las regiones de los centros de datos. Esto se traduce en mayor resiliencia, escalabilidad y flexibilidad para los clientes.
El nuevo centro de datos de Wisconsin desempeñará un papel crucial en el futuro de la IA, basado en tecnología real, inversión real y un impacto real en la comunidad. Al conectar esta instalación con otros centros de datos regionales y armonizar cada capa de nuestra infraestructura como un sistema completo, la compañía impulsa una nueva era de inteligencia basada en la nube, segura, adaptable y preparada para el futuro.
En el Recinto Gran Via de Fira de Barcelona el 1 y 2 de octubre
Las nuevas generaciones priorizan la flexibilidad, el desarrollo profesional y la diversidad.
Comentarios