Para ponerlo en contexto y hacer un comparativo, esta infraestructura puede entrenar modelos con más de un billón de parámetros en conjuntos de datos tan grandes como un exabyte, el equivalente a 36.000 años de video de alta calidad.
Este súper equipo aún está en construcción, estará listo para mediados de 2022. Pero, “nuestros investigadores ya comenzaron a usar RSC para entrenar modelos grandes en procesamiento de lenguaje natural (NLP) y visión artificial para investigación, con el objetivo de entrenar modelos algún día con billones de parámetros”, precisaron.
George Niznik, Sourcing manager de Meta, explicó que la RSC se diseñó y ejecutó a distancia y bajo plazos muy reducidos de tiempo. “La pandemia y una importante escasez de suministro de chips en la industria llegaron precisamente en el momento equivocado. Tuvimos que usar plenamente todas nuestras habilidades y experiencias colectivas para resolver estas difíciles limitaciones.
Fundamentalmente, hemos aprovechado lo mejor que todos tenían para ofrecer en personas, tecnología y asociaciones para ofrecer e iluminar lo último en computación de alto rendimiento”.
¿Qué más puede hacer?
RSC ayudará a los investigadores en IA de Meta a construir mejores modelos de IA que puedan aprender de trillones de ejemplos; trabajar en cientos de idiomas, analizar textos eficientemente; imágenes, texto y videos al mismo tiempo; desarrollar nuevas herramientas de realidad aumentada y más. El trabajo hecho con RSC facilitará la construcción de tecnologías para la próxima gran plataforma computacional: el metaverso, donde aplicaciones y productos impulsados por IA jugarán un rol importante.
Es un tema a gran escala que buscará aprovechar los beneficios de la IA avanzada, “dominios como visión, habla y lenguaje, requerirán capacitación en modelos cada vez más grandes y complejos, especialmente para su uso en casos críticos como identificar contenido dañino. A inicios de 2020 decidimos que la mejor forma de acelerar el progreso era diseñar nueva infraestructura computacional”.
A medida que RSC se mueve hacia su siguiente fase, planeamos que crezca más grande y más potente conforme sentamos las bases para el metaverso. Kevin Lee, Technical Program Manager de Meta confirma que con esta fase uno ya son una de las supercomputadoras más grande y de mayor rendimiento que existe. “Para julio, planeamos triplicar la capacidad de este centro de datos y tener hasta 16.000 GPU (unidades de procesamiento gráfico)”. El sistema de almacenamiento tendrá un ancho de banda de entrega objetivo de 16 TB/s y una capacidad de escala de exabytes para satisfacer la mayor demanda.
Si bien la comunidad informática de alto rendimiento ha estado abordando la escala durante décadas, también se aseguraron de contar con todos los controles de seguridad y privacidad necesarios para proteger los datos. “A diferencia de nuestra infraestructura de investigación de IA anterior, que aprovechaba solo el código abierto y otros conjuntos de datos disponibles públicamente, RSC también nos ayuda a garantizar que nuestra investigación se traduzca de manera efectiva en la práctica al permitirnos incluir ejemplos del mundo real de los sistemas de producción de Meta en el entrenamiento de modelos”.
En otras palabras la idea es avanzar en la investigación para identificar contenido dañino en sus plataformas, así como investigar la IA incorporada y la IA multimodal para ayudar a mejorar las experiencias de los usuarios en las aplicaciones. “Creemos que esta es la primera vez que se abordan el rendimiento, la confiabilidad, la seguridad y la privacidad a tal escala”, concluyeron.
¿Si es la mejor?Para Sergio Gutiérrez, profesor investigador de la Facultad de Ingenierías de la Universidad Autónoma Latinoamericana, este supercomputador de Meta está equipado con un hardware computacional muy poderoso (particularmente las 6000 GPU), “las GPU le dan mucha potencia de computo a cualquier computador en general, esto es hablar de una capacidad de procesamiento muy alta, sin embargo la velocidad de un supercomputador se evalúa en términos de una unidad llamada Flop, que significa Operación de punto flotante, operaciones aritméticas que hace el procesador”. A Gutiérrez le hace falta el dato preciso de cantidades de cores de procesamiento y capacidad medida en Flops por segundo para poder concluir que sea el más rápido del mundo (ver Radiografía)