San José (EEUU)
Publicada

Para neófitos será totalmente desconocido, pero en el mundo del almacenamiento de alto rendimiento, el que requieren los supercomputadores y las grandes ‘factorías de IA’, el sistema de ficheros Lustre, “el único paralelo disponible”, es un clásico. Lo utiliza el 60% de los top100 sistemas HPC. “Lustre ha existido durante mucho tiempo. Y a la gente que lo conoce le gusta”, precisa Peter Jones, CEO de The Lustre Collective (TLC).

Lo peculiar del caso es que TLC no es propietaria ni depositaria de ese sistema, sino una startup con ánimo de lucro presentada en noviembre del pasado año, que aporta sus propias soluciones de pago sobre la base de dicho software de código abierto, en cuya creación y desarrollo participaron de manera relevante los ahora líderes de la nueva compañía. Jones estuvo en ello dos decenios. Y su colega y cofundador, también presente en la presentación ante el IT Press Tour, Andreas Dilger, “estuvo desde el primer día” de Lustre, “unos 25 años”, siendo ‘arquitecto principal’. Ahora tratan de ganar dinero a partir de un producto que ni siquiera es novedoso…

“Sí, The Lustre Collective es poco convencional como startup”, admite Jones. “Tenemos un viejo producto en una compañía nueva. Normalmente, en una startup tienes una idea nueva. Intentas convencer a la gente de que es una buena idea, y quizá la gente sea escéptica. Así que somos poco convencionales en la medida en que Luster ha existido desde hace mucho tiempo. La gente ya sabe que le gusta. Aunque tenemos una complicación añadida: se puede usar gratis...”.

Por añadir contexto. El sistema de ficheros Lustre surgió del entorno del Departamento de Energía en Estados Unidos. Se financió con la intención de romper la situación de monopolio de facto del sistema GPFS de IBM. “Lustre se ganó buena reputación por ser un sistema de archivos muy rápido. Gustaba que fuera de código abierto, aunque quizá no tenía la mejor estabilidad en los primeros días. Pero la gente sabía que, si lo reiniciabas, a la siguiente funcionaba. Era lo bastante bueno para cargas de investigación científica. Y así, las cosas funcionaron durante unos diez años”, rememora Jones.

“Luego empezó a crecer con la IA y el machine learning, especialmente los últimos siete a cinco años. Hemos llegado al punto en que todos los grandes de la nube tienen algún servicio con Lustre. Muchos de los primeros usuarios con grandes marcas disimulan que tienen algún servicio gestionado con Lustre. Y el software no depende de un único vendedor, no es el monopolio de una solución exitosa, porque tiene una permisiva licencia de código abierto…”.

Invertir en código abierto

De ese modo se llega a la respuesta que Jones ofrece a la pregunta de DISRUPTORES de si es que los gigantes de la digitalización, mientras crecen desaforadamente, se van dejando cabos sueltos, útiles para el aprovechamiento de pequeñas aventuras empresariales como TLC, incluso tratándose de software de código abierto:

“Quizás… si se mira Lustre, o cómo encaja su solución y lo que necesitan [determinados usuarios]. Pero no es lo mismo que alejar la vista y ver el panorama general de todo en todo el clúster, todos los usuarios. Cada uno tiene sus propias áreas de interés particular, y tiene sentido para todos. Por eso su inversión en desarrollo [de código abierto], devolverá más de lo que invierten, porque otras personas hacen otras cosas que les son útiles. Hay un núcleo que todos necesitan, hay que estar al día con las distribuciones de Linux más recientes... Pero hay ciertas cosas que necesitan todos los grupos de usuarios y otras que quizá solo Amazon, por ejemplo, necesita”.

Peter Jones en el evento de The Lustre Collective.

“Yo bromeo con que las limitaciones para escalar Lustre son, habitualmente, las cuentas bancarias de quienes lo despliegan, más que el número de servidores y su rendimiento”, indica Andreas Dilger.

La clave de su negocio es que “aunque Lustre fue diseñado y desarrollado originalmente para almacenamiento basado en HDD, y algunos competidores dirán ‘¡oh!, es anticuado’, si tomas la tecnología QLC [para memoria flash NAND] de hoy en día, en realidad estás aprovechando el almacenamiento subyacente de forma óptima. Nosotros probamos con QLC y no tenemos que hacer nivelación de desgaste ni nada. Utilizamos el almacenamiento de forma muy eficiente”.

Esencialmente, lo que Dilger explica es que TLC se ocupa de actualizar el sistema con recursos tecnológicos más modernos: “Lustre se desarrolló cuando [procesadores de] dos núcleos eran lo común. Ahora somos muy eficientes en cuanto al uso de CPU. Muchos de los sistemas de archivos modernos basados en flash están ocupados esperando a recibir paquetes de la red, y eso conecta muchos núcleos en un solo sistema, lo cual es muy ineficiente en términos de potencia y aprovechamiento de esos nodos”.

Tenemos una configuración muy flexible. Podemos usar cualquier tipo de almacenamiento en bloques con discos flash. Incluso la memoria no volátil”, prosigue Dilger.

“Y podemos usar el almacenamiento dentro de los nodos de cómputo como una caché persistente. Así que, para cargas de trabajo como el aprendizaje automático, donde entrenas repetidamente con los mismos datos, podemos almacenar datos en caché en el almacenamiento local”.

“En cuanto al soporte de protocolos, podemos agrupar sus propios clústeres conforme a ellos, aunque estén distribuidos en decenas de miles de nodos. Y podemos reexportar con NFS, S3, Samba…, en configuraciones paralelas. Una de las áreas interesantes que ha surgido recientemente es que trabajamos mucho para agregar todo ese almacenamiento en un solo sistema de archivos coherente, pero ahora los usuarios quieren subdividirlo en entornos virtualizados para multi-tenencia. Así que hemos trabajado para virtualizar el almacenamiento y la gestión, aislando diferentes grupos de usuarios por seguridad o limitación de capacidad”.

Subdividir almacenamiento

Esto último obedece a que proveedores de la nube “compran clusters gigantes con miles de GPUs y pretenden alquilarlas al estilo de la nube. Así que quieren subdividir el almacenamiento agregado en vez de configurar almacenamientos por separado. Crean un sistema de ficheros grande y hacen aislamientos virtuales, con los que pueden separar rendimiento y capacidad para los usuarios. Es mucho más flexible que subdividir el hardware”.

Y es en ese espacio de soluciones personalizadas donde The Lustre Collective encuentra un buen nicho para hacer negocio con su expertise en el sistema. Dilger subraya que pueden operar con múltiples especificaciones y diferentes configuraciones de hardware, como S3 MinIO y S3 Tape, DGX con tarjetas NDME, redes de alta velocidad como Cray y Volt, sistemas centralizados con acceso directo WAN…

Andreas Dilger durante una intervención; a su lado, el CEO de The Lustre Collective, Peter Jones.

“Las funciones más recientes incluyen compresión y codificación de borrado para el almacenamiento, así que la configuración típica hoy en día es redundancia a nivel de servidor de almacenamiento. Pero estamos trabajando en la codificación de borrado para poder tener redundancia a nivel de software”, resume Dilger.

“Nuestra misión principal es centrarnos en Lustre y asegurarnos de que siga siendo relevante”, retoma la palabra Jones. “Los fundadores de la empresa, Andreas, yo y también Colin Faber, todos somos veteranos de Cluster File System, el inicio original del clúster, y de diferentes empresas a lo largo de los años, que se han centrado en Lustre. En mi caso, he gestionado equipos de desarrolladores en varias, desde startups hasta empresas Fortune 500. Y soy el principal punto de contacto con clientes o socios muy grandes con los que trabajamos. Creo que eso me ha dado muy buena idea lo que se necesita en la comunidad de Lustre y quiénes se ocupan de ello y acaban teniendo éxito, o menos éxito”.

Continua Jones, refiriéndose a su colega Dilger y el espíritu del open source: “Él es demasiado modesto para decirlo, pero, además de ser muy respetado por sus conocimientos técnicos, también es muy apreciado por su generosidad con su tiempo. No es raro en la lista de Lustre ver a la gente escribir, ‘hola Andreas’. Ojalá tuviera algún registro de eso, pero hubo un pequeño revuelo cuando los sistemas de archivos de Lustre fueron adquiridos por Sun, y luego Sun por Oracle”.

Independencia para ver la tecnología

En las referencias de Jones a la evolución histórica del sistema de ficheros Lustre, como código abierto y sus vicisitudes con grandes tecnológicas, van surgiendo los nombres de AWS, Intel, ARM, Mellanox (dedicada a HPC IA y adquirida por Nvidia), DataDirect Networks… y, finalmente, la motivación para crear TLC:

“Creemos que, en Lustre, se necesita que alguien sea independiente para mirar la tecnología general, más allá de un portafolio [de una empresa concreta]. Nuestro enfoque no está distorsionado u orientado. Hay mucho desarrollo que se hizo sobre la marcha y así quedó. Y nuestro enfoque será complementarlo. Ayudar en el esfuerzo de revisión de código y analizar las lagunas generales y las lagunas a largo plazo que existirían si no lo hiciéramos”, proclama Jones.

Peter Jones, durante uno de sus parlamentos.

Queremos que los ingresos que obtengamos se reinviertan en innovar Lustre y en los desarrolladores que trabajan en ello. E incorporar gente nueva, no solo para mantener la continuidad en el desarrollo de Lustre, sino también para sacar nuevas ideas, modernizar la pila para que funcione con nuevas tecnologías. Todo eso es importante para nosotros. Y no queremos dividir nuestros esfuerzos entre múltiples tecnologías. Es una de las razones principales por las que se fundó TLC”.

No buscamos apoyo del capital riesgo, ni pensamos en algún tipo de venta, lanzar una IPO o algo así. Queremos que esto tenga continuidad, algo más parecido a una fundación. Ese fue nuestro principio. El nombre TLC fue muy intencionado, con un poco de humor friki, un guiño: darle a Lustre un poco de cariño, con la palabra ‘colectivo’ que es muy específica. Queremos que la gente que reclutamos tenga cierta edad, que crea en la misión de Luster como código abierto. Y lo mismo para la próxima generación”.

“Lo importante es que estamos aquí para aumentar el tamaño del pastel y no para quitarle parte a los demás”, remacha Jones. “Queremos asegurarnos de que Lustre siga siendo la elección de los grandes sistemas, que no vaya desapareciendo poco a poco, porque hay muchas organizaciones, universidades, laboratorios, meteorología, todas esas cosas que no son IA… A veces la gente pierde de vista todas las cosas que existen en el mundo de la informática que no son IA. Y no es que Luster no funcione muy bien en IA también, pero hay otras cosas”.