Entrevistas
Ken Claffey, CEO de VDURA – Serie de entrevistas: Una conversación de retorno

Ken Claffey, CEO y Presidente de VDURA, es un líder de negocios y productos centrado en el cliente con una profunda experiencia en infraestructura de empresa y en la nube, desarrollo de hardware y software, y conducción de crecimiento estratégico en funciones de producto, operaciones y mercadeo. A lo largo de su carrera, ha construido y liderado equipos de alto rendimiento a nivel global, ha ejecutado la estrategia corporativa, ha impulsado el crecimiento de ingresos rentables y la innovación de productos, y ha dado la vuelta a negocios que no rendían. Antes de asumir el cargo en VDURA, Claffey ocupó puestos de liderazgo senior en Seagate Technology, donde se desempeñó como SVP y Gerente General supervisando los sistemas de empresa y P&L, y ocupó puestos de liderazgo anteriores en Xyratex, Adaptec y Eurologic, lo que le brindó décadas de experiencia en almacenamiento de empresa y computación de alto rendimiento.
VDURA es una empresa de infraestructura de datos definida por software que construye soluciones de almacenamiento modernas optimizadas para cargas de trabajo de inteligencia artificial y computación de alto rendimiento bajo el lema “velocidad encuentra durabilidad”. La plataforma de datos VDURA combina el rendimiento del sistema de archivos paralelo de flash con la resistencia del almacenamiento de objetos en una arquitectura unificada que se escala linealmente a través de miles de clientes y nodos, simplificando las operaciones y reduciendo el costo total de propiedad. Originalmente fundada como Panasas y rebautizada en 2024, la plataforma de VDURA admite entornos locales, en la nube y híbridos con automatización avanzada, aceleración de metadatos y rendimiento escalable diseñado para mantener alimentados a los clusters de GPU y proteger los datos para casos de uso de inteligencia artificial y computación de alto rendimiento de empresa, investigación y misión crítica.
¿Cómo ha moldeado su viaje a través de HPC y almacenamiento de empresa su visión de que el almacenamiento se está convirtiendo en la restricción definitoria en la infraestructura de inteligencia artificial?
Al haber construido sistemas de almacenamiento para algunos de los entornos de cómputo más exigentes del mundo, desarrollas una intuición sobre dónde viven los cuellos de botella en realidad, en lugar de dónde la gente asume que viven. En Xyratex y a través del trabajo de ClusterStor en Seagate, estábamos resolviendo problemas de almacenamiento para supercomputadoras donde la física era implacable. O alimentabas el cómputo o no.
Lo que veo ahora en la infraestructura de inteligencia artificial es la misma restricción fundamental, solo vestida con diferentes economías. La obsesión por las GPU en el mercado Neocloud era comprensible. NVIDIA creó un recurso escaso y transformador. Pero la suposición de que el almacenamiento simplemente se escalaría junto con él, de manera barata y fácil, siempre iba a fallar. Ha fallado. El almacenamiento ahora tiende hacia el 20 al 30 por ciento de los presupuestos de infraestructura de inteligencia artificial en implementaciones de todo flash, creciendo más rápido que cualquier otro componente. Cuando has pasado una carrera viendo cómo el almacenamiento se convierte en la restricción vinculante en cada entorno de cómputo a gran escala, dejas de sorprenderte cuando el resto del mercado se da cuenta de esa realidad.
¿Por qué se despriorizó la planificación del almacenamiento durante la toma de infraestructura de Neocloud?
Unas cuantas suposiciones estructurales convergieron en el momento exacto. Primero, los precios del flash eran temporalmente favorables. Los SSD NVMe eran asequibles y abundantes, por lo que ir a todo flash parecía una opción razonable por defecto. No era sabiduría arquitectónica. Era un producto de una ventana económica breve que los operadores confundieron con una condición permanente.
En segundo lugar, la dinámica competitiva recompensaba las cuentas de GPU por encima de todo lo demás. El mercado Neocloud se estaba evaluando según la cantidad de chips NVIDIA que podías montar. El almacenamiento era aproximadamente un artículo de 10 por ciento, fácil de aprobar sin un escrutinio profundo. Tercero, la decisión de todo flash parecía segura porque eliminaba la complejidad. Un nivel, un tipo de medio, simple de adquirir y operar. El problema es que “simple” y “sostenible económicamente” dejaron de ser lo mismo en el momento en que la oferta de NAND se redujo y los precios aumentaron. Para entonces, las decisiones de infraestructura ya estaban bloqueadas.
¿Qué sorprende más a los operadores cuando ven cómo el almacenamiento afecta la utilización de sus GPU?
La relación es más directa de lo que la mayoría de los operadores se dan cuenta hasta que están mirando GPUs inactivas. Las ejecuciones de entrenamiento con puntos de control frecuentes crean demandas de escritura en ráfagas que pueden detener el cómputo si la capa de almacenamiento no puede absorberlas lo suficientemente rápido. Las tuberías de datos para el preprocesamiento y la ingesta crean requisitos de rendimiento de lectura sostenida que, si no se cumplen, privan a las GPU de trabajo.
La propia guía de DGX de NVIDIA cuantifica esto: el entrenamiento de LLM basado en texto requiere aproximadamente 0,5 GB/s de rendimiento de lectura por GPU, mientras que las cargas de trabajo de inteligencia artificial física y visualización requieren aproximadamente 4 GB/s de lecturas y 2 GB/s de escrituras por GPU. Si tu arquitectura de almacenamiento no puede entregar eso, no estás ejecutando tus GPU a capacidad. Estás ejecutándolas a la fracción que tu almacenamiento permite.
La arquitectura es enormemente importante a escala de clúster. Un sistema de almacenamiento que interponga un intermediario entre el disco y el cliente puede mostrar un rendimiento de titular comparable en un solo disco, pero a escala puedes terminar necesitando tres veces más discos para saturar el mismo grupo de GPU. Tres veces más SSD, tres veces más energía, tres veces más espacio en el rack. La matemática de utilización se compone rápidamente.
¿Qué diferenciales de costo pueden surgir puramente de la selección de SSD y el diseño arquitectónico, incluso cuando las métricas de rendimiento de titular parecen similares?
Este es el lugar donde los operadores se meten en problemas serios, porque los números de titular pueden ser genuinamente engañosos. Toma un ejemplo representativo. Un SSD NVMe QLC de 122,88 TB cuesta aproximadamente $27,000. Un disco de 7,68 TB de la misma generación ofrece un rendimiento de secuencia comparable por alrededor de $1,800. Para un clúster de 4,096 GPU en la especificación mejorada de NVIDIA, esa sola decisión de selección de capacidad produce una factura de flash que oscila entre $600,000 y $9,6 millones. El rendimiento es efectivamente idéntico. La única variable es cuánta datos fríos estás eligiendo para estacionar en un medio premium que no ofrece ningún beneficio de rendimiento adicional.
Además, el diseño arquitectónico determina la cantidad de discos a escala de clúster. Una arquitectura que ofrece aproximadamente 5,8 GB/s de rendimiento de lectura medido por SSD necesita alrededor de 353 discos para saturar un clúster de 4,096 GPU. Una arquitectura que ofrece aproximadamente 1,9 GB/s por SSD, debido a la sobrecarga del intermediario, necesita más de 1,000. A $12,000 por disco de 30 TB, esa diferencia no es un error de redondeo, es una pregunta de modelo de negocio.
¿Cómo deben replantear los operadores todo flash versus almacenamiento en niveles a medida que aumentan los precios del flash y la oferta de NAND sigue restringida?
El punto de partida es aceptar que el supuesto económico detrás de la infraestructura de inteligencia artificial de todo flash siempre fue contingente, no fundamental. El CEO de Phison ha descrito la capacidad de producción de NAND como efectivamente asignada hasta 2026. Goldman Sachs proyecta que los precios de DRAM aumentarán en dos dígitos trimestre a trimestre durante el mismo período. El supuesto de todo flash tenía sentido cuando el flash era barato y abundante. Ya no lo es.
El marco correcto es preguntar para qué es realmente el flash. El flash es un medio de rendimiento. Debe dimensionarse para saturar los requisitos de rendimiento de las GPU, nada más. Todo lo demás, incluidos los datos fríos, los puntos de control que no se están leyendo activamente y los conjuntos de entrenamiento archivados, pertenecen a discos HDD de alta densidad, que siguen siendo órdenes de magnitud más baratos por TB.
La trampa en la que caen los operadores es tratar la jerarquía como un complemento: comprar una capa principal de todo flash, agregar una tienda de objetos separada para datos fríos y conectarlos con movimientos de datos externos. Eso introduce una segunda pila de software, un segundo plano de datos, complejidad de red y sobrecarga operativa. El enfoque de los hiperscalers, que ejecuta SSD y HDD dentro de la misma pila de software con jerarquía de alto rendimiento nativa y sin movimientos de datos externos, mantiene el almacenamiento más cerca del 10 por ciento del presupuesto de infraestructura mientras aún satura cada GPU.
¿Qué lecciones puede aprender la capa Neocloud del diseño de almacenamiento de los hiperscalers?
La lección más importante es que Google, Meta y Microsoft no ejecutan todo flash, y tienen más experiencia de carga de trabajo de inteligencia artificial que nadie. Despliegan arquitecturas de niveles mixtos con jerarquía inteligente: suficiente flash NVMe para saturar el rendimiento de las GPU, luego drenar a discos HDD de alta densidad tan rápido como la física lo permita. Esto no es una preferencia filosófica. Es un imperativo económico impulsado por una comprensión clara de la física de la carga de trabajo de inteligencia artificial.
La segunda lección es la integración arquitectónica. Los hiperscalers no resuelven la jerarquía uniendo sistemas separados. Ejecutan SSD y HDD en la misma pila de software, el mismo plano de datos, con la jerarquía como una operación de primera clase dentro del sistema de almacenamiento, no como un trabajo por lotes administrado por una herramienta separada. Esa integración es lo que les permite mantener el almacenamiento económico a una escala enorme mientras mantiene las garantías de rendimiento que sus flotas de GPU requieren.
La tercera lección es la garantía de durabilidad. AWS S3 ofrece 11 nueves de durabilidad. Azure Blob ofrece 12 o más. Las arquitecturas de almacenamiento de HPC legacy construidas en RAID local pueden caer por debajo de 5 nueves a escala, dependiendo de las tasas de falla de los discos y las ventanas de reconstrucción, potencialmente miles de archivos perdidos por año en un corpus de mil millones de archivos. La codificación de eliminación de red moderna con protección de varios niveles puede superar los 11 nueves. La brecha entre esas dos realidades es la diferencia entre un sistema de almacenamiento que puedes respaldar con un SLA y uno que no puedes.
¿Cómo deben cuantificar los equipos de infraestructura el impacto económico de la disponibilidad del almacenamiento en las flotas de GPU?
La matemática es sobria cuando la ejecutas honestamente. La falla del almacenamiento compartido no produce una brecha de SLA proporcional. Produce una violación simultánea en cada rack de GPU conectado a ese almacenamiento. Un clúster de 5,000 GPU con una disponibilidad de almacenamiento del 98 por ciento no entrega un error de rendimiento del 2 por ciento. Produce 876,000 horas de cómputo perdidas por año. A costos representativos por hora de GPU, eso se traduce en millones de dólares en cómputo inactivo anualmente, más créditos de SLA adeudados en cada rack afectado simultáneamente.
El radio de acción de la falla del almacenamiento en un clúster grande es el clúster completo. Los equipos de infraestructura necesitan modelar esto explícitamente: ¿cuál es el costo anualizado de cómputo inactivo en tu figura actual de disponibilidad de almacenamiento, qué son las obligaciones de crédito de SLA que se adjuntan a cada nivel de disponibilidad y qué es el riesgo de abandono del cliente por fallas de SLA? CoreWeave y Oracle ya están ofreciendo un tiempo de actividad del rack del 99 por ciento. Los proveedores que no pueden igualar eso están perdiendo tratos hoy, y los tratos que están perdiendo son cada vez más los contratos de empresa de alto valor que el mercado Neocloud necesita para demostrar su economía a largo plazo.
¿Cómo comparan las diferentes arquitecturas de almacenamiento en rendimiento por vatio en entornos con restricciones de energía?
Sale en casi todas las conversaciones de infraestructura serias ahora, y la diferencia no es marginal. Es multiplicativa. Basado en especificaciones publicadas y configuraciones comparables, al entregar aproximadamente 1,340 GB/s de rendimiento de lectura, una arquitectura quema 55 kW mientras que otra logra una salida similar a aproximadamente 16 kW. Esa es una diferencia de 3,4 veces en rendimiento por vatio. En un centro de datos donde las cargas de trabajo de inteligencia artificial están consumiendo 40 a 250 kilovatios por rack contra una conexión de red fija, los vatios de almacenamiento desperdiciados son las GPU que no puedes desplegar. La propia documentación de BlueField-4 de NVIDIA establece explícitamente que la disponibilidad de energía es la restricción principal para escalar fábricas de inteligencia artificial.
También hay un efecto de segundo orden que los operadores rara vez tienen en cuenta. Algunas arquitecturas de almacenamiento requieren 5 GB de DRAM y de uno a cuatro núcleos de CPU dedicados permanentemente bloqueados por nodo de GPU solo para lograr el rendimiento de almacenamiento máximo. A través de un clúster de 500 nodos, eso es 2,5 TB de DRAM y hasta 2,000 núcleos de CPU permanentemente no disponibles para las cargas de trabajo de inteligencia artificial. Cuando estás pagando $30,000 o más por GPU, cada núcleo robado y cada gigabyte bloqueado es un impuesto directo sobre la inversión en cómputo que supuestamente es el punto de la infraestructura.
¿Cómo afecta directamente la arquitectura de almacenamiento la competitividad del SLA a medida que las garantías de tiempo de actividad se acercan al 99 por ciento?
El almacenamiento es el radio de acción más grande en cualquier clúster de GPU, lo que lo convierte en la variable más importante en cualquier compromiso de SLA honesto. El sistema de calificación ClusterMAX 2.0 de SemiAnalysis, que se está convirtiendo en un benchmark influyente en la adquisición de Neocloud, hace que los SLA sean un factor explícito en las negociaciones de precios. Los proveedores sin SLA competitivos están perdiendo tratos ahora.
La dimensión de durabilidad es igualmente importante y menos discutida. Los clientes de empresa han sido condicionados por AWS S3 y Azure Blob a esperar 11 a 12 nueves de durabilidad. Las arquitecturas de almacenamiento de HPC legacy construidas en RAID local pueden caer por debajo de 5 nueves a escala, dependiendo de las tasas de falla de los discos y las ventanas de reconstrucción, potencialmente miles de archivos perdidos por año en un corpus de mil millones de archivos. La codificación de eliminación de red moderna con protección de varios niveles puede superar los 11 nueves. La brecha entre esas dos realidades es la diferencia entre un sistema de almacenamiento que puedes respaldar con un SLA y uno que no puedes.
¿Qué capacidades de almacenamiento son más probable que determinen la supervivencia a largo plazo de Neocloud a través de la consolidación?
Los operadores que sobrevivirán serán aquellos que hayan resuelto la ecuación del costo total de propiedad en toda la pila de infraestructura, no solo en la ecuación de adquisición de GPU. Eso significa varias capacidades específicas.
Primero, una arquitectura de software definida unificada que ejecute flash y disco en un solo plano de datos con jerarquía de alto rendimiento nativa, sin movimientos de datos externos, sin segunda pila de software, sin complejidad operativa introducida por la unión de sistemas separados. Segundo, almacenamiento que pueda montar curvas de costo independientes para flash y disco a medida que esos mercados se mueven de forma independiente entre sí, lo que harán. Tercero, sistemas auto-sanadores que mantengan la alta disponibilidad sin administradores especializados que realicen recuperación manual a las 3 AM. La complejidad operativa del almacenamiento es un costo invisible que se compone a escala. Cuarto, durabilidad que pueda ser respaldada con credibilidad en un SLA contra los benchmarks de los hiperscalers.
El punto más amplio es que la ola de consolidación está separando la infraestructura construida para las mediciones del día uno de la infraestructura construida para la economía del año tres. Las tarifas de alquiler de H100 han caído más del 60 por ciento desde su máximo. El mercado ya no recompensa la acumulación de GPU. Está exigiendo prueba de retorno sobre la inversión de capital. La arquitectura de almacenamiento es donde vive esa prueba, porque es donde las tasas de utilización de las GPU, los compromisos de SLA, la eficiencia de energía y la estructura de costos a largo plazo se cruzan.
¿Cuál es su mensaje para los operadores de Neocloud que están evaluando su estrategia de almacenamiento hoy?
No dejes que la decisión de almacenamiento sea la que tomaste por defecto. Cada parte de la pila de infraestructura recibe una ingeniería y un escrutinio financiero rigurosos. El almacenamiento no debe ser diferente. Los operadores que estarán aquí en tres años son aquellos que echaron un vistazo duro a su costo real por hora de GPU de cómputo útil, entendieron su postura de disponibilidad real y se aseguraron de que estaban dimensionados para la carga de trabajo en lugar de para un atajo de adquisición.
La ventana para hacerlo bien se está cerrando. La consolidación ya está en marcha, y la economía es implacable. Pero para los operadores que están dispuestos a replantear la capa de almacenamiento con el mismo rigor que aplicaron a la selección de GPU, la oportunidad es significativa. El almacenamiento hecho correctamente no solo reduce el costo. Desbloquea el valor completo de cada GPU en el rack.
Gracias por la gran entrevista, los lectores que desean aprender más sobre esta pila de tecnología deben visitar VDURA. También pueden leer nuestra entrevista anterior con Ken Claffey.












