Connect with us

IA 101

Modelos de difusión en IA – Todo lo que necesitas saber

mm
A collage of human faces created using AI image generator

En el ecosistema de la IA, los modelos de difusión están estableciendo la dirección y el ritmo del avance tecnológico. Están revolucionando la forma en que abordamos tareas de IA generativa complejas. Estos modelos se basan en las matemáticas de los principios gaussianos, la varianza, las ecuaciones diferenciales y las secuencias generativas. (Explicaremos el jargon técnico a continuación)

Los productos y soluciones modernos centrados en la IA desarrollados por Nvidia, Google, Adobe y OpenAI han puesto a los modelos de difusión en el centro de la atención. DALL.E 2, Stable Diffusion y Midjourney son ejemplos prominentes de modelos de difusión que están haciendo rondas en Internet recientemente. Los usuarios proporcionan una simple promtp de texto como entrada, y estos modelos pueden convertirlos en imágenes realistas, como la que se muestra a continuación.

Una imagen generada con Midjourney v5 usando la entrada de texto: amapolas de California vibrantes.

Una imagen generada con Midjourney v5 usando la entrada de texto: amapolas de California vibrantes. Fuente: Midjourney

Exploraremos los principios fundamentales de funcionamiento de los modelos de difusión y cómo están cambiando las direcciones y normas del mundo tal como lo vemos hoy.

¿Qué son los modelos de difusión?

Según la publicación de investigación “Modelos de difusión probabilística de denoising”, los modelos de difusión se definen como:

“Un modelo de difusión o modelo de difusión probabilística es una cadena de Markov parametrizada entrenada utilizando inferencia variacional para producir muestras que coinciden con los datos después de un tiempo finito”

En pocas palabras, los modelos de difusión pueden generar datos similares a los que se entrenan. Si el modelo se entrena en imágenes de gatos, puede generar imágenes realistas de gatos.

Ahora, intentemos desglosar la definición técnica mencionada anteriormente. Los modelos de difusión toman inspiración del principio de funcionamiento y la base matemática de un modelo probabilístico que puede analizar y predecir el comportamiento de un sistema que varía con el tiempo, como predecir el rendimiento del mercado de valores o la propagación de una pandemia.

La definición establece que son cadenas de Markov parametrizadas entrenadas con inferencia variacional. Las cadenas de Markov son modelos matemáticos que definen un sistema que cambia entre diferentes estados con el tiempo. El estado existente del sistema solo puede determinar la probabilidad de transitar a un estado específico. En otras palabras, el estado actual de un sistema tiene los estados posibles que un sistema puede seguir o adquirir en cualquier momento.

Entrenar el modelo utilizando inferencia variacional implica cálculos complejos para distribuciones de probabilidad. Tiene como objetivo encontrar los parámetros exactos de la cadena de Markov que coinciden con los datos observados (conocidos o reales) después de un tiempo específico. Este proceso minimiza el valor de la función de pérdida del modelo, que es la diferencia entre el estado predicho (desconocido) y el estado observado (conocido).

Una vez entrenado, el modelo puede generar muestras que coinciden con los datos observados. Estas muestras representan trayectorias posibles o estados que el sistema podría seguir o adquirir con el tiempo, y cada trayectoria tiene una probabilidad diferente de ocurrir. Por lo tanto, el modelo puede predecir el comportamiento futuro del sistema generando una serie de muestras y encontrando sus probabilidades respectivas (probabilidad de que estos eventos ocurran).

¿Cómo interpretar los modelos de difusión en IA?

Los modelos de difusión son modelos generativos profundos que funcionan agregando ruido (ruido gaussiano) a los datos de entrenamiento disponibles (también conocido como el proceso de difusión hacia adelante) y luego invirtiendo el proceso (conocido como denoising o el proceso de difusión inversa) para recuperar los datos. El modelo aprende gradualmente a eliminar el ruido. Este proceso de denoising aprendido genera nuevas imágenes de alta calidad a partir de semillas aleatorias (imágenes ruidosas aleatorias), como se muestra en la ilustración a continuación.

Proceso de difusión inversa: una imagen ruidosa se desenruida para recuperar la imagen original (o generar sus variaciones) a través de un modelo de difusión entrenado.

Proceso de difusión inversa: una imagen ruidosa se desenruida para recuperar la imagen original (o generar sus variaciones) a través de un modelo de difusión entrenado. Fuente: Modelos de difusión probabilística de denoising

3 Categorías de modelos de difusión

Hay tres marcos matemáticos fundamentales que subyacen a la ciencia detrás de los modelos de difusión. Los tres funcionan sobre los mismos principios de agregar ruido y luego eliminarlo para generar nuevas muestras. Analicémoslos a continuación.

Un modelo de difusión agrega y elimina ruido de una imagen.

Un modelo de difusión agrega y elimina ruido de una imagen. Fuente: Modelos de difusión en visión: una encuesta

1. Modelos de difusión probabilística de denoising (DDPMs)

Como se explicó anteriormente, los DDPM son modelos generativos utilizados principalmente para eliminar ruido de datos visuales o de audio. Han demostrado resultados impresionantes en diversas tareas de denoising de imágenes y audio. Por ejemplo, la industria cinematográfica utiliza herramientas modernas de procesamiento de imágenes y video para mejorar la calidad de producción.

2. Modelos generativos basados en puntuaciones con ruido (SGMs)

Los SGM pueden generar nuevas muestras a partir de una distribución dada. Funcionan aprendiendo una función de puntuación que puede estimar la densidad logarítmica de la distribución objetivo. La estimación de la densidad logarítmica hace suposiciones para los puntos de datos disponibles que son parte de un conjunto de datos desconocido (conjunto de prueba). Esta función de puntuación puede generar nuevos puntos de datos a partir de la distribución.

Por ejemplo, los deepfakes son notorios por producir videos y audios falsos de personalidades famosas. Pero se atribuyen principalmente a Redes Adversarias Generativas (GANs). Sin embargo, los SGM han demostrado capacidades similares – a veces superar – en la generación de caras de celebridades de alta calidad. Además, los SGM pueden ayudar a expandir los conjuntos de datos de atención médica, que no están disponibles en grandes cantidades debido a regulaciones estrictas y estándares de la industria.

3. Ecuaciones diferenciales estocásticas (SDEs)

Las SDE describen cambios en procesos aleatorios con respecto al tiempo. Se utilizan ampliamente en física y mercados financieros que involucran factores aleatorios que impactan significativamente los resultados del mercado.

Por ejemplo, los precios de las materias primas son muy dinámicos y se ven afectados por una serie de factores aleatorios. Las SDE calculan derivados financieros como contratos de futuros (como contratos de petróleo). Pueden modelar las fluctuaciones y calcular precios favorables con precisión para dar una sensación de seguridad.

Aplicaciones principales de los modelos de difusión en IA

Veamos algunas prácticas y usos ampliamente adaptados de los modelos de difusión en IA.

Generación de video de alta calidad

Crear videos de alta gama utilizando aprendizaje profundo es desafiante, ya que requiere una alta continuidad de los fotogramas del video. Es aquí donde entran en juego los modelos de difusión, ya que pueden generar un subconjunto de fotogramas del video para llenar los fotogramas faltantes, lo que resulta en videos de alta calidad y suaves con ninguna latencia.

Los investigadores han desarrollado las técnicas Flexible Diffusion Model y Residual Video Diffusion para servir a este propósito. Estos modelos también pueden producir videos realistas agregando fotogramas generados por IA entre los fotogramas reales.

Estos modelos pueden simplemente extender el FPS (fotogramas por segundo) de un video de bajo FPS agregando fotogramas ficticios después de aprender los patrones de los fotogramas disponibles. Con casi ninguna pérdida de fotogramas, estos marcos pueden asistir aún más a los modelos basados en aprendizaje profundo para generar videos basados en IA desde cero que parezcan tomas naturales de configuraciones de cámara de alta gama.

Una amplia gama de generadores de video de IA notables está disponible en 2023 para hacer que la producción y edición de contenido de video sean rápidas y sencillas.

Generación de imagen a partir de texto

Los modelos de imagen a partir de texto utilizan entradas de texto para generar imágenes de alta calidad. Por ejemplo, dar la entrada “manzana roja en un plato” y producir una imagen fotorealista de una manzana en un plato. Blended diffusion y unCLIP son dos ejemplos prominentes de dichos modelos que pueden generar imágenes altamente relevantes y precisas en función de la entrada del usuario.

Además, GLIDE por OpenAI es otra solución ampliamente conocida que produce imágenes fotorealistas utilizando la entrada del usuario. Más tarde, OpenAI lanzó DALL.E-2, su modelo de generación de imágenes más avanzado hasta ahora.

De manera similar, Google ha desarrollado un modelo de generación de imágenes conocido como Imagen, que utiliza un modelo de lenguaje grande para desarrollar una comprensión textual profunda de la entrada de texto y luego genera imágenes fotorealistas.

Hemos mencionado otras herramientas de generación de imágenes populares como Midjourney y Stable Diffusion (DreamStudio) anteriormente. Eche un vistazo a una imagen generada utilizando Stable Diffusion a continuación.

Un collage de caras humanas creado con Stable Diffusion 1.5

Un collage de caras humanas creado con Stable Diffusion 1.5 utilizando la siguiente entrada: “collage, hiperrealista, muchas variaciones retrato de Thom Yorke muy viejo, variaciones de cara, cantautor, (lado) perfil, varias edades, lente macro, espacio liminal, por Lee Bermejo, Alphonse Mucha y Greg Rutkowski, barba gris, cara suave, pómulos”

Modelos de difusión en IA – ¿Qué esperar en el futuro?

Los modelos de difusión han revelado un potencial prometedor como un enfoque robusto para generar muestras de alta calidad a partir de conjuntos de datos de imágenes y video complejos. Al mejorar la capacidad humana para utilizar y manipular datos, los modelos de difusión pueden potencialmente revolucionar el mundo tal como lo vemos hoy. Podemos esperar ver aún más aplicaciones de los modelos de difusión que se conviertan en una parte integral de nuestras vidas diarias.

Dicho esto, los modelos de difusión no son la única técnica de IA generativa. Los investigadores también utilizan Redes Adversarias Generativas (GANs), Autoencoders Variacionales y modelos generativos de flujo profundos para generar contenido de IA. Comprender las características fundamentales que diferencian a los modelos de difusión de otros modelos generativos puede ayudar a producir soluciones más efectivas en el futuro.

Para obtener más información sobre tecnologías basadas en IA, visite Unite.ai. Consulte nuestros recursos curados sobre herramientas de IA generativa a continuación.

Haziqa es una científica de datos con amplia experiencia en la escritura de contenido técnico para empresas de inteligencia artificial y SaaS.