Inteligencia artificial

Dreamcraft3D: Generación Jerárquica 3D con Prior de Difusión con Arranque

Published November 16, 2023

Updated April 4, 2026

Kunal Kejriwal

Los modelos de inteligencia artificial generativos han sido un tema de discusión candente dentro de la industria de la inteligencia artificial durante un tiempo. El reciente éxito de los modelos generativos 2D ha allanado el camino para los métodos que utilizamos para crear contenido visual hoy en día. Aunque la comunidad de inteligencia artificial ha logrado un éxito notable con los modelos generativos 2D, la generación de contenido 3D sigue siendo un desafío importante para los marcos de inteligencia artificial generativa profunda. Esto es especialmente cierto ya que la demanda de contenido generado 3D alcanza un máximo histórico, impulsada por una amplia gama de juegos visuales, aplicaciones, realidad virtual y sogar cine. Es digno de mencionar que, aunque existen marcos de inteligencia artificial generativa 3D que entregan resultados aceptables para ciertas categorías y tareas, no pueden generar objetos 3D de manera eficiente. Esta deficiencia se puede atribuir a la falta de datos 3D extensivos para entrenar los marcos. Recientemente, los desarrolladores han propuesto aprovechar la guía ofrecida por modelos de inteligencia artificial generativa de texto a imagen preentrenados, un enfoque que ha mostrado resultados prometedores.

En este artículo, discutiremos el marco DreamCraft3D, un modelo jerárquico para generar contenido 3D que produce objetos 3D coherentes y de alta fidelidad de alta calidad. El marco DreamCraft3D utiliza una imagen de referencia 2D para guiar la etapa de escultura de geometría, realzando la textura con un enfoque en abordar los problemas de coherencia que enfrentan los marcos o métodos actuales. Además, el marco DreamCraft3D emplea un modelo de difusión dependiente de la vista para la muestra de destilación de puntuación, lo que ayuda a esculpir la geometría que contribuye a la renderización coherente.

Tomaremos un vistazo más cercano al marco DreamCraft3D para la generación de contenido 3D. Además, exploraremos el concepto de aprovechar los modelos de texto a imagen (T2I) preentrenados para la generación de contenido 3D y examinaremos cómo el marco DreamCraft3D pretende utilizar este enfoque para generar contenido 3D realista.

DreamCraft3D: Una Introducción

DreamCraft3D es una canalización jerárquica para generar contenido 3D. El marco DreamCraft3D intenta aprovechar un marco generativo de texto a imagen (T2I) de última generación para crear imágenes 2D de alta calidad utilizando una prompt de texto. El enfoque permite que el marco DreamCraft3D maximice las capacidades de los modelos de difusión 2D de última generación para representar la semántica visual descrita en la prompt de texto, mientras retiene la libertad creativa ofrecida por estos marcos generativos de inteligencia artificial 2D. La imagen generada se eleva entonces a 3D con la ayuda de fases de realce de textura geométrica y escultura geométrica en cascada, y se aplican técnicas especializadas en cada etapa con la ayuda de descomponer el problema.

En cuanto a la geometría, el marco DreamCraft3D se enfoca intensamente en la estructura global 3D y la coherencia multi-vista, lo que hace espacio para compromisos en las texturas detalladas de las imágenes. Una vez que el marco se deshace de los problemas relacionados con la geometría, cambia su enfoque a optimizar texturas coherentes y realistas implementando una difusión 3D que arranca el enfoque de optimización 3D. Hay dos consideraciones de diseño clave para las dos fases de optimización, a saber, la Escultura Geométrica y el Realce de Textura.

Con todo lo dicho, sería seguro describir el DreamCraft3D como un marco generativo de inteligencia artificial que aprovecha una canalización jerárquica de generación de contenido 3D para transformar esencialmente imágenes 2D en sus contrapartes 3D, manteniendo la coherencia 3D holística.

Aprovechando Modelos Preentrenados de Texto a Imagen (T2I)

La idea de aprovechar modelos preentrenados de texto a imagen (T2I) para generar contenido 3D se introdujo por primera vez por el marco DreamFusion en 2022. El marco DreamFusion intentó imponer una pérdida de muestra de destilación de puntuación (SDS) para optimizar el marco 3D de manera que las renderizaciones en puntos de vista aleatorios se alinearan con las distribuciones de imagen condicionadas por texto interpretadas por un marco de difusión de texto a imagen eficiente. Aunque el enfoque DreamFusion entregó resultados decentes, hubo dos problemas principales, la borrosidad y la sobre-saturación. Para abordar estos problemas, trabajos recientes implementan diversas estrategias de optimización por etapas para mejorar la pérdida de destilación 2D, lo que conduce a mejores resultados y imágenes 3D generadas realistas.

Sin embargo, a pesar del éxito reciente de estos marcos, no pueden igualar la capacidad de los marcos generativos 2D para sintetizar contenido complejo. Además, estos marcos a menudo están plagados del “Problema Janus”, una condición en la que las renderizaciones 3D que parecen ser plausibles individualmente, muestran inconsistencias estilísticas y semánticas cuando se examinan en su conjunto.

Para abordar los problemas que enfrentan los trabajos anteriores, el marco DreamCraft3D explora la posibilidad de utilizar una canalización jerárquica de generación de contenido 3D y busca inspiración en el proceso artístico manual en el que un concepto se esboza primero en un boceto 2D, después de lo cual el artista esculpe la geometría burda, refina los detalles geométricos y pinta texturas de alta fidelidad. Siguiendo el mismo enfoque, el marco DreamCraft3D descompone las tareas exhaustivas de generación de contenido o imagen 3D en varias etapas manejables. Comienza generando una imagen 2D de alta calidad utilizando una prompt de texto y procede a utilizar el realce de textura y la escultura geométrica para elevar la imagen a las etapas 3D. Dividir el proceso en etapas subsiguientes ayuda al marco DreamCraft3D a maximizar el potencial de la generación jerárquica, lo que resulta en la generación de imágenes 3D de alta calidad.

En la primera etapa, el marco DreamCraft3D despliega la escultura geométrica para producir formas geométricas 3D coherentes y plausibles utilizando la imagen 2D como referencia. Además, la etapa no solo utiliza la pérdida SDS para las pérdidas fotométricas y las vistas novedosas en la vista de referencia, sino que el marco también introduce una amplia gama de estrategias para promover la coherencia geométrica. El marco pretende aprovechar el Zero-1-to-3, un modelo de traducción de imagen condicionado por la vista, para utilizar la imagen de referencia para modelar la distribución de las vistas novedosas. Además, el marco transita de la representación de superficie implícita a la representación de malla para el refinamiento geométrico de grano grueso a fino.

La segunda etapa del marco DreamCraft3D utiliza un enfoque de muestreo de puntuación de destilación con arranque para realzar las texturas de la imagen, ya que los modelos de difusión condicionados por la vista actuales se entrenan en una cantidad limitada de datos 3D, lo que hace que a menudo luchen por igualar el rendimiento o la fidelidad de los modelos de difusión 2D. Gracias a esta limitación, el marco DreamCraft3D ajusta el modelo de difusión de acuerdo con las imágenes multi-vista de la instancia 3D que se está optimizando, y este enfoque ayuda al marco a aumentar las texturas 3D mientras mantiene la coherencia multi-vista. Cuando el modelo de difusión se entrena en estas renderizaciones multi-vista, proporciona una mejor guía para la optimización de la textura 3D, y este enfoque ayuda al marco DreamCraft3D a lograr un detalle de textura increíble mientras mantiene la coherencia de la vista.

Como se puede observar en las imágenes anteriores, el marco DreamCraft3D es capaz de producir imágenes y contenido 3D creativos con texturas realistas y estructuras geométricas intrincadas. En la primera imagen, es el cuerpo de Son Goku, un personaje de anime mezclado con la cabeza de un jabalí salvaje en carrera, mientras que la segunda imagen muestra a un perro Beagle vestido con el traje de un detective. A continuación, se presentan algunos ejemplos adicionales.

DreamCraft3D: Funcionamiento y Arquitectura

El marco DreamCraft3D intenta aprovechar un marco generativo de texto a imagen (T2I) de última generación para crear imágenes 2D de alta calidad utilizando una prompt de texto. El enfoque permite que el marco DreamCraft3D maximice las capacidades de los modelos de difusión 2D de última generación para representar la semántica visual descrita en la prompt de texto, mientras retiene la libertad creativa ofrecida por estos marcos generativos de inteligencia artificial 2D. La imagen generada se eleva entonces a 3D con la ayuda de fases de realce de textura geométrica y escultura geométrica en cascada, y se aplican técnicas especializadas en cada etapa con la ayuda de descomponer el problema. La siguiente imagen resume brevemente el funcionamiento del marco DreamCraft3D.

Veamos con detalle las consideraciones de diseño clave para las fases de realce de textura y escultura geométrica.

Escultura Geométrica

La Escultura Geométrica es la primera etapa en la que el marco DreamCraft3D intenta crear un modelo 3D que se alinee con la apariencia de la imagen de referencia en la misma vista de referencia, mientras garantiza la máxima plausibilidad incluso en diferentes ángulos de vista. Para garantizar la máxima plausibilidad, el marco utiliza la pérdida SDS para fomentar la renderización de imágenes plausibles para cada vista individual muestreada que un modelo de difusión preentrenado pueda reconocer. Además, para utilizar la guía de la imagen de referencia de manera efectiva, el marco penaliza las diferencias fotométricas entre la referencia y las imágenes renderizadas en la vista de referencia, y la pérdida se calcula solo dentro de la región del primer plano de la vista. Además, para fomentar la escasez de la escena, el marco también implementa una pérdida de máscara que renderiza la silueta. A pesar de esto, mantener la apariencia y la semántica a través de las vistas de espaldas de manera coherente sigue siendo un desafío, por lo que el marco emplea enfoques adicionales para producir geometría detallada y coherente.

Prior de Difusión 3D Consciente

Los métodos de optimización 3D que utilizan la supervisión por vista por sí sola están subdeterminados, lo que es la razón principal por la que el marco DreamCraft3D utiliza el Zero-1-to-3, un modelo de difusión condicionado por la vista, como el Zero-1-to-3 ofrece una mayor conciencia de la vista, ya que se ha entrenado en una mayor escala de activos de datos 3D. Además, el Zero-1-to-3 es un modelo de difusión afinado que halucina la imagen en relación con la pose de la cámara dada la imagen de referencia.

Entrenamiento de Vistas Progresivas

Derivar vistas libres directamente en 360 grados puede generar artefactos geométricos o discrepancias, como una pierna extra en la silla, un evento que puede ser atribuido a la ambigüedad inherente a una sola imagen de referencia. Para abordar este obstáculo, el marco DreamCraft3D amplía las vistas de entrenamiento de manera progresiva, después de lo cual la geometría bien establecida se propaga gradualmente para obtener resultados en 360 grados.

Anulación de Paso de Tiempo de Difusión

El marco DreamCraft3D emplea una estrategia de anulación de paso de tiempo de difusión para alinearse con la progresión de optimización 3D de grano grueso a fino. Al comienzo del proceso de optimización, el marco prioriza la muestra de un paso de tiempo de difusión más grande, con el fin de proporcionar la estructura global. A medida que el marco procede con el proceso de entrenamiento, linealmente anula el rango de muestreo a lo largo de cientos de iteraciones. Gracias a la estrategia de anulación, el marco logra establecer una geometría global plausible durante los primeros pasos de optimización, antes de refinar los detalles estructurales.

Mejora Estructural Detallada

El marco DreamCraft3D optimiza inicialmente una representación de superficie implícita para establecer una estructura burda. El marco luego utiliza este resultado y lo combina con una malla tetraédrica deformable o DMTet para inicializar una representación de malla 3D texturizada, que desvincula el aprendizaje de la textura y la geometría. Cuando el marco termina con la mejora estructural, el modelo puede preservar los detalles de alta frecuencia obtenidos de la imagen de referencia, refinando las texturas únicamente.

Realce de Textura utilizando Muestreo de Puntuación con Arranque

Aunque la etapa de escultura geométrica se enfoca en aprender geometría detallada y coherente, puede desdibujar la textura en cierta medida, lo que puede ser el resultado de la dependencia del marco en un modelo de prioridad 2D que opera a una resolución burda, junto con la limitada nitidez ofrecida por el modelo de difusión 3D. Además, los problemas de textura comunes, incluyendo la sobre-saturación y el sobre-suavizado, surgen como resultado de una gran guía de clasificador libre.

El marco utiliza una pérdida de destilación de puntuación variacional (VSD) para aumentar el realismo de las texturas. El marco opta por un modelo de difusión estable durante esta fase para obtener gradientes de alta resolución. Además, el marco mantiene la malla tetraédrica fija para promover la renderización realista y optimizar la estructura general de la malla. Durante la etapa de aprendizaje, el marco DreamCraft3D no utiliza el Zero-1-to-3, ya que tiene un efecto adverso en la calidad de las texturas, y estas texturas inconsistentes pueden ser recurrentes, lo que conduce a resultados 3D extraños.

Experimentos y Resultados

Para evaluar el rendimiento del marco DreamCraft3D, se compara con los marcos actuales de última generación, y se analizan los resultados cualitativos y cuantitativos.

Comparación con Modelos de Línea Base

Para evaluar el rendimiento, el marco DreamCraft3D se compara con 5 marcos de última generación, incluyendo DreamFusion, Magic3D, ProlificDreamer, Magic123 y Make-it-3D. La prueba de referencia consta de 300 imágenes de entrada que son una mezcla de imágenes del mundo real y generadas por el marco de difusión estable. Cada imagen en la prueba de referencia tiene una prompt de texto, una mapa de profundidad predicha y una máscara alfa para el primer plano. El marco obtiene las prompts de texto para las imágenes reales de un marco de generación de subtítulos de imágenes.

Análisis Cualitativo

La siguiente imagen compara el marco DreamCraft3D con los modelos de línea base actuales, y como se puede ver, los marcos que dependen del enfoque de texto a 3D a menudo enfrentan problemas de coherencia multi-vista.

Por un lado, tienes el marco ProlificDreamer que ofrece texturas realistas, pero no logra generar un objeto 3D plausible. Los marcos como el Make-it-3D que dependen de los métodos de imagen a 3D logran crear vistas frontales de alta calidad, pero no pueden mantener la geometría ideal para las imágenes. Las imágenes generadas por el marco Magic123 ofrecen una mejor regularización geométrica, pero generan texturas geométricas y detalles sobre-saturados y suavizados. En comparación con estos marcos, el marco DreamCraft3D que utiliza un método de muestreo de puntuación con arranque no solo mantiene la coherencia semántica, sino que también mejora la diversidad de imaginación en general.

Análisis Cuantitativo

En un intento por generar imágenes 3D convincentes que no solo se asemejan a la imagen de referencia de entrada, sino que también transmiten semántica de manera coherente desde varias perspectivas, las técnicas utilizadas por el marco DreamCraft3D se comparan con los modelos de línea base, y el proceso de evaluación emplea cuatro métricas: PSNR y LPIPS para medir la fidelidad en la vista de referencia, Distancia Contextual para evaluar la congruencia a nivel de píxel y CLIP para estimar la coherencia semántica. Los resultados se muestran en la siguiente imagen.

Conclusión

En este artículo, hemos discutido DreamCraft3D, una canalización jerárquica para generar contenido 3D. El marco DreamCraft3D pretende aprovechar un marco generativo de texto a imagen (T2I) de última generación para crear imágenes 2D de alta calidad utilizando una prompt de texto. Este enfoque permite que el marco DreamCraft3D maximice las capacidades de los modelos de difusión 2D de última generación para representar la semántica visual descrita en la prompt de texto, mientras retiene la libertad creativa ofrecida por estos marcos generativos de inteligencia artificial 2D. La imagen generada se eleva entonces a 3D con la ayuda de fases de realce de textura geométrica y escultura geométrica en cascada, y se aplican técnicas especializadas en cada etapa con la ayuda de descomponer el problema. Como resultado de este enfoque, el marco DreamCraft3D puede producir activos 3D de alta fidelidad y coherentes con texturas convincentes, visibles desde múltiples ángulos.

Unite.AI