Sudut Anderson
Memperbaiki Keterbatasan Model Difusi dalam Memahami Cermin dan Refleksi

Sejak kecerdasan buatan generatif mulai menarik perhatian publik, bidang penelitian penglihatan komputer telah memperdalam minatnya dalam mengembangkan model AI yang mampu memahami dan mereplikasi hukum fisika; namun, tantangan mengajarkan sistem pembelajaran mesin untuk mensimulasikan fenomena seperti gravitasi dan dinamika cairan telah menjadi fokus penelitian selama setidaknya lima tahun terakhir.
Sejak model difusi laten (LDM) mendominasi adegan kecerdasan buatan generatif pada tahun 2022, peneliti telah semakin fokus pada kapasitas arsitektur LDM yang terbatas untuk memahami dan mereproduksi fenomena fisik. Sekarang, masalah ini telah mendapatkan prominen yang lebih besar dengan perkembangan landmark model video generatif OpenAI, Sora, dan (yang bisa dibilang) lebih konsekuensial pelepasan model video sumber terbuka Hunyuan Video dan Wan 2.1.
Mempantulkan dengan Buruk
Sebagian besar penelitian yang bertujuan untuk meningkatkan pemahaman LDM tentang fisika telah fokus pada area seperti simulasi gait, fisika partikel, dan aspek lain dari gerakan Newton. Area-area ini telah menarik perhatian karena ketidakakuratan dalam perilaku fisik dasar akan segera melemahkan autentisitas video yang dihasilkan AI.
Namun, sebuah benang penelitian kecil yang tumbuh berkonsentrasi pada salah satu kelemahan LDM terbesar – ketidakmampuan relatif untuk menghasilkan refleksi yang akurat.

Dari makalah Januari 2025 ‘Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections’, contoh ‘kegagalan refleksi’ versus pendekatan peneliti sendiri. Sumber: https://arxiv.org/pdf/2409.14677
Masalah ini juga merupakan tantangan selama era CGI dan tetap demikian dalam bidang permainan video, di mana algoritma pelacakan sinar simulasi jalur cahaya saat berinteraksi dengan permukaan. Pelacakan sinar menghitung bagaimana sinar cahaya virtual memantul atau melewati objek untuk menciptakan refleksi, refraksi, dan bayangan yang realistis.
Namun, karena setiap pantulan tambahan secara signifikan meningkatkan biaya komputasi, aplikasi waktu nyata harus mempertukarkan keterlambatan dengan akurasi dengan membatasi jumlah pantulan sinar yang diizinkan.
![Representasi dari sinar cahaya virtual yang dihitung dalam skenario 3D (yaitu CGI), menggunakan teknologi dan prinsip yang pertama kali dikembangkan pada 1960-an, dan yang mencapai puncaknya antara 1982-93 (rentang antara Tron [1982] dan Jurassic Park [1993]). Sumber: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing](https://www.unite.ai/wp-content/uploads/2025/04/ray-tracing.jpg)
Representasi dari sinar cahaya virtual yang dihitung dalam skenario 3D (yaitu CGI), menggunakan teknologi dan prinsip yang pertama kali dikembangkan pada 1960-an, dan yang mencapai puncaknya antara 1982-93 (rentang antara ‘Tron’ [1982] dan ‘Jurassic Park’ [1993]). Sumber: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
Misalnya, menggambarkan teko krom di depan cermin dapat melibatkan proses pelacakan sinar di mana sinar cahaya memantul berulang kali antara permukaan reflektif, menciptakan loop hampir tak terhingga dengan sedikit manfaat praktis bagi gambar akhir. Dalam sebagian besar kasus, kedalaman refleksi dua hingga tiga pantulan sudah melebihi apa yang dapat dipersepsi oleh pemirsa. Satu pantulan akan menghasilkan cermin hitam, karena cahaya harus menyelesaikan setidaknya dua perjalanan untuk membentuk refleksi yang terlihat.
Setiap pantulan tambahan secara tajam meningkatkan biaya komputasi, sering kali mendua waktu rendering, membuat penanganan refleksi yang lebih cepat menjadi salah satu peluang terbesar untuk meningkatkan kualitas rendering yang dilacak sinar.
Refleksi terjadi, dan penting untuk fotorealisme, dalam skenario yang jauh kurang jelas – seperti permukaan reflektif jalan kota atau medan perang setelah hujan; refleksi jalan lawan di jendela toko atau pintu kaca; atau pada kacamata karakter yang digambarkan, di mana objek dan lingkungan mungkin diperlukan untuk muncul.

Refleksi kembar yang disimulasikan melalui kompositing tradisional untuk adegan ikonik di ‘The Matrix’ (1999).
Masalah Gambar
Oleh karena itu, kerangka kerja yang populer sebelum munculnya model difusi, seperti Medan Radiasi Neural (NeRF), dan beberapa penantang terbaru seperti Gaussian Splatting, telah mempertahankan perjuangan mereka sendiri untuk mengenakan refleksi dengan cara alami.
Proyek REF2-NeRF (digambarkan di bawah) mengusulkan metode pemodelan berbasis NeRF untuk adegan yang berisi kasus kaca. Dalam metode ini, refraksi dan refleksi dimodelkan menggunakan elemen yang bergantung dan tidak bergantung pada perspektif pemirsa. Pendekatan ini memungkinkan peneliti untuk memperkirakan permukaan di mana refraksi terjadi, khususnya permukaan kaca, dan memungkinkan pemisahan dan pemodelan komponen cahaya langsung dan reflektif.

Contoh dari makalah Ref2Nerf. Sumber: https://arxiv.org/pdf/2311.17116
Solusi refleksi NeRF lainnya dalam empat hingga lima tahun terakhir termasuk NeRFReN, Reflecting Reality, dan proyek Planar Reflection-Aware Neural Radiance Fields Meta 2024.
Untuk GSplat, makalah seperti Mirror-3DGS, Reflective Gaussian Splatting, dan RefGaussian telah menawarkan solusi mengenai masalah refleksi, sementara proyek Nero 2023 mengusulkan metode khusus untuk mengintegrasikan kualitas reflektif ke dalam representasi neural.
MirrorVerse
Mendapatkan model difusi untuk menghormati logika refleksi secara argumentatif lebih sulit daripada dengan pendekatan struktural eksplisit seperti NeRF dan GSplat. Dalam model difusi, aturan semacam itu hanya mungkin menjadi terintegrasi dengan andal jika data pelatihan berisi banyak contoh yang bervariasi di seluruh rentang skenario yang luas, membuatnya sangat bergantung pada distribusi dan kualitas dataset asli.
Secara tradisional, menambahkan perilaku khusus semacam itu adalah ranah LoRA atau fine-tuning model dasar; tetapi ini bukanlah solusi ideal, karena LoRA cenderung miringkan output ke arah data pelatihannya sendiri, bahkan tanpa prompting, sementara fine-tune – selain mahal – dapat memisahkan model besar secara tidak dapat diubah dari mainstream, dan menghasilkan sejumlah alat khusus yang tidak akan pernah bekerja dengan strain model lain, termasuk yang asli.
Pada umumnya, meningkatkan model difusi memerlukan data pelatihan untuk memperhatikan fisika refleksi lebih banyak. Namun, banyak area lain juga memerlukan perhatian khusus serupa. Dalam konteks dataset hyperscale, di mana kurasi khusus mahal dan sulit, menangani setiap kelemahan dengan cara ini tidak praktis.
Meskipun demikian, solusi untuk masalah refleksi LDM tetap muncul dari waktu ke waktu. Upaya terbaru, dari India, adalah proyek MirrorVerse, yang menawarkan dataset dan metode pelatihan yang ditingkatkan yang dapat meningkatkankan kemampuan model difusi dalam tantangan ini.

Kanan, hasil dari MirrorVerse dibandingkan dengan dua pendekatan sebelumnya (dua kolom tengah). Sumber: https://arxiv.org/pdf/2504.15397
Kita dapat melihat dalam contoh di atas (gambar fitur dalam PDF makalah baru), MirrorVerse meningkatkan penawaran terbaru yang menangani masalah yang sama, tetapi jauh dari sempurna.
Dalam gambar atas kanan, kita melihat bahwa vas keramik sedikit ke kanan dari tempat seharusnya, dan dalam gambar di bawah, yang seharusnya tidak menampilkan refleksi cangkir sama sekali, refleksi yang tidak akurat telah dipaksakan ke area tangan kanan, melawan logika sudut refleksi alami.
Oleh karena itu, kita akan melihat metode baru ini tidak hanya karena mungkin mewakili kemajuan saat ini dalam refleksi berbasis difusi, tetapi juga untuk menggambarkan seberapa jauh ini mungkin menjadi masalah yang tidak dapat dipecahkan untuk model difusi laten, statis dan video, karena contoh data reflektif yang diperlukan kemungkinan besar terjalin dengan tindakan dan skenario tertentu.
Oleh karena itu, fungsi model LDM ini mungkin terus gagal memenuhi pendekatan struktur khusus seperti NeRF, GSplat, dan juga CGI tradisional.
Makalah baru berjudul MirrorVerse: Mendorong Model Difusi untuk Realistis Mempantulkan Dunia, dan berasal dari tiga peneliti di seluruh Laboratorium Visi dan AI, IISc Bangalore, dan Institut R&D Samsung di Bangalore. Makalah ini memiliki halaman proyek terkait, serta dataset di Hugging Face, dengan kode sumber dirilis di GitHub.
Metode
Peneliti mencatat dari awal bahwa model seperti Difusi Stabil dan Flux memiliki kesulitan dalam menghormati prompt berbasis refleksi, menggambarkan masalahnya dengan baik:

Dari makalah: Model text-ke-gambar saat ini, SD3.5 dan Flux, menunjukkan tantangan signifikan dalam menghasilkan refleksi yang konsisten dan akurat secara geometris ketika diminta untuk menghasilkan refleksi dalam adegan.
Peneliti telah mengembangkan MirrorFusion 2.0, model generatif berbasis difusi yang bertujuan untuk meningkatkan fotorealisme dan akurasi geometris refleksi cermin dalam citra sintetis. Pelatihan untuk model ini didasarkan pada dataset baru yang dikurasi oleh peneliti, yang disebut MirrorGen2, yang dirancang untuk mengatasi kelemahan generalisasi yang diamati dalam pendekatan sebelumnya.
MirrorGen2 memperluas metodologi sebelumnya dengan memperkenalkan penempatan objek acak, rotasi acak, dan penempatan objek eksplisit, dengan tujuan memastikan bahwa refleksi tetap masuk akal di seluruh rentang pose dan penempatan objek relatif terhadap permukaan cermin.

Skema untuk generasi data sintetis di MirrorVerse: pipa pelatihan dataset mengaplikasikan augmentasi kunci dengan menempatkan, memutar, dan menempatkan objek dalam adegan menggunakan 3D-Positioner. Objek juga dipasangkan dalam kombinasi yang konsisten secara semantik untuk mensimulasikan hubungan spasial dan oklusi yang kompleks, memungkinkan dataset untuk menangkap interaksi yang lebih realistis dalam adegan multi-objek.
Untuk lebih memperkuat kemampuan model untuk menangani pengaturan spasial yang kompleks, pipa MirrorGen2 juga mencakup adegan objek berpasangan, memungkinkan sistem untuk lebih baik mewakili oklusi dan interaksi antara beberapa elemen dalam pengaturan reflektif.












