Connect with us

Dreamcraft3D: إنشاء هرمي ثلاثي الأبعاد مع بروتوكول انتشار تمهيدي

الذكاء الاصطناعي

Dreamcraft3D: إنشاء هرمي ثلاثي الأبعاد مع بروتوكول انتشار تمهيدي

mm

لقد كان نماذج الذكاء الاصطناعي التوليدية موضوعا ساخنا للنقاش داخل ngành الذكاء الاصطناعي منذ فترة. وقد مهدت النجاحات الحديثة لنماذج التوليد الثنائي البعدية الطريق للأساليب التي نستخدمها لإنشاء المحتوى المرئي اليوم. على الرغم من أن مجتمع الذكاء الاصطناعي قدحققت نجاحات ملحوظة في نماذج التوليد الثنائي البعدية، فإن توليد المحتوى ثلاثي الأبعاد لا يزال تحديا كبيرا للإطارات التوليدية العميقة. هذا هو الحال خاصة مع ارتفاع الطلب على المحتوى ثلاثي الأبعاد إلى أعلى مستوى على الإطلاق، مدفوعا بمجموعة واسعة من الألعاب المرئية، والتطبيقات، والواقع الافتراضي، وأفلام السينما. ومن الجدير بالذكر أن هناك إطارات توليد ذكاء اصطناعي ثلاثي الأبعاد تقدم نتائج مقبولة لمجموعة معينة من الفئات والمهام، لكنها لا تستطيع توليد كائنات ثلاثية الأبعاد بكفاءة. ويمكن أن يُعزى هذا النقص إلى عدم وجود بيانات ثلاثية الأبعاد واسعة النطاق لتدريب الإطارات. وفي الآونة الأخيرة، اقترح المطورون استخدام التوجيه المقدم من نماذج الذكاء الاصطناعي التوليدية المسبقة للصورة إلى الصورة، وهي نهج أظهر نتائج واعدة.

في هذا المقال، سنناقش إطار DreamCraft3D، وهو نموذج هرمي لتوليد محتوى ثلاثي الأبعاد ينتج كائنات ثلاثية الأبعاد متسقة وذات جودة عالية. يستخدم إطار DreamCraft3D صورة مرجعية ثنائية البعد لتوجيه مرحلة نحت الهندسة، مع تعزيز النسيج مع التركيز على معالجة مشاكل الاتساق التي تواجهها الإطارات أو الأساليب الحالية. بالإضافة إلى ذلك، يستخدم إطار DreamCraft3D نموذج انتشار معتمد على العرض لتحليل النتيجة، مما يساعد في نحت الهندسة التي تساهم في عرض متسق.

سنقوم بتحليل إطار DreamCraft3D لتوليد محتوى ثلاثي الأبعاد. بالإضافة إلى ذلك، سنستكشف مفهوم استخدام نماذج النص إلى الصورة المسبقة لإنشاء محتوى ثلاثي الأبعاد، ونتحقق من كيفية سعى إطار DreamCraft3D لاستخدام هذا النهج لتوليد محتوى ثلاثي الأبعاد واقعي.

DreamCraft3D : مقدمة

DreamCraft3D هو pipeline هرمي لتوليد محتوى ثلاثي الأبعاد. يحاول إطار DreamCraft3D الاستفادة من إطار توليد الصورة إلى الصورة المسبق لإنشاء صور ثنائية البعد عالية الجودة باستخدام نص مطلوب. هذا النهج يسمح لإطار DreamCraft3D بتعزيز قدرات نماذج انتشار ثنائية البعد الحالية لتمثيل الدلالات البصرية الموضحة في نص المطلوب مع الحفاظ على الحرية الإبداعية المقدمة من هذه الإطارات التوليدية للذكاء الاصطناعي ثنائية البعد. ثم يتم رفع الصورة المولدة إلى ثلاثية الأبعاد بمساعدة مراحل نحت الهندسة وتمهيد النسيج، وتطبيق تقنيات متخصصة في كل مرحلة بمساعدة تفكيك المشكلة.

بالنسبة للهندسة، يركز إطار DreamCraft3D بشكل كبير على الهيكل العالمي ثلاثي الأبعاد و الاتساق المتعدد، مما يخلق فرصة للتنازلات على النسيج المفصّل في الصور. بمجرد أن يتخلص الإطار من مشاكل الهندسة، ينتقل إلى تحسين النسيج المتسق و الواقعي من خلال تنفيذ انتشار ثلاثي الأبعاد يعتمد على التمهيد. هناك اعتبارات تصميم رئيسية للطورين Optimization، وهما نحت الهندسة وتمهيد النسيج.

مع كل ما قيل، من الآمن وصف DreamCraft3D على أنه إطار توليد ذكاء اصطناعي يعتمد على pipeline هرمي لتوليد محتوى ثلاثي الأبعاد لتحويل الصور ثنائية البعد إلى نظيراتها ثلاثية الأبعاد مع الحفاظ على الاتساق ثلاثي الأبعاد الكلي.

استخدام نماذج النص إلى الصورة المسبقة

تم تقديم فكرة استخدام نماذج النص إلى الصورة المسبقة لتوليد محتوى ثلاثي الأبعاد لأول مرة من إطار DreamFusion في عام 2022. حاول إطار DreamFusion فرض خسارة عينة التمهيد لتحسين الإطار ثلاثي الأبعاد بطريقة تجعل العروض في مناظير عشوائية تتوافق مع توزيعات الصور المشروطة بالنص كما تفسرها إطار انتشار الصورة إلى الصورة الكفء. على الرغم من أن نهج DreamFusion قدم نتائج جيدة، كانت هناك مشاكل رئيسية، وهي الضبابية و过度 التشبع. لمواجهة هذه المشاكل، تنفذ الأعمال الحديثة استراتيجيات تحسين مرحلية لمحاولة تحسين خسارة التمهيد ثنائية البعد، مما يؤدي إلى تحسين جودة الصور ثلاثية الأبعاد المولدة.

ومع ذلك، على الرغم من النجاحات الحديثة لهذه الإطارات، فهي لا تستطيع مطابقة قدرة نماذج التوليد ثنائية البعد ل合성 محتوى معقد. بالإضافة إلى ذلك، غالبا ما تكون هذه الإطارات مصابة ب “مشكلة جانوس”، وهي حالة حيث تظهر عروض ثلاثية الأبعاد التي تبدو معقولة بشكل فردي، تظهر عدم الاتساق في الشكل والمعنى عند فحصها ككل.

لمواجهة المشاكل التي واجهتها الأعمال السابقة، يستكشف إطار DreamCraft3D إمكانية استخدام pipeline هرمي لتوليد محتوى ثلاثي الأبعاد، ويتطلع إلى الحصول على إلهام من العملية الفنية اليدوية التي يتم فيها كتابة المفاهيم أولا في مسودة ثنائية البعد، ثم ينحت الفنان الشكل الهندسي الخشن، ويعمل على تفاصيل الهندسة، ويرسم نسيجا عالي الدقة. اتباع نفس النهج، يُقسم إطار DreamCraft3D مهمة توليد الصور ثلاثية الأبعاد الشاملة إلى مراحل قابلة للإدارة.

في المرحلة الأولى، يُشرع إطار DreamCraft3D في نحت الهندسة لإنشاء أشكال هندسية ثلاثية الأبعاد متسقة ومقبولة باستخدام الصورة ثنائية البعد كمرجع. بالإضافة إلى ذلك، لا تستخدم المرحلة فقط خسارة التمهيد لخسائر الفوتومترية ومناظير جديدة في المنظر المرجعي، بل تقدم الإطار أيضا مجموعة من الاستراتيجيات لتعزيز الاتساق الهندسي. يهدف الإطار إلى الاستفادة من Zero-1-to-3، نموذج ترجمة الصورة المسبقة المعتمد على المنظر، لاستخدام الصورة المرجعية لتمثيل توزيع المناظير الجديدة. بالإضافة إلى ذلك، ينتقل الإطار من تمثيل السطح الضمني إلى تمثيل الشبكة ثلاثية الأبعاد لتحسين الهندسة الخشنة إلى الدقيقة.

المرحلة الثانية من إطار DreamCraft3D تستخدم نهج تمهيد النتيجة المعتمد على العرض لتعزيز نسيج الصورة كما هو الحال الآن، حيث أن نماذج انتشار ثلاثية الأبعاد الحالية مدربة على كمية محدودة من البيانات ثلاثية الأبعاد، مما يؤدي إلى صعوبة مطابقة أداء أو دقة نماذج انتشار ثنائية البعد. وبالتالي، يُعدل الإطار نموذج الانتشار وفقا لصور متعددة للinstance ثلاثي الأبعاد الذي يتم تحسينه، وهذا النهج يساعد الإطار في تعزيز النسيج ثلاثي الأبعاد مع الحفاظ على الاتساق المتعدد.

كما يمكن ملاحظة في الصور أعلاه، إطار DreamCraft3D قادر على إنتاج صور ثلاثية الأبعاد ومحتوى إبداعي مع نسيج واقعي وهندسة دقيقة. في الصورة الأولى، يظهر جسم سون غوكو، شخصية أنمي مختلطة مع رأس خنزير بري، في حين يظهر في الصورة الثانية كلب بيكل يرتدي زي محقق. تليها بعض الأمثلة الإضافية.

DreamCraft3D : آلية العمل والهيكل

يحاول إطار DreamCraft3D الاستفادة من إطار توليد الصورة إلى الصورة المسبق لإنشاء صور ثنائية البعد عالية الجودة باستخدام نص مطلوب. هذا النهج يسمح لإطار DreamCraft3D بتعزيز قدرات نماذج انتشار ثنائية البعد الحالية لتمثيل الدلالات البصرية الموضحة في نص المطلوب مع الحفاظ على الحرية الإبداعية المقدمة من هذه الإطارات التوليدية للذكاء الاصطناعي ثنائية البعد. ثم يتم رفع الصورة المولدة إلى ثلاثية الأبعاد بمساعدة مراحل نحت الهندسة وتمهيد النسيج، وتطبيق تقنيات متخصصة في كل مرحلة بمساعدة تفكيك المشكلة. يُظهر الصورة التالية بشكل موجز آلية عمل إطار DreamCraft3D.

لنلق نظرة مفصلة على اعتبارات التصميم الرئيسية لمرحلة تمهيد النسيج ومرحلة نحت الهندسة.

نحت الهندسة

نحت الهندسة هي المرحلة الأولى التي يحاول فيها إطار DreamCraft3D إنشاء نموذج ثلاثي الأبعاد بطريقة تتوافق مع مظهر الصورة المرجعية في نفس المنظر المرجعي مع ضمان أقصى قدر من الاتساق حتى عند تغيير زوايا المنظر. لضمان أقصى قدر من الاتساق، يستخدم الإطار خسارة التمهيد لتشجيع عرض صور معقول للعرض المفردة التي يمكن أن يعرفها نموذج انتشار مسبق. بالإضافة إلى ذلك، لاستخدام التوجيه من الصورة المرجعية بشكل فعال، يعاقب الإطار على الخلافات الفوتومترية بين الصورة المرجعية والصور المُренَدة في المنظر المرجعي، ويتم حساب الخسارة فقط داخل منطقة الصورة في المنظر. بالإضافة إلى ذلك، لتشجيع قلة المشهد، ينفذ الإطار أيضا خسارة масك التي تُ렌َد الصورة.

التمهيد المعتمد على النتيجة ثلاثية الأبعاد

الأساليب المعتمدة على التمهيد ثلاثي الأبعاد باستخدام إشراف لكل منظر فقط هي غير محددة، وهو السبب الرئيسي الذي يجعله إطار DreamCraft3D يستخدم Zero-1-to-3، نموذج انتشار معتمد على المنظر، كنموذج تمهيد. بالإضافة إلى ذلك، يتم تدريب نموذج Zero-1-to-3 على مجموعة أكبر من بيانات ثلاثية الأبعاد، ويوفر وعيا أفضل بالمنظر.

تدريب المناظير التدريجي

استخلاص مناظير مجانية مباشرة في 360 درجة قد يؤدي إلى تشوهات هندسية أو عدم الاتساق، مثل ساق إضافية على الكرسي، وهو حدث قد يُعزى إلى الغموض المتأصل في صورة مرجعية واحدة. لمواجهة هذا العائق، يوسع إطار DreamCraft3D مناظير التدريب تدريجيا، ثم يتم نشر الهندسة المثبتة جيدا إلى 360 درجة.

تخفيض خطوة التمهيد

يستخدم إطار DreamCraft3D استراتيجية تخفيض خطوة التمهيد لتحقيق التطور الخشن إلى الدقيق في التمهيد ثلاثي الأبعاد. في بداية عملية التمهيد، يُمنح الأولوية لتحديد خطوة تمهيد أكبر، في محاولة لتوفير الهيكل العالمي. مع تقدم الإطار في عملية التدريب، يتم تخفيض نطاق العينة خطيا على مدار مئات من التكرارات. بفضل استراتيجية التخفيض، يتمكن الإطار من إنشاء هندسة عالمية معقولة خلال الخطوات الأولى من التمهيد قبل تحسين التفاصيل الهيكلية.

تحسين الهيكل التفصيلي

يُحسّن إطار DreamCraft3D تمثيل السطح الضمني في البداية لإنشاء هيكل خشن. ثم يستخدم هذا النتيجة، ويربطه بشبكة رباعية الأبعاد قابلة للتشكيل أو DMTet، لتهيئة تمثيل شبكة ثلاثية الأبعاد منسوجة، التي تفصل بين تعلم النسيج والهندسة. عندما ينتهي الإطار من التحسين الهيكلي، يتمكن النموذج من الحفاظ على تفاصيل عالية التردد من الصورة المرجعية من خلال تحسين النسيج فقط.

تمهيد النسيج باستخدام عينة التمهيد المعتمدة على النتيجة

على الرغم من أن مرحلة نحت الهندسة تُشدد على تعلم هندسة متسقة ومفصلة، إلا أنها قد تُبهم النسيج إلى حد ما، ويمكن أن يكون هذا نتيجة لاعتماد الإطار على نموذج تمهيد ثنائي البعد يعمل بدقة خشنة، مع قلة الحدة المقدمة من نموذج انتشار ثلاثي الأبعاد. بالإضافة إلى ذلك، تظهر مشاكل النسيج الشائعة، بما في ذلك التشبع الزائد وتنعيم النسيج، نتيجة لتوجيه الفئة الكبيرة.

يستخدم الإطار خسارة التمهيد المتغيرة لتعزيز واقعية النسيج. يُفضل استخدام نموذج انتشار مستقر خلال هذه المرحلة للحصول على تدرجات دقيقة. بالإضافة إلى ذلك، يُحافظ على شبكة رباعية الأبعاد الثابتة لتعزيز العرض الواقعي وتحسين هيكل الشبكة. خلال مرحلة التعلم، لا يستخدم إطار DreamCraft3D نموذج Zero-1-to-3، لأن له تأثير سلبي على جودة النسيج، وقد تؤدي هذه النسيج غير المتسقة إلى نتائج ثلاثية الأبعاد غريبة.

التجارب والنتائج

为了 تقييم أداء إطار DreamCraft3D، يتم比較ه مع الإطارات الحالية، وتحليل النتائج الكمية والنوعية.

المقارنة مع نماذج الأساس

为了 تقييم الأداء، يتم مقایسه إطار DreamCraft3D مع 5 إطارات حديثة، وهي DreamFusion، Magic3D، ProlificDreamer، Magic123، و Make-it-3D. يتكون اختبار البenchmark من 300 صورة مدخلة، وهي مزيج من الصور الحقيقية والصور المولدة بواسطة إطار Stable Diffusion. كل صورة في اختبار البenchmark لها نص مطلوب، وخرائط عمق متوقعة، و масك ألفا للخلفية. يتم الحصول على نص المطلوب للصور الحقيقية من إطار تعليق الصورة.

التحليل النوعي

تُقارن الصورة التالية إطار DreamCraft3D مع نماذج الأساس الحالية، ويمكن رؤية أن الإطارات التي تعتمد على نهج النص إلى ثلاثي الأبعاد غالبا ما تواجه مشاكل في الاتساق المتعدد.

من ناحية، لديك إطار ProlificDreamer الذي يقدم نسيج واقعي، لكنه يفتقر إلى توليد كائن ثلاثي الأبعاد معقول. الإطارات مثل إطار Make-it-3D التي تعتمد على أساليب الصورة إلى ثلاثي الأبعاد تتمكن من إنشاء مناظير أمامية عالية الجودة، لكنها لا تستطيع الحفاظ على هندسة مثالية للصور. الصور المولدة بواسطة إطار Magic123 تقدم تحسينات هندسية أفضل، لكنها تولد نسيج هندسي مشبع وملساء. بالمقارنة مع هذه الإطارات، يُحافظ إطار DreamCraft3D على الاتساق الدلالي، ويعزز أيضا من تنوع الخيال.

التحليل الكمي

في محاولة لإنشاء صور ثلاثية الأبعاد مقنعة لا فقط تشبه الصورة المرجعية المدخلة، ولكن أيضا تعبر عن الدلالات بشكل متسق من مختلف المناظير، يتم مقارنة تقنيات إطار DreamCraft3D بنماذج الأساس، وتقييمها باستخدام أربعة معايير: PSNR و LPIPS لقياس الإيمانية في المنظر المرجعي، والمسافة السياقية لتقييم الاتساق على مستوى البكسل، و CLIP لتقدير الاتساق الدلالي. تظهر النتائج في الصورة التالية.

الخلاصة

في هذا المقال، ناقشنا إطار DreamCraft3D، وهو pipeline هرمي لتوليد محتوى ثلاثي الأبعاد. يهدف إطار DreamCraft3D إلى الاستفادة من إطار توليد الصورة إلى الصورة المسبق لإنشاء صور ثنائية البعد عالية الجودة باستخدام نص مطلوب. هذا النهج يسمح لإطار DreamCraft3D بتعزيز قدرات نماذج انتشار ثنائية البعد الحالية لتمثيل الدلالات البصرية الموضحة في نص المطلوب مع الحفاظ على الحرية الإبداعية المقدمة من هذه الإطارات التوليدية للذكاء الاصطناعي ثنائية البعد. ثم يتم رفع الصورة المولدة إلى ثلاثية الأبعاد بمساعدة مراحل نحت الهندسة وتمهيد النسيج، وتطبيق تقنيات متخصصة في كل مرحلة بمساعدة تفكيك المشكلة. ونتيجة لذلك، يمكن لإطار DreamCraft3D إنتاج أصول ثلاثية الأبعاد عالية الدقة ومتسقة مع نسيج مقنع، يمكن رؤيتها من زوايا متعددة.

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.