الذكاء الاصطناعي
كيف تعمل إعادة بناء 3D من وجهة نظر واحدة؟

تقليدًا ، أظهرت النماذج التي تعتمد على شبكات العصبية التلافيفية في إعادة بناء الكائنات من وجهة نظر واحدة أداءً متميزًا في مهام الإعادة. في السنوات الأخيرة ، ظهرت إعادة بناء 3D من وجهة نظر واحدة كموضوع بحث شائع في مجتمع الذكاء الاصطناعي. بغض النظر عن المنهجية المحددة المستخدمة ، جميع نماذج إعادة بناء 3D من وجهة نظر واحدة تشترك في النهج الشائع لدمج شبكة التشفير-الفك التشفير في إطارها. تقوم هذه الشبكة بأداء استدلال معقد حول الهيكل ثلاثي الأبعاد في مساحة الإخراج.
في هذه المقالة ، سنستكشف كيف تعمل إعادة بناء 3D من وجهة نظر واحدة في الوقت الفعلي والمهام الحالية التي تواجهها هذه الإطارات في مهام الإعادة. سنناقش المكونات الرئيسية والأساليب المختلفة التي تستخدمها نماذج إعادة بناء 3D من وجهة نظر واحدة وستقدم استراتيجيات يمكن أن تحسن أداء هذه الإطارات. بالإضافة إلى ذلك ، سنحلل النتائج التي أنتجها الإطارات التي تستخدم أساليب التشفير-الفك التشفير. دعونا نبدأ.
إعادة بناء كائن 3D من وجهة نظر واحدة
تتضمن إعادة بناء كائن 3D من وجهة نظر واحدة إنشاء نموذج ثلاثي الأبعاد لكائن من وجهة نظر واحدة ، أو بعبارات أبسط ، من صورة واحدة. على سبيل المثال ، الاستدلال على هيكل 3D لكائن مثل الدراجة النارية من صورة هو عملية معقدة. إنه يجمع بين معرفة ترتيب الهيكل للأجزاء والخصائص البصرية منخفضة المستوى والمعلومات الدلالية عالية المستوى. هذا الطيف يشمل两个 جانب رئيسي: إعادة البناء و التعرف. عملية إعادة البناء تكتشف هيكل 3D للصورة الإدخال باستخدام أدلة مثل الإضاءة والنسيج والآثار البصرية. في المقابل ، عملية التعرف تصنف الصورة الإدخال وستحصل على نموذج 3D مناسب من قاعدة البيانات.
نماذج إعادة بناء كائن 3D من وجهة نظر واحدة الحالية قد تختلف في البنية ، ولكنها موحدة من خلال تضمين هيكل التشفير-الفك التشفير في إطارها. في هذا الهيكل ، يخفر التشفير الصورة الإدخال إلى تمثيل متأصل ، بينما يقوم الفك التشفير بأداء استدلال معقد حول هيكل 3D لمساحة الإخراج. لتنفيذ هذه المهمة بنجاح ، يجب على الشبكة دمج المعلومات منخفضة المستوى وعالية المستوى. بالإضافة إلى ذلك ، تعتمد العديد من أساليب التشفير-الفك التشفير الحديثة على التعرف لإعادة بناء 3D من وجهة نظر واحدة ، مما يحد من قدرات إعادة البناء. علاوة على ذلك ، يمكن أن يتجاوز أداء الشبكات العصبية التلافيفية الحديثة في إعادة بناء كائن 3D من وجهة نظر واحدة بدون استدلال صريح لهيكل الكائن 3D. ومع ذلك ، يتم التأثير على سيادة التعرف في الشبكات العصبية التلافيفية في مهام إعادة بناء الكائن من وجهة نظر واحدة من خلال إجراءات تجريبية مختلفة ، بما في ذلك بروتوكولات التقييم وتركيبة قاعدة البيانات. هذه العوامل تمكن الإطار من العثور على حل بديل ، في هذه الحالة ، التعرف على الصور.
تقليدًا ، تقترب إطارات إعادة بناء كائن 3D من وجهة نظر واحدة من مهام إعادة البناء باستخدام نهج الشكل من الظل ، مع خدمة النسيج والتفريغ كأدلة غير عادية لمهام إعادة البناء. منذ أن تستخدم هذه التقنيات دلالة عمق واحدة ، فهي قادرة على تقديم استدلال حول الأجزاء المرئية من السطح. بالإضافة إلى ذلك ، تستخدم العديد من إطارات إعادة بناء 3D من وجهة نظر واحدة أدلة متعددة جنبًا إلى جنب مع المعرفة الهيكلية لتقييم العمق من صورة أحادية العين ، وهو مزيج يسمح لهذه الإطارات بتوقع عمق السطوح المرئية. إطارات تقييم العمق الحديثة تستخدم هيكل الشبكات العصبية التلافيفية لاستخراج العمق في صورة أحادية العين.
然而 ، من أجل إعادة بناء 3D من وجهة نظر واحدة فعالة ، لا يجب على النماذج أن تكتشف فقط هيكل 3D للأجسام المرئية في الصورة ، ولكنها أيضًا تحتاج إلى تخيل الأجزاء غير المرئية في الصورة باستخدام بعض الأسباب المتعلمة من البيانات. لتحقيق ذلك ، تستخدم غالبية النماذج حاليًا هيكل الشبكات العصبية التلافيفية المُدرَّبة لتحويل الصور ثنائية الأبعاد إلى أشكال ثلاثية الأبعاد باستخدام إشراف 3D مباشر ، بينما تستخدم إطارات أخرى تمثيلات شبكية للشكل 3D ، واستخدمت تمثيلًا متأصلاً لتح动生成 3D. بعض الإطارات تقسم أيضًا مساحة الإخراج بشكل هرمي لتعزيز الكفاءة الحسابية والذاكرة ، مما يسمح للنموذج بتوقع أشكال 3D عالية الدقة. البحث الحديث يركز على استخدام أشكال أضعف للإشراف لتنبؤات الشكل 3D من وجهة نظر واحدة باستخدام الشبكات العصبية التلافيفية ، سواء بمقارنة الأشكال المتوقعة والتنبؤات الأساسية لتدريب انحدار الأشكال أو استخدام إشارات تعلم متعددة لتدريب الأشكال المتوسطة التي تساعد النموذج على توقع التشوهات. سبب آخر وراء التقدم المحدود في إعادة بناء 3D من وجهة نظر واحدة هو كمية البيانات المتاحة المحدودة للهدف.
متحركًا ، إعادة بناء 3D من وجهة نظر واحدة هي مهمة معقدة لأنها لا تفسر فقط البيانات البصرية هندسيًا ، ولكن أيضًا دلاليًا. على الرغم من أنها لا تختلف تمامًا ، إلا أنها تمتد على طيفين مختلفين من إعادة البناء الهندسي إلى التعرف الدلالي. مهام إعادة البناء تتطلب استدلالًا نقطيًا لهيكل 3D للكائن في الصورة. مهام إعادة البناء لا تتطلب فهمًا دلاليًا لمحتوى الصورة ، ويمكن تحقيقه باستخدام أدلة صورة منخفضة المستوى ، بما في ذلك النسيج واللون والإضاءة والظلال والمنظور والتركيز. التعرف ، من ناحية أخرى ، هو حالة متطرفة لاستخدام семантиات الصورة لأن مهام التعرف تستخدم كائنات كاملة وتقوم بتصنيف الكائن في الإدخال ، وستحصل على الشكل المقابل من قاعدة البيانات. على الرغم من أن مهام التعرف يمكن أن توفر استدلالًا قويًا حول الأجزاء غير المرئية من الكائن في الصور ، فإن الحل الدلالي ممكن فقط إذا كان يمكن تفسيره بواسطة كائن موجود في قاعدة البيانات.
على الرغم من أن مهام التعرف وإعادة البناء قد تختلف عن بعضها البعض بشكل كبير ، إلا أنها تميل إلى تجاهل المعلومات القيمة الموجودة في الصورة الإدخال. من المستحسن استخدام هذه المهام معًا لتحقيق أفضل النتائج ، والأشكال 3D الدقيقة لتحديث الكائن ، أي لمهام إعادة بناء 3D من وجهة نظر واحدة المثالية ، يجب على النموذج توظيف المعرفة الهيكلية وأدلة الصورة منخفضة المستوى والفهم الدلالي العالي للكائن.
إعادة بناء 3D من وجهة نظر واحدة: الإعداد التقليدي
لشرح الإعداد التقليدي وتحليل إعداد إطار إعادة بناء 3D من وجهة نظر واحدة ، سنستخدم إعدادًا قياسيًا لتقييم الشكل 3D باستخدام وجهة نظر واحدة أو صورة من الكائن. قاعدة البيانات المستخدمة لأغراض التدريب هي قاعدة بيانات ShapeNet ، وتقيم الأداء عبر 13 فئة مما يسمح للنموذج بفهم كيف يحدد عدد الفئات في قاعدة البيانات أداء تقدير الشكل للنموذج.
تستخدم غالبية الشبكات العصبية التلافيفية الحديثة صورة واحدة لتنبؤ بنماذج 3D عالية الدقة ، ويمكن تصنيف هذه الإطارات على أساس تمثيل الإخراج: خرائط العمق ، وسحب النقاط ، وشبكات الفوكسيل. يستخدم النموذج OGN أو شبكات توليد الأوكتري كأسلوب تمثيلي ، وهو الذي أظهر أداءً أفضل تاريخيًا من نهج شبكة الفوكسيل ، و/أو يمكنه تغطية تمثيلات الإخراج السائدة. في مقابل الأساليب الحالية التي تستخدم تمثيلات الإخراج ، يسمح نهج OGN للنموذج بتوقع أشكال عالية الدقة ، ويتضمن استخدام الأوكتري لتمثيل الفضاء المحتل بفعالية.
الأسس
لتحليل النتائج ، يستخدم النموذج قاعدتين تعتبران المشكلة بمجرد مهمة تعرف. القاعدة الأولى تستند إلى التجميع ، بينما تقوم القاعدة الثانية بتحميل قاعدة البيانات.
التجميع
في قاعدة التجميع ، يستخدم النموذج خوارزمية K-Means لتجميع أو تجميع الأشكال التدريبية في فئات فرعية K ، ويعمل الخوارزمية على 32*32*32 فوكسيلات مسطحة إلى متجه. بعد تحديد تعيينات المجموعة ، ينتقل النموذج إلى العمل مع نماذج ذات دقة أعلى. ثم ي计算 النموذج الشكل المتوسط داخل كل مجموعة ، ويعيد تحديد الشكل المتوسط حيث يتم حساب القيمة المثلى عن طريق تحقيق متوسط IoU أو تقاطع الاتحاد على النماذج. منذ أن يعرف النموذج العلاقة بين الأشكال 3D والصور داخل البيانات التدريبية ، يمكن للنموذج مطابقة الصورة مع مجموعةها المقابلة.
التحميل
تتعلم قاعدة التحميل لتضمين الأشكال والصور في فضاء مشترك. يعتبر النموذج الشبهة الزوجية لأشكال 3D في مجموعة التدريب لإنشاء فضاء التضمين. ينجز ذلك باستخدام نهج التوسيع المتعدد الأبعاد مع خريطة سامون لضغط كل صف في المصفوفة إلى واصف منخفض البعد. بالإضافة إلى ذلك ، لتحديد الشبهة بين شكلين عشوائيين ، يستخدم النموذج واصف مجال الضوء. بالإضافة إلى ذلك ، يدرّب النموذج شبكة عصبية تلافيفية لتحويل الصور إلى واصف لتضمين الصور في الفضاء.
التحليل
تتبع نماذج إعادة بناء 3D من وجهة نظر واحدة استراتيجيات مختلفة ، ونتيجة لذلك ، تتفوق على نماذج أخرى في بعض المجالات بينما تفشل في أخرى. لمقارنة الإطارات المختلفة ، وتقييم أدائها ، لدينا معايير مختلفة ، واحدة منها هو متوسط درجة IoU.

كما هو موضح في الصورة أعلاه ، على الرغم من اختلاف البنية ، فإن نماذج إعادة بناء 3D الحالية تقدم أداءً متشابهًا تقريبًا. ومع ذلك ، من المثير للاهتمام أن نلاحظ أن إطار التحميل ، على الرغم من كونه أسلوبًا نقيًا للتعرف ، يتفوق على نماذج أخرى فيما يتعلق بمتوسط ومتوسط درجات IoU. تقدم إطار التجميع نتائج قوية ، ويتفوق على إطارات AtlasNet و OGN و Matryoshka. ومع ذلك ، فإن أكثر نتيجة غير متوقعة من هذه التحليلات هي أن Oracle NN يتفوق على جميع الأساليب الأخرى ، على الرغم من استخدامه هيكلًا مثاليًا للتحميل. على الرغم من أن حساب متوسط درجة IoU يساعد في المقارنة ، إلا أنه لا يوفر صورة كاملة لأن هناك تباينًا كبيرًا في النتائج بغض النظر عن النموذج.
معايير التقييم الشائعة
نماذج إعادة بناء 3D من وجهة نظر واحدة غالبًا ما تستخدم معايير تقييم مختلفة لتحليل أدائها على مجموعة واسعة من المهام. التالي بعض معايير التقييم الشائعة.
تقاطع الاتحاد
متوسط تقاطع الاتحاد هو معيار شائع يستخدم كمعيار كمي لتحديد أداء نماذج إعادة بناء 3D من وجهة نظر واحدة. على الرغم من أن IoU يوفر بعض الضوء على أداء النموذج ، إلا أنه لا يُعتبر المعيار الوحيد لتقييم الأسلوب ، لأنه يُظهر جودة الشكل المتوقع بواسطة النموذج فقط إذا كانت القيم كافية مع اختلاف كبير بين الدرجات المنخفضة والمتوسطة لشكلين معينين.
مسافة شامفر
مسافة شامفر محددة على سحب النقاط ، وقد تم تصميمها بحيث يمكن تطبيقها على تمثيلات 3D المختلفة بشكل مرضٍ. ومع ذلك ، فإن معيار تقييم مسافة شامفر حساس للغاية للمخالفات ، مما يجعله مقياسًا مشكلاً لتقييم أداء النموذج ، حيث تحدد مسافة المخالفة عن الشكل المرجعي جودة التوليد.
درجة F
درجة F هي معيار تقييم شائع يستخدمه معظم نماذج إعادة بناء 3D متعددة المناظير. يتم تعريف درجة F على أنها المتوسط التوافقي بين الاستدلال والدقة ، وتقيم المسافة بين أسطح الأجسام بشكل صريح. تعتبر الدقة نسبة النقاط المحسنة التي تقع ضمن مسافة محددة من الحقيقة الأرضية ، لقياس دقة التوليد. الاستدلال ، من ناحية أخرى ، يعتبر نسبة النقاط على الحقيقة الأرضية التي تقع ضمن مسافة محددة من التوليد ، لقياس اكتمال التوليد. بالإضافة إلى ذلك ، يمكن للمطورين التحكم في صرامة معيار درجة F عن طريق تغيير عتبة المسافة.
التحليل لكل فئة
لا يمكن أن يكون التشابه في الأداء الذي تقدمه الإطارات السابقة نتيجة لتشغيل الأساليب على مجموعة فرعية مختلفة من الفئات ، والشكل التالي يظهر الأداء النسبي الثابت عبر الفئات المختلفة ، مع تحقيق قاعدة Oracle NN أفضل نتيجة ، وجميع الأساليب تظهر تباينًا كبيرًا للفئات.

علاوة على ذلك ، قد يؤدي عدد العينات التدريبية المتاحة لفئة ما إلى افتراض أنه يؤثر على أداء الفئة. ومع ذلك ، كما هو موضح في الشكل التالي ، لا يؤثر عدد العينات المتاحة لفئة على أداء الفئة ، ولا يرتبط عدد العينات في الفئة ومتوسط درجة IoU.

التحليل النوعي
تُؤيد النتائج الكمية المذكورة في القسم السابق بالنتائج النوعية كما هو موضح في الصورة التالية.

لغالبية الفئات ، لا توجد فرق ملحوظة بين قاعدة التجميع والتنبؤات التي قدمها الأساليب القائمة على الفك التشفير. يفشل أسلوب التجميع في تقديم نتائج عندما يكون المسافة بين العينة وشكل المجموعة المتوسطة عالية ، أو في الحالات التي لا يمكن أن يصف فيها الشكل المتوسط المجموعة جيدًا. من ناحية أخرى ، تقدم الإطارات التي تستخدم أساليب الفك التشفير وهيكل التحميل نتائج دقيقة وجذابة لأنها قادرة على تضمين التفاصيل الدقيقة في النموذج 3D المولَّد.
إعادة بناء 3D من وجهة نظر واحدة: الأفكار النهائية
في هذه المقالة ، تحدثنا عن إعادة بناء كائن 3D من وجهة نظر واحدة ، وكيف تعمل ، وتحدثنا عن قاعدتين: التحميل والتصنيف ، مع تفوق قاعدة التحميل على نماذج الدولة الحالية. أخيرًا ، على الرغم من أن إعادة بناء 3D من وجهة نظر واحدة هي واحدة من المواضيع الأكثر إثارة واكتشافًا في مجتمع الذكاء الاصطناعي ، وتقدم تقدمًا كبيرًا في السنوات القليلة الماضية ، فإن إعادة بناء 3D من وجهة نظر واحدة بعيدة عن الكمال مع عقبات كبيرة يجب التغلب عليها في السنوات القادمة.












