الذكاء الاصطناعي

كيف تجعل الذكاء الاصطناعي التعرف على لغة الإشارة أكثر دقة من أي وقت مضى

تم النشر 23 كانون الأول، 2024

أليكس مكفارلاند

بدر الشريف، المؤلف الأول ومرشح الدكتوراه (جامعة فلوريدا أتلانتيك)

عندما نفكر في كسر حواجز الاتصال، فإننا غالبًا ما نركز على تطبيقات ترجمة اللغات ولكن بالنسبة لملايين الأشخاص الذين يستخدمون لغة الإشارة، فإن هذه الأدوات لم تنجح في سد الفجوة. ذلك أن لغة الإشارة لا تقتصر على حركات اليد ــ بل إنها شكل غني ومعقد من أشكال الاتصال يشمل تعبيرات الوجه ولغة الجسد، وكل عنصر يحمل معنى بالغ الأهمية.

وهذا ما يجعل الأمر صعبًا بشكل خاص: على عكس اللغات المنطوقة، التي تختلف بشكل أساسي في المفردات والقواعد النحوية، تختلف لغات الإشارة في جميع أنحاء العالم بشكل أساسي في كيفية نقل المعنى. على سبيل المثال، تتمتع لغة الإشارة الأمريكية (ASL) بقواعد نحوية وتركيب لغوي فريدين لا يتطابقان مع اللغة الإنجليزية المنطوقة.

ويعني هذا التعقيد أن إنشاء تكنولوجيا للتعرف على لغة الإشارة وترجمتها في الوقت الفعلي يتطلب فهم نظام اللغة بأكمله أثناء الحركة.

نهج جديد للاعتراف

وهنا قرر فريق من كلية الهندسة وعلوم الحاسوب بجامعة فلوريدا أتلانتيك (FAU) اتباع نهج جديد. فبدلاً من محاولة معالجة تعقيد لغة الإشارة دفعةً واحدة، ركزوا على إتقان خطوة أولى حاسمة: التعرّف على إيماءات لغة الإشارة الأمريكية بدقة غير مسبوقة من خلال الذكاء الاصطناعي.

فكر في الأمر كما لو كنت تعلم الكمبيوتر قراءة الكتابة اليدوية، ولكن في ثلاثة أبعاد وفي حركة. لقد بنى الفريق شيئًا رائعًا: مجموعة بيانات مكونة من 29,820 صورة ثابتة تُظهر إيماءات اليد بلغة الإشارة الأمريكية. لكنهم لم يجمعوا الصور فحسب. لقد وضعوا علامة على كل صورة بـ 21 نقطة رئيسية على اليد، مما أدى إلى إنشاء خريطة مفصلة لكيفية تحرك اليدين وتشكيل إشارات مختلفة.

يوضح الدكتور بدر الشريف، الذي قاد هذا البحث كمرشح لنيل درجة الدكتوراه: "لم يتم استكشاف هذه الطريقة في الأبحاث السابقة، مما يجعلها اتجاهًا جديدًا وواعدًا للتقدم المستقبلي".

تحطيم التكنولوجيا

دعونا نتعمق في مجموعة التقنيات التي تجعل نظام التعرف على لغة الإشارة هذا يعمل.

MediaPipe وYOLOv8

يحدث السحر من خلال التكامل السلس لأداتين قويتين: MediaPipe وYOLOv8. فكر في MediaPipe كمراقب خبير للأيدي - مترجم ماهر للغة الإشارة يمكنه تتبع كل حركة دقيقة للأصابع وموضع اليد. اختار فريق البحث MediaPipe خصيصًا لقدرته الاستثنائية على توفير تتبع دقيق لمعالم اليد، وتحديد 21 نقطة دقيقة في كل يد، كما ذكرنا أعلاه.

ولكن التتبع ليس كافياً – فنحن بحاجة إلى فهم ما تعنيه هذه الحركات. وهنا يأتي دور YOLOv8. YOLOv8 خبير في التعرف على الأنماط، حيث يأخذ كل تلك النقاط المتتبعة ويحدد الحرف أو الإشارة التي تمثلها. ويُظهِر البحث أنه عندما يعالج YOLOv8 صورة، فإنه يقسمها إلى شبكة S × S، حيث تكون كل خلية من الشبكة مسؤولة عن اكتشاف الأشياء (في هذه الحالة، إيماءات اليد) داخل حدودها.

الشريف وآخرون، فرانكلين أوبن (2024)

كيف يعمل النظام فعليا

إن العملية أكثر تعقيدًا مما قد تبدو للوهلة الأولى.

وهنا ما يحدث خلف الكواليس:

مرحلة اكتشاف اليد

عندما تقوم برسم إشارة، يقوم MediaPipe أولاً بتحديد يدك في الإطار ويرسم خريطة لتلك النقاط الرئيسية الـ 21. هذه ليست مجرد نقاط عشوائية - بل تتوافق مع مفاصل ومعالم محددة في يدك، من أطراف الأصابع إلى قاعدة راحة اليد.

التحليل المكاني

ثم يأخذ YOLOv8 هذه المعلومات ويحللها في الوقت الفعلي. لكل خلية شبكة في الصورة، يتنبأ بما يلي:

احتمال وجود إشارة اليد
الإحداثيات الدقيقة لموقع الإيماءة
درجة ثقة التنبؤ

تصنيف

يستخدم النظام ما يسمى "التنبؤ بالمربع المحدد" - تخيل رسم مستطيل مثالي حول إشارة يدك. يحسب YOLOv8 خمس قيم حاسمة لكل مربع: إحداثيات x وy للمركز والعرض والارتفاع ودرجة الثقة.

الشريف وآخرون، فرانكلين أوبن (2024)

لماذا يعمل هذا المزيج بشكل جيد؟

اكتشف فريق البحث أنه بدمج هذه التقنيات، ابتكروا شيئًا أعظم من مجموع أجزائه. وقد أسفر التتبع الدقيق لـ MediaPipe، مقترنًا بكشف الأجسام المتقدم لـ YOLOv8، عن نتائج دقيقة للغاية - فنحن نتحدث عن معدل دقة 98% ودرجة F99 1%.

ما يجعل هذا النظام مثيرًا للإعجاب بشكل خاص هو كيفية تعامل النظام مع تعقيد لغة الإشارة. قد تبدو بعض العلامات متشابهة جدًا للعين غير المدربة، لكن النظام يمكنه اكتشاف الاختلافات الدقيقة.

نتائج قياسية

عندما يطور الباحثون تقنية جديدة، فإن السؤال الكبير الذي يطرحونه دائمًا هو: "ما مدى نجاحها فعليًا؟" وبالنسبة لنظام التعرف على لغة الإشارة هذا، فإن النتائج مبهرة.

لقد أجرى فريق جامعة فلوريدا أتلانتيك اختبارات صارمة على نظامهم، وإليكم ما وجدوه:

يقوم النظام بتحديد العلامات بشكل صحيح بنسبة 98% من الوقت
يلتقط 98% من جميع العلامات الموضوعة أمامه
تصل نتيجة الأداء الإجمالي إلى 99% مثيرة للإعجاب

يوضح الشريف قائلاً: "توضح نتائج بحثنا قدرة نموذجنا على اكتشاف وتصنيف إيماءات لغة الإشارة الأمريكية بدقة مع وجود عدد قليل جدًا من الأخطاء".

يعمل النظام بشكل جيد في المواقف اليومية - الإضاءة المختلفة، ومواضع اليد المختلفة، وحتى مع وجود أشخاص مختلفين يستخدمون لغة الإشارة.

هذا الاختراق يُوسّع آفاقَ ما هو مُمكن في مجال التعرّف على لغة الإشارة. واجهت الأنظمة السابقة صعوبةً في الدقة، ولكن بدمج تقنية MediaPipe لتتبع اليد مع قدرات YOLOv8 للكشف، ابتكر فريق البحث إنجازًا مُتميّزًا.

يقول محمد إلياس، أحد المشاركين في الدراسة: "يعود نجاح هذا النموذج بشكل كبير إلى التكامل الدقيق لتعلم النقل، وإنشاء مجموعات البيانات بدقة، والضبط الدقيق". وقد أثمر هذا الاهتمام بالتفاصيل عن الأداء المتميز للنظام.

ماذا يعني هذا بالنسبة للتواصل

ويفتح نجاح هذا النظام إمكانيات مثيرة لجعل التواصل أكثر سهولة وشمولاً.

لا يقتصر الفريق على تمييز الحروف فحسب، بل يتمثل التحدي الكبير التالي في تعليم النظام فهم نطاق أوسع من أشكال وإيماءات اليد. تخيّل تلك اللحظات التي تبدو فيها الإشارات متطابقة تقريبًا - مثل حرفي "م" و"ن" في لغة الإشارة. يعمل الباحثون على مساعدة نظامهم على تمييز هذه الاختلافات الدقيقة بشكل أفضل. وكما يقول الدكتور الشريف: "الأهم من ذلك، أن نتائج هذه الدراسة لا تؤكد فقط على متانة النظام، بل أيضًا على إمكانية استخدامه في تطبيقات عملية آنية".

يركز الفريق الآن على:

جعل النظام يعمل بسلاسة على الأجهزة العادية
جعله سريعًا بدرجة كافية لإجراء محادثات في العالم الحقيقي
ضمان عمله بشكل موثوق في أي بيئة

تشارك عميدة كلية الهندسة وعلوم الكمبيوتر في جامعة فلوريدا أتلانتيك ستيلا باتالاما الرؤية الأكبر: "من خلال تحسين التعرف على لغة الإشارة الأمريكية، يساهم هذا العمل في إنشاء أدوات يمكنها تعزيز التواصل لمجتمع الصم وضعاف السمع".

تخيل دخول عيادة طبيب أو حضور محاضرة، حيث تُسدّ هذه التقنية فجوات التواصل فورًا. هذا هو الهدف الحقيقي هنا: جعل التفاعلات اليومية أكثر سلاسةً وطبيعيةً لجميع المعنيين. إنها ابتكار تقنية تُساعد الناس على التواصل. سواءً في التعليم أو الرعاية الصحية أو المحادثات اليومية، يُمثّل هذا النظام خطوةً نحو عالمٍ تتضاءل فيه حواجز التواصل باستمرار.

مواضيع ذات صلة:لغة البرمجة اللغوية العصبية

أليكس مكفارلاند

أليكس ماكفارلاند صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في مجال الذكاء الاصطناعي. لقد تعاون مع العديد من الشركات الناشئة والمنشورات في مجال الذكاء الاصطناعي في جميع أنحاء العالم.