الذكاء الاصطناعي
تقييم نماذج اللغات الكبيرة: دليل فني

لقد انتشرت نماذج اللغات الكبيرة (LLMs) مثل GPT-4 وClaude وLLaMA بشكل كبير. بفضل قدرتها على إنشاء نص يشبه الإنسان بشكل مثير للإعجاب، يتم الآن استخدام أنظمة الذكاء الاصطناعي هذه في كل شيء بدءًا من إنشاء المحتوى وحتى روبوتات الدردشة لخدمة العملاء.
ولكن كيف نعرف ما إذا كانت هذه النماذج جيدة بالفعل؟ مع الإعلان باستمرار عن برامج LLM جديدة، وكلها تدعي أنها أكبر وأفضل، كيف يمكننا تقييم ومقارنة أدائها؟
في هذا الدليل الشامل، سنستكشف أفضل تقنيات تقييم نماذج اللغات الكبيرة. سنتناول إيجابيات وسلبيات كل نهج، وأفضل وقت لتطبيقه، وكيف يمكنك الاستفادة منه في اختبارات ماجستير الحقوق الخاصة بك.
مقاييس مهمة محددة
إحدى الطرق الأكثر مباشرة لتقييم LLM هي اختبارها على مهام البرمجة اللغوية العصبية (NLP) باستخدام مقاييس موحدة. على سبيل المثال:
تلخيص
بالنسبة لمهام التلخيص، المقاييس مثل ROUGE (الدراسة الموجهة نحو الاستدعاء لتقييم التسجيل) شائعة الاستخدام. يقارن ROUGE الملخص الذي تم إنشاؤه بواسطة النموذج بملخص "مرجعي" مكتوب بواسطة الإنسان، مع حساب تداخل الكلمات أو العبارات.
هناك العديد من نكهات ROUGE، ولكل منها مميزاتها وعيوبها:
- روج-ن: يقارن تداخل n-gram (تسلسلات الكلمات N). روج-1 يستخدم unigrams (كلمات مفردة)، روج-2 يستخدم الصور الكبيرة، وما إلى ذلك. وتتمثل الميزة في أنه يلتقط ترتيب الكلمات، ولكنه قد يكون صارمًا للغاية.
- روج-L: بناءً على أطول تسلسل مشترك (LCS). أكثر مرونة في ترتيب الكلمات ولكنه يركز على النقاط الرئيسية.
- روج-W: أوزان LCS تتطابق مع أهميتها. محاولات لتحسين ROUGE-L.
بشكل عام، مقاييس ROUGE سريعة وتلقائية، وتُناسب ملخصات أنظمة التصنيف بشكل جيد. مع ذلك، فهي لا تقيس الترابط أو المعنى. قد يحصل الملخص على درجة عالية في ROUGE، ولكنه يبقى غير منطقي.
صيغة ROUGE-N هي:
ROUGE-N=∑∈{الملخصات المرجعية}∑∑ �∈{الملخصات المرجعية}∑
أين:
Count_{match}(gram_n)هو عدد n-grams في كل من الملخص الذي تم إنشاؤه والمرجع.Count(gram_n)هو عدد n-grams في الملخص المرجعي.
على سبيل المثال، بالنسبة لـ ROUGE-1 (الأحادية):
- ملخص تم إنشاؤه: "جلست القطة."
- ملخص مرجعي: "جلست القطة على السجادة."
- unigrams متداخلة: "The"، "cat"، "sat"
- درجة ROUGE-1 = 3/5 = 0.6
روج-L يستخدم أطول تسلسل فرعي مشترك (LCS). وهو أكثر مرونة في ترتيب الكلمات. الصيغة هي:
ROUGE-L=������(مولد،مرجع)الحد الأقصى(الطول(مولد)،الطول(مرجع))
في LCS هو طول أطول متتالية مشتركة.
روج-W أوزان مباريات LCS. إنه يأخذ في الاعتبار أهمية كل مباراة في LCS.
خدمات ترجمة
بالنسبة لمهام الترجمة الآلية، الزرقاء (البديل التقييمي ثنائي اللغة) هو مقياس شائع. يقيس BLEU التشابه بين ترجمة مخرجات النموذج والترجمات البشرية الاحترافية، باستخدام دقة n-gram وعقوبة الإيجاز.
الجوانب الرئيسية لكيفية عمل BLEU:
- يقارن تداخلات n-grams لـ n حتى 4 (unigrams، bigrams، trigrams، 4-grams).
- حساب المتوسط الهندسي لدقة n-gram.
- تطبق عقوبة الإيجاز إذا كانت الترجمة أقصر بكثير من المرجع.
- يتراوح بشكل عام من 0 إلى 1، حيث يكون 1 مطابقًا تمامًا للمرجع.
يرتبط BLEU بشكل جيد بالأحكام البشرية لجودة الترجمة. ولكن لا يزال لديها قيود:
- يقيس الدقة فقط مقابل المراجع، وليس الاسترجاع أو F1.
- يواجه صعوبة في الترجمات الإبداعية باستخدام صيغ مختلفة.
- عرضة "للتلاعب" بحيل الترجمة.
تحاول مقاييس ترجمة أخرى، مثل METEOR وTER، معالجة نقاط ضعف BLEU. لكن بشكل عام، لا تُقيّم المقاييس التلقائية جودة الترجمة بشكل كامل.
مهام اخرى
بالإضافة إلى التلخيص والترجمة، يمكن استخدام مقاييس مثل F1 والدقة وMSE والمزيد لتقييم أداء LLM في مهام مثل:
- تصنيف النص
- استخراج المعلومات
- الإجابة على السؤال
- تحليل المشاعر
- كشف الأخطاء النحوية
تتمثل ميزة المقاييس الخاصة بالمهمة في إمكانية أتمتة التقييم بالكامل باستخدام مجموعات بيانات موحدة مثل فرقة لضمان الجودة و GLUE معيار لمجموعة من المهام. يمكن بسهولة تتبع النتائج مع مرور الوقت مع تحسن النماذج.
مع ذلك، تُركّز هذه المقاييس على نطاق ضيق، ولا يمكنها قياس جودة اللغة بشكل عام. قد يفشل طلاب الماجستير في القانون الذين يُحققون أداءً جيدًا في مقاييس مهمة واحدة في إنتاج نص متماسك ومنطقي ومفيد بشكل عام.
معايير البحث
إحدى الطرق الشائعة لتقييم ماجستير إدارة الأعمال هي اختبارها وفقًا لمعايير بحثية واسعة النطاق تغطي موضوعات ومهارات متنوعة. تسمح هذه المعايير باختبار النماذج بسرعة على نطاق واسع.
تتضمن بعض المعايير المعروفة ما يلي:
- صمغ ممتاز - مجموعة صعبة من 11 مهمة لغوية متنوعة.
- GLUE - مجموعة من 9 مهام فهم الجملة. أبسط من SuperGLUE.
- MMLU - 57 مهمة مختلفة في مجالات العلوم والتكنولوجيا والهندسة والرياضيات والعلوم الاجتماعية والإنسانية. يختبر المعرفة والقدرة على التفكير.
- تحدي مخطط فينوغراد - مشاكل حل الضمائر التي تتطلب المنطق السليم.
- ARC - تحدي مهام التفكير باللغة الطبيعية.
- هيلاسواج - المنطق السليم حول المواقف.
- بيكا - أسئلة الفيزياء التي تتطلب الرسوم البيانية.
من خلال التقييم بناءً على معايير مثل هذه، يمكن للباحثين اختبار النماذج بسرعة حول قدرتها على أداء الرياضيات والمنطق والاستدلال والترميز والفطرة السليمة وغير ذلك الكثير. تصبح النسبة المئوية للأسئلة التي تم الرد عليها بشكل صحيح مقياسًا مرجعيًا لمقارنة النماذج.
ومع ذلك، هناك مشكلة رئيسية تتعلق بالمعايير تلوث بيانات التدريب. تحتوي العديد من المعايير على أمثلة سبق أن شاهدتها النماذج أثناء التدريب المسبق. وهذا يتيح للنماذج "حفظإجابات على أسئلة محددة وأداء أفضل من قدراتهم الحقيقية.
هناك محاولات "تطهير"المعايير عن طريق إزالة الأمثلة المتداخلة. ولكن من الصعب القيام بذلك بشكل شامل، خاصة عندما تكون النماذج قد شاهدت نسخًا معاد صياغتها أو مترجمة من الأسئلة.
لذلك، في حين أن المعايير يمكن أن تختبر مجموعة واسعة من المهارات بكفاءة، إلا أنها لا تستطيع قياس قدرات التفكير المنطقي الحقيقية بشكل موثوق أو تجنب تضخيم الدرجات بسبب التلوث. هناك حاجة إلى أساليب التقييم التكميلية.
ماجستير في التقييم الذاتي
من الطرق المثيرة للاهتمام أن يُقيّم طالب ماجستير في القانون مخرجات طالب ماجستير آخر. الفكرة هي الاستفادة من مفهوم المهمة "الأسهل":
- قد يكون إنتاج مخرجات عالية الجودة أمرًا صعبًا بالنسبة إلى LLM.
- لكن تحديد ما إذا كان أحد المخرجات عالي الجودة يمكن أن يكون مهمة أسهل.
على سبيل المثال، في حين أن LLM قد يواجه صعوبة في إنشاء فقرة واقعية ومتماسكة من الصفر، إلا أنه يمكن بسهولة الحكم على ما إذا كانت فقرة معينة منطقية وتناسب السياق.
وبالتالي فإن العملية هي:
- قم بتمرير موجه الإدخال إلى LLM الأول لإنشاء المخرجات.
- تمرير موجه الإدخال + المخرجات الناتجة إلى LLM "المقيم" الثاني.
- اطرح سؤالاً على المُقيم LLM لتقييم جودة المخرجات. على سبيل المثال، "هل الاستجابة المذكورة أعلاه منطقية؟"
هذا النهج سريع التنفيذ ويقوم بأتمتة تقييم LLM. ولكن هناك بعض التحديات:
- يعتمد الأداء بشكل كبير على اختيار المقيم LLM والصياغة السريعة.
- مقيدة بصعوبة المهمة الأصلية. لا يزال تقييم الاستدلال المعقد أمرًا صعبًا بالنسبة لحاملي ماجستير القانون.
- يمكن أن يكون مكلفًا من الناحية الحسابية في حالة استخدام LLMs المستندة إلى واجهة برمجة التطبيقات (API).
يعد التقييم الذاتي واعدًا بشكل خاص لتقييم المعلومات المستردة في RAG (جيل الاسترجاع المعزز) أنظمة. يمكن التحقق من صحة استعلامات LLM الإضافية إذا تم استخدام السياق المسترد بشكل مناسب.
بشكل عام، يظهر التقييم الذاتي إمكانات ولكنه يتطلب العناية في التنفيذ. إنه يكمل التقييم البشري، بدلاً من أن يحل محله.
التقييم البشري
نظرًا للقيود المفروضة على المقاييس والمعايير الآلية، لا يزال التقييم البشري هو المعيار الذهبي لتقييم جودة LLM بدقة.
يمكن للخبراء تقديم تقييمات نوعية مفصلة عن:
- الدقة وصحة الوقائع
- المنطق والعقل والحس السليم
- التماسك والاتساق وسهولة القراءة
- ملاءمة اللهجة والأسلوب والصوت
- النحوية والطلاقة
- الإبداع والفروق الدقيقة
لتقييم نموذج ما، يتم إعطاء البشر مجموعة من مطالبات الإدخال والاستجابات التي تم إنشاؤها بواسطة LLM. ويقومون بتقييم جودة الاستجابات، وغالبًا ما يستخدمون مقاييس التقييم ونماذج التقييم.
الجانب السلبي هو أن التقييم البشري اليدوي مكلف، وبطيء، ويصعب قياسه. ويتطلب أيضًا تطوير معايير موحدة وتدريب المقيمين لتطبيقها بشكل متسق.
اكتشف بعض الباحثين طرقًا مبتكرة لتمويل تقييمات LLM البشرية باستخدام أنظمة على طراز البطولة حيث يراهن الأشخاص على المطابقات بين النماذج ويحكمون عليها. لكن التغطية لا تزال محدودة مقارنة بالتقييمات اليدوية الكاملة.
بالنسبة لحالات الاستخدام التجاري حيث تكون الجودة أكثر أهمية من الحجم الخام، يظل الاختبار البشري الخبير هو المعيار الذهبي على الرغم من تكاليفه. وهذا ينطبق بشكل خاص على التطبيقات الأكثر خطورة للماجستير في القانون.
خاتمة
يتطلب تقييم نماذج اللغات الكبيرة بشكل شامل استخدام مجموعة أدوات متنوعة من الأساليب التكميلية، بدلاً من الاعتماد على أي تقنية واحدة.
من خلال الجمع بين الأساليب الآلية للسرعة والإشراف البشري الصارم للتأكد من الدقة، يمكننا تطوير منهجيات اختبار جديرة بالثقة لنماذج اللغات الكبيرة. ومن خلال التقييم القوي، يمكننا إطلاق العنان للإمكانات الهائلة لخريجي ماجستير إدارة الأعمال (LLM) مع إدارة مخاطرهم بطريقة مسؤولة.












