زاوية أندرسون
الكود البشري من عام 2020 يسحق وكلاء Vibe-Code في الاختبارات الوكيلة

تم اختبار ChatGPT وأدوات ترميز الاهتزاز الأخرى في ما يقرب من 40,000 ألف مباراة - وخسرت أمام أكواد طلاب الدراسات العليا المكتوبة قبل اختراع نماذج اللغة الكبيرة.
في دراسة جديدة من المملكة المتحدة، قام الباحثون بمقارنة العوامل المبرمجة بواسطة البشر مع مرمز بالاهتزاز تم تطوير الوكلاء باستخدام أحدث نماذج اللغة الكبيرة (ماجستير)، مثل ChatGPT-5 وClaude، ووجدنا أن الوكلاء الذين تم إنشاؤهم دون مساعدة الذكاء الاصطناعي يتغلبون بسهولة شديدة على الإصدارات التي يسهلها الذكاء الاصطناعي.
تم إنشاء كلا المجموعتين من الوكلاء من قِبل أجيال مختلفة من طلاب مختبر الذكاء الاصطناعي في المعهد الفيدرالي السويسري للتكنولوجيا في لوزان. طُوّرت الوكلاء غير المرتبطة بالذكاء الاصطناعي كجزء من المقررات الدراسية عام ٢٠٢٠، أي قبل عامين من إطلاق ChatGPT وانطلاق ثورة ماجستير القانون، بينما أنشأ الطلاب الحاليون الوكلاء الجدد، بمساعدة أحدث وأفضل برامج ماجستير القانون المتاحة.
حتى مع وجود لعبة مزورة، لم تتمكن الحلول المشفرة بالاهتزازات من الفوز، وتم الاحتفاظ بالمراكز الخمسة الأولى باستمرار من قبل الوكلاء "الخام"، مع هزيمة غالبية وكلاء LLM (33 من 40) بسهولة من قبل وكلاء خط الأساس "البسيطين للغاية"، عبر 38,304 تحديات في بطولة، عبر عدد كبير من المتغيرات والظروف.
تقول الورقة:
"يُظهر عملنا أنه في حين أن برامج إدارة التعلم الحديثة قادرة على توليد كود يعمل (أي خالٍ من الأخطاء النحوية)، فإن الحل الناتج لا ينافس الحلول المصممة من قبل البشر في أبعاد مثل التخطيط الاستراتيجي أو التحسين أو المنافسة بين الوكلاء المتعددين.
'وبالتالي، فإن هذا العمل يسلط الضوء على هذه الحدود الجديدة في توليد التعليمات البرمجية، ويهدف إلى تسهيل تطوير المعايير ومجموعات البيانات وخطوط الأساس مفتوحة المصدر التي تؤكد على توليف التعليمات البرمجية القائمة على التفكير.'
كان التحدي الذي تم تصميمه هو المشاركة بشكل إبداعي في المزادات، عبر مجموعة متنوعة من الاستراتيجيات، وترتيب الخدمات اللوجستية لتسليم العناصر التي تم الفوز بها إلى الفائزين.
يشير المؤلفون إلى أن برامج ماجستير القانون مُنحت عددًا من المزايا، مثل التدخل في برمجياتها لتحسين أدائها - وهي ميزة لم تكن متاحة لبرنامج عام ٢٠٢٠. ومع ذلك، حتى مع تزويدها ببرمجيات تصحيحية كان من شأنها تحسين نتائجها بشكل حاسم، لم تتمكن برامج ماجستير القانون من قبولها أو استخدامها.
"في معيارنا، حتى عندما نعرض حلاً جيدًا في السياق، لا يزال برنامج الماجستير في القانون غير قادر على الاستفادة منه.
"وتثير هذه النتيجة أيضًا أسئلة بحثية مستقبلية مثيرة للاهتمام حول حدود التعلم في السياق وحل المشكلات المعزز بالاسترجاع في السيناريوهات المعقدة."
تم استخدام LLMs في الاختبار تفكير GPT-5, الجوزاء 2.5 برو, كلود أوبس 4.1، و ديب سيك R1*.
استخدم ورقة جديدة بعنوان هل يستطيع فايب كودينج التفوق على طلاب علوم الكمبيوتر؟ مسابقة ماجستير في القانون مقابل البرمجة البشرية حول التخطيط الاستراتيجي الموجه نحو السوق، ويأتي من مؤلف واحد في جامعة ساوثهامبتون، وآخر في جامعة أكسفورد ومعهد آلان تورينج. ويذكر المؤلفون أن المعيار سيكون تم إصداره قريبا.
الأسلوب
ويشير المؤلفون إلى أن الاختبارات التقليدية في هذا المجال تركز على التحديات ذات الحلول الثنائية المحددة بوضوح (تصحيح or غير صحيح), تم التحقق من خلال اختبارات الوحدة. زاعمين أن هذه ليست الطريقة المثالية لاستكشاف حدود الكود المدعوم من برنامج LLM، ابتكر المؤلفون بدلاً من ذلك سيناريو تحدي أكثر تعقيدًا، مع العديد من المعايير والمعالم الداخلية، حيث يكون النصر ممكنًا، ولكنه ليس بسيطًا على الإطلاق:
![مقارنة بين النهج القياسي القائم على اختبار الوحدة (أعلاه)، وسيناريو التحدي الأكثر انفتاحًا الذي وضعه المؤلفون (بالأزرق، أدناه). المصدر [ https://arxiv.org/pdf/2511.20613 ]](https://www.unite.ai/wp-content/uploads/2025/11/figure-1-2.jpg)
مقارنة بين النهج القياسي المبني على اختبار الوحدة (أعلاه)، وسيناريو التحدي الأكثر انفتاحًا الذي ابتكره المؤلفون (باللون الأزرق أدناه). مصدر
كانت مشكلة المزاد والاستلام والتسليم (APDP) المستخدمة في دراسة المؤلفين ذاتية الاختيار جزئيًا، نظرًا لتوافر مجموعة من أعمال طلاب الجامعة السويسرية لعام ٢٠٢٠؛ وهي أعمال سعت إلى إنشاء وكلاء آليين لمهمة APDP، قبل أي قدرة على تعزيز التطوير من خلال الذكاء الاصطناعي. لذلك، كان من السهل نسبيًا تكليف الطلاب المعاصرين بنفس المهمة، مع توفير الأدوات الحديثة لهم.
سعى المؤلفون إلى تجنب أطر الاختبار الشائعة مثل HumanEval, بيج كود بينش و ساحة تطوير الويب (من بين العديد من الإجراءات الأخرى)، نظرًا لأن هذه الفئة من إجراءات الاختبار تميل إلى المعاناة من تلوث البيانات (أي الحالات التي قد يكون فيها النظام تم تدريبه على بيانات الاختبار بدلا من احترام انقسم).
إن APDP عبارة عن مشكلة لوجستية ذات مرحلتين تعتمد على المزادات العكسية و توجيه السيارةفي المرحلة الأولى، يتنافس الوكلاء للفوز بمهام التسليم من خلال تقديم عروض أسعار تحدد المبلغ المطلوب لإنجاز كل مهمة. تقديم عرض سعر مرتفع جدًا يعني خسارة المهمة، بينما قد يؤدي تقديم عرض سعر منخفض جدًا إلى خسارة المال.
في المرحلة الثانية، يجب على كل وكيل إنشاء خطة فعالة لإنجاز المهام التي فاز بها فقط، وتعيينها لمركبات ذات قدرات وتكاليف مختلفة، في ظل قيود الوقت والموارد:

في برنامج APDP، تتنافس الشركات في المزادات العكسية لمهام التسليم، ثم تعمل على تحسين مسارات المركبات لتنفيذ المهام التي تفوز بها فقط، بهدف تعظيم الأرباح.
الهدف ليس مجرد إكمال المهام، بل تعظيم الربح الإجمالي من خلال توقع حزم المهام التي ستعمل بشكل أفضل معًا، والتنبؤ باستراتيجيات المنافسين الذين يحاولون جميعًا القيام بنفس الشيء.
يزيد معيار APDP من صعوبة مهام إنشاء التعليمات البرمجية من خلال تقديم التخطيط الاستراتيجي عبر سلسلة من المزادات المترابطة، حيث يعمل كل عرض على إعادة تشكيل مشهد الاختيارات المستقبلية؛ وبالتالي يتطلب من الوكلاء أن يفكروا ليس فقط في التكاليف المباشرة، ولكن أيضًا في الموقع، والتوقيت، والعواقب طويلة الأجل.
مشكلة التسليم الأساسية هي NP الصعبأي أنه لا يمكن لأي خوارزمية إيجاد الحل الأمثل بشكل موثوق في وقت معقول مع تزايد عدد المهام. هذا يجعل استخدام القوة الغاشمة نهجًا غير عملي، ويُجبر الوكلاء على التخلي عن الدقة مقابل السرعة.
السباق مستمر
قارن تقييم المؤلفين 40 عميلاً مُرمَّزاً بـ LLM مع 17 عميلاً مُرمَّزاً بشرياً في سلسلة من البطولات المتنافسة. استخدمت كل بطولة من البطولات الاثنتي عشرة مزيجاً مختلفاً من أربعة طوبولوجيات لشبكات الطرق، وتألفت من: الكل يلعب الكل الثنائيات، حيث يواجه العملاء كل خصم آخر مرتين: مرة يسيطرون على كل من الشركتين، مع مواصفات مركبة مختلفة.
أسفر هذا الإعداد عن 3,192 مباراة في كل بطولة، بإجمالي 38,304 مباريات. في كل مباراة، طُرحت 50 مهمة توصيل في مزاد، مُحددة حسب نقاط الاستلام والتسليم ووزنها، ورُسمت عشوائيًا عبر مخططات طرق مُصممة على غرار سويسرا وفرنسا وبريطانيا العظمى وهولندا.

شبكات الطرق المُبسّطة المُستخدمة في البطولة: بريطانيا العظمى (أعلى اليسار)، سويسرا (أعلى اليمين)، هولندا (أسفل اليسار)، وفرنسا (أسفل اليمين). تُشير المربعات الزرقاء والحمراء إلى مهام الاستلام والتوصيل. تُظهر المثلثات الملونة المواقع الحالية لمركبات العملاء.
تم اختيار وكلاء الطلاب من دورة تدريبية لعام ٢٠٢٠. جاء ثمانية منهم من بين أفضل اللاعبين في نهائي إقصائي واحد، وتم اختيار أربعة آخرين لأدائهم القوي ضد وكلاء خط الأساس في المباريات المباشرة.
اتبعت العوامل الأساسية الثابتة الاستدلال. ساذج حساب المسافة الإجمالية وتقديم العرض وفقًا لذلك، باستخدام مركبة واحدة فقط وتجاهل الدفعات؛ عرض سعر التكلفة الثابتة تم محاكاة 10 مهام عشوائية، وتم تقديم عرض بالتكلفة الهامشية المتوسطة؛ صادق تم حساب التكلفة الهامشية الفعلية لإدراج المهمة في الجدول الزمني؛ نموذج الخصم لقد فعل الشيء نفسه ولكنه أضاف تقديرًا لتكلفة الخصم، وعرض الحد الأقصى؛ و البحث عن المخاطر دمج التحلل الزمني المسبق مع تقدير التكلفة المباشرة ونمذجة الخصم - مرة أخرى تقديم أعلى من الاثنين.
شمل التقييم 40 برنامجًا مُرمَّزًا بشهادة LLM، مُصمَّمًا باستخدام GPT-5 Thinking (المذكور سابقًا)، وClaude Opus 4.1، وGemini 2.5 Pro، وDeepSeek R1. استُخدمت خمس استراتيجيات مُختلفة في كل نموذج، وطُبِّقت مرتين لكل نموذج.
استخدمت استراتيجيتان مواضيع ثابتة كتبها مؤلفون مختلفون، بينما طلبت استراتيجية ثالثة من النموذج أن يُراجع مخرجاته بنفسه؛ وتضمنت استراتيجية أخرى نقدًا ومراجعة من قِبل أستاذ ماجستير قانون مستقل. أما الاستراتيجية الأخيرة، فاستخدمت GPT-4 لتركيب موضوع جديد من خلال مراجعة جميع المناهج الأربعة السابقة.
عكست الرسالة الأساسية مهمة الطالب الأصلية، ووصفت بيئة التسليم وأعطت التعليمات للنموذج لتقديم العطاءات والتخطيط لتحقيق أقصى قدر من الربح، دون الاعتماد على أساليب عالية التعقيد.
تم اختبار جميع وكلاء LLM في إعدادات اللعب الذاتي والبطولات حتى تم إصلاح جميع الأخطاء الملحوظة. تولّت وكلاء LLM عملية إصلاح الأخطاء بشكل مستقل، حيث تم إخطارهم بمعلومات الخطأ.
تضمنت إخفاقات LLM الشائعة، وفقًا للملاحظات الورقية، انتهاكات لحدود المهلة، والفشل في التقاط أو تسليم المهام المعينة، وانتهاكات قيود سعة المركبة - وهي أخطاء غالبًا ما نشأت عن تجاهل التعليمات الصريحة، أو من منطق إعادة التخطيط الخاطئ†:
"هناك مشكلة شائعة أخرى وجدناها (خاصةً مع Gemini وClaude وDeepSeek، وليس كثيرًا مع GPT) وهي أن LLM غالبًا ما يفشل باستمرار في حل خطأ ما.
'على سبيل المثال، قد يتوقف العميل عن العمل بشكل مستمر، على الرغم من دورات متعددة (على سبيل المثال، 5 - 15) من مطالبة LLM بالخطأ وتلقي الإصدار المحدث من الكود.
"الحل الوحيد الذي وجدناه لمثل هذه المواقف (حيث يفشل برنامج LLM مرارًا وتكرارًا في حل نفس الخطأ تمامًا) هو البدء من جديد من الصفر. بشكل عام، لاحظنا الحاجة إلى جهد يدوي كبير لتحقيق كود خالٍ من الأخطاء"كان علينا إنشاء عدد أكبر بكثير من الوكلاء للحصول على الوكلاء الأربعين الخاليين من الأخطاء الذين قمنا بتقييمهم."
تلخص النتائج الموضحة أدناه نتائج 12 بطولة مزدوجة الدور، تمتد على أربع طوبولوجيات شبكية وثلاث بطولات لكل طوبولوجيا، مما ينتج أفضل جزء من 40,000 مباراة:
| الوكيل | متوسط عدد الانتصارات / الجولة | SD #Wins / الجولة | متوسط الخسائر / الجولة | SD #Losses / Tour | مجموع الانتصارات | مجموع الخسائر | معدل الفوز |
|---|---|---|---|---|---|---|---|
| طالب 1 | 108.167 | 1.193 | 3.833 | 1.193 | 1298 | 46 | 0.9658 |
| طالب 2 | 104.917 | 2.539 | 7.083 | 2.539 | 1259 | 85 | 0.9368 |
| طالب 3 | 103.917 | 2.466 | 8.083 | 2.466 | 1247 | 97 | 0.9278 |
| طالب 4 | 103.25 | 1.815 | 8.75 | 1.815 | 1239 | 105 | 0.9219 |
| طالب 5 | 96.5 | 2.908 | 15.5 | 2.908 | 1158 | 186 | 0.8616 |
| ماجستير في القانون (O، IR، 1) | 95.417 | 2.314 | 16.583 | 2.314 | 1145 | 199 | 0.8519 |
| ماجستير في القانون (O، A2، 1) | 94.583 | 2.314 | 17.417 | 2.314 | 1135 | 209 | 0.8445 |
| طالب 6 | 93.167 | 1.899 | 18.833 | 1.899 | 1118 | 226 | 0.8318 |
| طالب 7 | 93.167 | 3.563 | 18.833 | 3.563 | 1118 | 226 | 0.8318 |
| ماجستير في القانون (O، A1، 1) | 86.083 | 3.029 | 25.917 | 3.029 | 1033 | 311 | 0.7686 |
| ماجستير في القانون (O، GEN، 2) | 84.083 | 6.947 | 27.917 | 6.947 | 1009 | 335 | 0.7507 |
| ماجستير في القانون (O، CR، 2) | 83.5 | 4.442 | 28.5 | 4.442 | 1002 | 342 | 0.7455 |
| طالب 8 | 83.417 | 4.122 | 28.583 | 4.122 | 1001 | 343 | 0.7448 |
| البحث عن المخاطر | 82.417 | 3.343 | 29.583 | 3.343 | 989 | 355 | 0.7359 |
| ماجستير في القانون (O، GEN، 1) | 80.667 | 4.355 | 31.25 | 4.372 | 968 | 375 | 0.7208 |
| نموذج الخصم | 80.583 | 3.26 | 31.417 | 3.26 | 967 | 377 | 0.7195 |
| ماجستير في القانون (د، أ1، 1) | 79.417 | 3.965 | 32.583 | 3.965 | 953 | 391 | 0.7091 |
| عرض سعر التكلفة الثابتة | 77.167 | 4.951 | 34.833 | 4.951 | 926 | 418 | 0.689 |
| ماجستير في القانون (O، IR، 2) | 73.917 | 3.502 | 38 | 3.618 | 887 | 456 | 0.6605 |
| ماجستير في القانون (O، A1، 2) | 72.417 | 2.193 | 39.583 | 2.193 | 869 | 475 | 0.6466 |
| ماجستير في القانون (G، A1، 2) | 68.5 | 3.555 | 43.5 | 3.555 | 822 | 522 | 0.6116 |
| ماجستير في القانون (أ، عام، 2) | 67.917 | 2.968 | 44.083 | 2.968 | 815 | 529 | 0.6064 |
| ماجستير في القانون (G، IR، 2) | 65.917 | 2.314 | 46.083 | 2.314 | 791 | 553 | 0.5885 |
| طالب 9 | 64.167 | 11.044 | 47.833 | 11.044 | 770 | 574 | 0.5729 |
| ماجستير في القانون (G، A1، 1) | 64 | 4.243 | 47.917 | 4.316 | 768 | 575 | 0.5719 |
| ماجستير في القانون (G، IR، 1) | 60.333 | 3.725 | 51.667 | 3.725 | 724 | 620 | 0.5387 |
| ماجستير في القانون (O، A2، 2) | 59.333 | 4.499 | 52.667 | 4.499 | 712 | 632 | 0.5298 |
| ماجستير في القانون (دكتوراه، ماجستير في القانون، 1) | 55.083 | 6.694 | 56.833 | 6.59 | 661 | 682 | 0.4922 |
| ماجستير في القانون (G، GEN، 2) | 53.167 | 3.664 | 58.833 | 3.664 | 638 | 706 | 0.4747 |
| ماجستير في القانون (دكتوراه، عام، 2) | 52.083 | 9.06 | 59.917 | 9.06 | 625 | 719 | 0.465 |
| صادق | 50.583 | 3.848 | 61.417 | 3.848 | 607 | 737 | 0.4516 |
| طالب 10 | 48.833 | 2.98 | 63.167 | 2.98 | 586 | 758 | 0.436 |
| ماجستير في القانون (دكتوراه، علاقات دولية، 1) | 48.583 | 10.211 | 63.417 | 10.211 | 583 | 761 | 0.4338 |
| ماجستير في القانون (أ، أ1، 1) | 48 | 4.69 | 64 | 4.69 | 576 | 768 | 0.4286 |
| ماجستير في القانون (G، A2، 1) | 47.25 | 3.864 | 64.75 | 3.864 | 567 | 777 | 0.4219 |
| ماجستير في القانون (أ، CR، 1) | 43.833 | 4.609 | 68.167 | 4.609 | 526 | 818 | 0.3914 |
| ماجستير في القانون (أ، أ1، 2) | 43.75 | 2.05 | 68.25 | 2.05 | 525 | 819 | 0.3906 |
| طالب 11 | 42.083 | 5.664 | 69.917 | 5.664 | 505 | 839 | 0.3757 |
| ماجستير في القانون (أ، العلاقات الدولية، 1) | 39.5 | 2.541 | 72.5 | 2.541 | 474 | 870 | 0.3527 |
| ساذج | 36.75 | 1.712 | 75.25 | 1.712 | 441 | 903 | 0.3281 |
| طالب 12 | 36.333 | 1.775 | 75.667 | 1.775 | 436 | 908 | 0.3244 |
| ماجستير في القانون (د، أ2، 1) | 33.917 | 2.193 | 78.083 | 2.193 | 407 | 937 | 0.3028 |
| ماجستير في القانون (أ، عام، 1) | 30.167 | 1.749 | 81.833 | 1.749 | 362 | 982 | 0.2693 |
| ماجستير في القانون (د، أ2، 2) | 29.833 | 2.038 | 82.167 | 2.038 | 358 | 986 | 0.2664 |
| ماجستير في القانون (G، A2، 2) | 27 | 2.256 | 85 | 2.256 | 324 | 1020 | 0.2411 |
| ماجستير في القانون (أ، أ2، 1) | 26.333 | 0.985 | 85.667 | 0.985 | 316 | 1028 | 0.2351 |
| ماجستير في القانون (O، CR، 1) | 25 | 3.411 | 87 | 3.411 | 300 | 1044 | 0.2232 |
| ماجستير في القانون (أ، العلاقات الدولية، 2) | 24.333 | 8.542 | 87.667 | 8.542 | 292 | 1052 | 0.2173 |
| ماجستير في القانون (أ، أ2، 2) | 24 | 1.809 | 88 | 1.809 | 288 | 1056 | 0.2143 |
| ماجستير في القانون (أ، CR، 2) | 23.333 | 1.557 | 88.667 | 1.557 | 280 | 1064 | 0.2083 |
| ماجستير في القانون (دكتوراه، عام، 1) | 22.5 | 1.784 | 89.5 | 1.784 | 270 | 1074 | 0.2009 |
| ماجستير في القانون (د، أ1، 2) | 13.333 | 1.826 | 98.667 | 1.826 | 160 | 1184 | 0.119 |
| ماجستير في القانون (G، CR، 1) | 9.5 | 1.087 | 102.5 | 1.087 | 114 | 1230 | 0.0848 |
| ماجستير في القانون (G، GEN، 1) | 9.167 | 0.937 | 102.833 | 0.937 | 110 | 1234 | 0.0818 |
| ماجستير في القانون (دكتوراه، علاقات دولية، 2) | 7.75 | 0.622 | 104.25 | 0.622 | 93 | 1251 | 0.0692 |
| ماجستير في القانون (G، CR، 2) | 7.25 | 1.422 | 104.75 | 1.422 | 87 | 1257 | 0.0647 |
| ماجستير في القانون (دكتوراه، ماجستير في القانون، 2) | 5.667 | 0.985 | 106.333 | 0.985 | 68 | 1276 | 0.0506 |
للتوضيح، لعب كل وكيل ١١٢ مباراة في كل بطولة، لذا فإن أقصى متوسط ممكن للفوز أو الخسارة لكل وكيل هو ١١٢. يعكس الانحراف المعياري (SD) التباين بين البطولات. يظهر الوكلاء المبرمجون بشريًا بخط غامق. يُصنف الوكلاء المبرمجون بـ LLM حسب النموذج (O = GPT-5 Thinking، G = Gemini 2.5 Pro، A = Claude Opus 4.1، D = DeepSeek R1)، متبوعًا برمز استراتيجية موجه من حرفين ورقم يشير إلى ما إذا كان الوكيل هو الأول أو الثاني الذي تم توليده باستخدام هذا التوجيه. مصدر
وفيما يتعلق بالنتائج الموضحة أعلاه، يذكر المؤلفون†:
لم تُنتج برامج ماجستير القانون (LLM) أكوادًا متوقعة/تنافسية حتى في أبسط أشكال مشكلة APDP (على الرغم من خلوّ الكود إلى حد كبير من أخطاء بناء الجملة). وهذا يُبرز أهمية معايير تقييم الكود القائمة على المنطق، والتي تتجاوز الإكمال التلقائي وتُحدد نقاط ضعف جديدة في برامج ماجستير القانون.
"تظهر نتائجنا تفوقًا واضحًا للعوامل المبرمجة بواسطة الإنسان: (أ) يحتل وكلاء الطلاب المراكز الخمسة الأولى باستمرار، و (ثانيا) يتم التغلب على غالبية وكلاء LLM (33 من أصل 40) من قبل وكلاء أساسيين بسيطين للغاية (مثل التكلفة المتوقعة للعطاء الثابت).
الأهم من ذلك، أننا لم نُصحّح أخطاء كود الطالب (بينما اختبرنا/صحّحنا أخطاء كود LLM بدقة، سواءً في إعدادات اللعب الذاتي أو البطولة). في كل مرة يتعطل فيها وكيل طالب، كنا نمنح الفوز تلقائيًا لوكيل LLM. سيكون من السهل إصلاح عدد كبير من هذه الأعطال (مثلاً، انتهاء صلاحية الوكلاء)، وبالتالي قد يفشل وكلاء الطلاب رتبة أعلى".
كتجربة أخرى، تم حث GPT-5 Thinking على تحسين كود العميل البشري الأفضل أداءً، طالب 1لكن العامل المُعدّل بـ LLM تراجع لاحقًا إلى المركز العاشر، وهو الآن الأسوأ بين جميع الدرجات البشرية. فبدلًا من تحسين الحل، أدت تغييرات LLM إلى تدهوره بنسبة تقارب 20%.
وخلص المؤلفون إلى:
تُسلِّط نتائجنا الضوء على قيودٍ مهمةٍ في توليد أكواد برامج ماجستير القانون، وأبرزها محدودية قدراتها على التفكير والتخطيط أثناء توليدها. برامج ماجستير القانون الحديثة قادرة على توفير أكوادٍ تعمل بكفاءةٍ ودون أخطاء لغوية، لكن هذا ليس المعيار الذي ينبغي أن نستخدمه لقياس التقدم نحو الذكاء الاصطناعي العام المتقدم.
خاتمة
يلاحظ المؤلفون أنفسهم قرب نهاية البحث أن ترميز الاهتزازات قد مكّن الناس من جميع الخلفيات التقنية، ويصفون هذه الممارسة بإيجابية كقوة دافعة. مع ذلك، يُلمّحون أيضًا إلى أنه نظرًا لظهور ترميز الاهتزازات حديثًا، فإن حدوده غير معروفة، ويمكن افتراض أنها أعلى بكثير مما يمكن توقعه واقعيًا.
يختتمون عرضهم بالدعوة إلى تغيير الهدفمن الكود الذي يتم تجميعه إلى الكود الذي يتنافس.
أحد الأسئلة التي قد تخطر على بال القارئ العادي لهذه الورقة الجديدة المثيرة للاهتمام هو ما إذا كان المؤلفون يقومون بالضرب للأعلى أو للأسفل، نظرًا لأن المهمة الوكيلة المعنية أكثر تعقيدًا وتداخلًا من إخراج نصوص PowerShell وأشكال أخرى من الوظائف البسيطة والإصلاحات التي يكون الترميز الاهتزازي مناسبًا لها.
* يرجى ملاحظة أن الورقة تشير باستمرار إلى "العمق"اعتقد يبدو أن "R1" غير موجود، ولا يظهر إلا عدد قليل من المراجع على الإنترنت (على الأرجح من مؤلفين آخرين أخطأوا في كتابة "DeepSeek R1") إذا كان هذا خطأي، يُرجى التواصل معي عبر بيانات ملفي الشخصي، وسأقوم بتصحيحه.
† التركيز من وجهة نظر المؤلف، وليس من وجهة نظري.
نُشر لأول مرة يوم الأربعاء، 26 نوفمبر 2025. وتم تعديله الساعة 17:35 بتوقيت شرق الولايات المتحدة لأغراض التنسيق.












