اتصل بنا للحصول على مزيد من المعلومات

الكود البشري من عام 2020 يسحق وكلاء Vibe-Code في الاختبارات الوكيلة

زاوية أندرسون

الكود البشري من عام 2020 يسحق وكلاء Vibe-Code في الاختبارات الوكيلة

mm
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي: مدرب وخيول من العصر الفيكتوري يفوزون في سباق الفورمولا 1 ضد منافسي سيارات السباق الحديثة. gpt-image-1.

تم اختبار ChatGPT وأدوات ترميز الاهتزاز الأخرى في ما يقرب من 40,000 ألف مباراة - وخسرت أمام أكواد طلاب الدراسات العليا المكتوبة قبل اختراع نماذج اللغة الكبيرة.

 

في دراسة جديدة من المملكة المتحدة، قام الباحثون بمقارنة العوامل المبرمجة بواسطة البشر مع مرمز بالاهتزاز تم تطوير الوكلاء باستخدام أحدث نماذج اللغة الكبيرة (ماجستير)، مثل ChatGPT-5 وClaude، ووجدنا أن الوكلاء الذين تم إنشاؤهم دون مساعدة الذكاء الاصطناعي يتغلبون بسهولة شديدة على الإصدارات التي يسهلها الذكاء الاصطناعي.

تم إنشاء كلا المجموعتين من الوكلاء من قِبل أجيال مختلفة من طلاب مختبر الذكاء الاصطناعي في المعهد الفيدرالي السويسري للتكنولوجيا في لوزان. طُوّرت الوكلاء غير المرتبطة بالذكاء الاصطناعي كجزء من المقررات الدراسية عام ٢٠٢٠، أي قبل عامين من إطلاق ChatGPT وانطلاق ثورة ماجستير القانون، بينما أنشأ الطلاب الحاليون الوكلاء الجدد، بمساعدة أحدث وأفضل برامج ماجستير القانون المتاحة.

حتى مع وجود لعبة مزورة، لم تتمكن الحلول المشفرة بالاهتزازات من الفوز، وتم الاحتفاظ بالمراكز الخمسة الأولى باستمرار من قبل الوكلاء "الخام"، مع هزيمة غالبية وكلاء LLM (33 من 40) بسهولة من قبل وكلاء خط الأساس "البسيطين للغاية"، عبر 38,304 تحديات في بطولة، عبر عدد كبير من المتغيرات والظروف.

تقول الورقة:

"يُظهر عملنا أنه في حين أن برامج إدارة التعلم الحديثة قادرة على توليد كود يعمل (أي خالٍ من الأخطاء النحوية)، فإن الحل الناتج لا ينافس الحلول المصممة من قبل البشر في أبعاد مثل التخطيط الاستراتيجي أو التحسين أو المنافسة بين الوكلاء المتعددين.

'وبالتالي، فإن هذا العمل يسلط الضوء على هذه الحدود الجديدة في توليد التعليمات البرمجية، ويهدف إلى تسهيل تطوير المعايير ومجموعات البيانات وخطوط الأساس مفتوحة المصدر التي تؤكد على توليف التعليمات البرمجية القائمة على التفكير.'

كان التحدي الذي تم تصميمه هو المشاركة بشكل إبداعي في المزادات، عبر مجموعة متنوعة من الاستراتيجيات، وترتيب الخدمات اللوجستية لتسليم العناصر التي تم الفوز بها إلى الفائزين.

يشير المؤلفون إلى أن برامج ماجستير القانون مُنحت عددًا من المزايا، مثل التدخل في برمجياتها لتحسين أدائها - وهي ميزة لم تكن متاحة لبرنامج عام ٢٠٢٠. ومع ذلك، حتى مع تزويدها ببرمجيات تصحيحية كان من شأنها تحسين نتائجها بشكل حاسم، لم تتمكن برامج ماجستير القانون من قبولها أو استخدامها.

"في معيارنا، حتى عندما نعرض حلاً جيدًا في السياق، لا يزال برنامج الماجستير في القانون غير قادر على الاستفادة منه.

"وتثير هذه النتيجة أيضًا أسئلة بحثية مستقبلية مثيرة للاهتمام حول حدود التعلم في السياق وحل المشكلات المعزز بالاسترجاع في السيناريوهات المعقدة."

تم استخدام LLMs في الاختبار تفكير GPT-5, الجوزاء 2.5 برو, كلود أوبس 4.1، و ديب سيك R1*.

استخدم ورقة جديدة بعنوان هل يستطيع فايب كودينج التفوق على طلاب علوم الكمبيوتر؟ مسابقة ماجستير في القانون مقابل البرمجة البشرية حول التخطيط الاستراتيجي الموجه نحو السوق، ويأتي من مؤلف واحد في جامعة ساوثهامبتون، وآخر في جامعة أكسفورد ومعهد آلان تورينج. ويذكر المؤلفون أن المعيار سيكون تم إصداره قريبا.

الأسلوب

ويشير المؤلفون إلى أن الاختبارات التقليدية في هذا المجال تركز على التحديات ذات الحلول الثنائية المحددة بوضوح (تصحيح or غير صحيح), تم التحقق من خلال اختبارات الوحدة. زاعمين أن هذه ليست الطريقة المثالية لاستكشاف حدود الكود المدعوم من برنامج LLM، ابتكر المؤلفون بدلاً من ذلك سيناريو تحدي أكثر تعقيدًا، مع العديد من المعايير والمعالم الداخلية، حيث يكون النصر ممكنًا، ولكنه ليس بسيطًا على الإطلاق:

مقارنة بين النهج القياسي القائم على اختبار الوحدة (أعلاه)، وسيناريو التحدي الأكثر انفتاحًا الذي وضعه المؤلفون (بالأزرق، أدناه). المصدر [ https://arxiv.org/pdf/2511.20613 ]

مقارنة بين النهج القياسي المبني على اختبار الوحدة (أعلاه)، وسيناريو التحدي الأكثر انفتاحًا الذي ابتكره المؤلفون (باللون الأزرق أدناه). مصدر

كانت مشكلة المزاد والاستلام والتسليم (APDP) المستخدمة في دراسة المؤلفين ذاتية الاختيار جزئيًا، نظرًا لتوافر مجموعة من أعمال طلاب الجامعة السويسرية لعام ٢٠٢٠؛ وهي أعمال سعت إلى إنشاء وكلاء آليين لمهمة APDP، قبل أي قدرة على تعزيز التطوير من خلال الذكاء الاصطناعي. لذلك، كان من السهل نسبيًا تكليف الطلاب المعاصرين بنفس المهمة، مع توفير الأدوات الحديثة لهم.

سعى المؤلفون إلى تجنب أطر الاختبار الشائعة مثل HumanEval, بيج كود بينش و ساحة تطوير الويب (من بين العديد من الإجراءات الأخرى)، نظرًا لأن هذه الفئة من إجراءات الاختبار تميل إلى المعاناة من تلوث البيانات (أي الحالات التي قد يكون فيها النظام تم تدريبه على بيانات الاختبار بدلا من احترام انقسم).

إن APDP عبارة عن مشكلة لوجستية ذات مرحلتين تعتمد على المزادات العكسية و توجيه السيارةفي المرحلة الأولى، يتنافس الوكلاء للفوز بمهام التسليم من خلال تقديم عروض أسعار تحدد المبلغ المطلوب لإنجاز كل مهمة. تقديم عرض سعر مرتفع جدًا يعني خسارة المهمة، بينما قد يؤدي تقديم عرض سعر منخفض جدًا إلى خسارة المال.

في المرحلة الثانية، يجب على كل وكيل إنشاء خطة فعالة لإنجاز المهام التي فاز بها فقط، وتعيينها لمركبات ذات قدرات وتكاليف مختلفة، في ظل قيود الوقت والموارد:

في برنامج APDP، تتنافس الشركات في المزادات العكسية لمهام التسليم، ثم تعمل على تحسين مسارات المركبات لتنفيذ المهام التي تفوز بها فقط، بهدف تعظيم الأرباح.

في برنامج APDP، تتنافس الشركات في المزادات العكسية لمهام التسليم، ثم تعمل على تحسين مسارات المركبات لتنفيذ المهام التي تفوز بها فقط، بهدف تعظيم الأرباح.

الهدف ليس مجرد إكمال المهام، بل تعظيم الربح الإجمالي من خلال توقع حزم المهام التي ستعمل بشكل أفضل معًا، والتنبؤ باستراتيجيات المنافسين الذين يحاولون جميعًا القيام بنفس الشيء.

يزيد معيار APDP من صعوبة مهام إنشاء التعليمات البرمجية من خلال تقديم التخطيط الاستراتيجي عبر سلسلة من المزادات المترابطة، حيث يعمل كل عرض على إعادة تشكيل مشهد الاختيارات المستقبلية؛ وبالتالي يتطلب من الوكلاء أن يفكروا ليس فقط في التكاليف المباشرة، ولكن أيضًا في الموقع، والتوقيت، والعواقب طويلة الأجل.

مشكلة التسليم الأساسية هي NP الصعبأي أنه لا يمكن لأي خوارزمية إيجاد الحل الأمثل بشكل موثوق في وقت معقول مع تزايد عدد المهام. هذا يجعل استخدام القوة الغاشمة نهجًا غير عملي، ويُجبر الوكلاء على التخلي عن الدقة مقابل السرعة.

السباق مستمر

قارن تقييم المؤلفين 40 عميلاً مُرمَّزاً بـ LLM مع 17 عميلاً مُرمَّزاً بشرياً في سلسلة من البطولات المتنافسة. استخدمت كل بطولة من البطولات الاثنتي عشرة مزيجاً مختلفاً من أربعة طوبولوجيات لشبكات الطرق، وتألفت من: الكل يلعب الكل الثنائيات، حيث يواجه العملاء كل خصم آخر مرتين: مرة يسيطرون على كل من الشركتين، مع مواصفات مركبة مختلفة.

أسفر هذا الإعداد عن 3,192 مباراة في كل بطولة، بإجمالي 38,304 مباريات. في كل مباراة، طُرحت 50 مهمة توصيل في مزاد، مُحددة حسب نقاط الاستلام والتسليم ووزنها، ورُسمت عشوائيًا عبر مخططات طرق مُصممة على غرار سويسرا وفرنسا وبريطانيا العظمى وهولندا.

شبكات الطرق المُبسّطة المُستخدمة في البطولة: بريطانيا العظمى (أعلى اليسار)، سويسرا (أعلى اليمين)، هولندا (أسفل اليسار)، وفرنسا (أسفل اليمين). تُشير المربعات الزرقاء والحمراء إلى مهام الاستلام والتوصيل. تُظهر المثلثات الملونة المواقع الحالية لمركبات العملاء.

شبكات الطرق المُبسّطة المُستخدمة في البطولة: بريطانيا العظمى (أعلى اليسار)، سويسرا (أعلى اليمين)، هولندا (أسفل اليسار)، وفرنسا (أسفل اليمين). تُشير المربعات الزرقاء والحمراء إلى مهام الاستلام والتوصيل. تُظهر المثلثات الملونة المواقع الحالية لمركبات العملاء.

تم اختيار وكلاء الطلاب من دورة تدريبية لعام ٢٠٢٠. جاء ثمانية منهم من بين أفضل اللاعبين في نهائي إقصائي واحد، وتم اختيار أربعة آخرين لأدائهم القوي ضد وكلاء خط الأساس في المباريات المباشرة.

اتبعت العوامل الأساسية الثابتة الاستدلال. ساذج حساب المسافة الإجمالية وتقديم العرض وفقًا لذلك، باستخدام مركبة واحدة فقط وتجاهل الدفعات؛ عرض سعر التكلفة الثابتة تم محاكاة 10 مهام عشوائية، وتم تقديم عرض بالتكلفة الهامشية المتوسطة؛ صادق تم حساب التكلفة الهامشية الفعلية لإدراج المهمة في الجدول الزمني؛ نموذج الخصم لقد فعل الشيء نفسه ولكنه أضاف تقديرًا لتكلفة الخصم، وعرض الحد الأقصى؛ و البحث عن المخاطر دمج التحلل الزمني المسبق مع تقدير التكلفة المباشرة ونمذجة الخصم - مرة أخرى تقديم أعلى من الاثنين.

شمل التقييم 40 برنامجًا مُرمَّزًا بشهادة LLM، مُصمَّمًا باستخدام GPT-5 Thinking (المذكور سابقًا)، وClaude Opus 4.1، وGemini 2.5 Pro، وDeepSeek R1. استُخدمت خمس استراتيجيات مُختلفة في كل نموذج، وطُبِّقت مرتين لكل نموذج.

استخدمت استراتيجيتان مواضيع ثابتة كتبها مؤلفون مختلفون، بينما طلبت استراتيجية ثالثة من النموذج أن يُراجع مخرجاته بنفسه؛ وتضمنت استراتيجية أخرى نقدًا ومراجعة من قِبل أستاذ ماجستير قانون مستقل. أما الاستراتيجية الأخيرة، فاستخدمت GPT-4 لتركيب موضوع جديد من خلال مراجعة جميع المناهج الأربعة السابقة.

عكست الرسالة الأساسية مهمة الطالب الأصلية، ووصفت بيئة التسليم وأعطت التعليمات للنموذج لتقديم العطاءات والتخطيط لتحقيق أقصى قدر من الربح، دون الاعتماد على أساليب عالية التعقيد.

تم اختبار جميع وكلاء LLM في إعدادات اللعب الذاتي والبطولات حتى تم إصلاح جميع الأخطاء الملحوظة. تولّت وكلاء LLM عملية إصلاح الأخطاء بشكل مستقل، حيث تم إخطارهم بمعلومات الخطأ.

تضمنت إخفاقات LLM الشائعة، وفقًا للملاحظات الورقية، انتهاكات لحدود المهلة، والفشل في التقاط أو تسليم المهام المعينة، وانتهاكات قيود سعة المركبة - وهي أخطاء غالبًا ما نشأت عن تجاهل التعليمات الصريحة، أو من منطق إعادة التخطيط الخاطئ:

"هناك مشكلة شائعة أخرى وجدناها (خاصةً مع Gemini وClaude وDeepSeek، وليس كثيرًا مع GPT) وهي أن LLM غالبًا ما يفشل باستمرار في حل خطأ ما.

'على سبيل المثال، قد يتوقف العميل عن العمل بشكل مستمر، على الرغم من دورات متعددة (على سبيل المثال، 5 - 15) من مطالبة LLM بالخطأ وتلقي الإصدار المحدث من الكود.

"الحل الوحيد الذي وجدناه لمثل هذه المواقف (حيث يفشل برنامج LLM مرارًا وتكرارًا في حل نفس الخطأ تمامًا) هو البدء من جديد من الصفر. بشكل عام، لاحظنا الحاجة إلى جهد يدوي كبير لتحقيق كود خالٍ من الأخطاء"كان علينا إنشاء عدد أكبر بكثير من الوكلاء للحصول على الوكلاء الأربعين الخاليين من الأخطاء الذين قمنا بتقييمهم."

تلخص النتائج الموضحة أدناه نتائج 12 بطولة مزدوجة الدور، تمتد على أربع طوبولوجيات شبكية وثلاث بطولات لكل طوبولوجيا، مما ينتج أفضل جزء من 40,000 مباراة:

الوكيل متوسط ​​عدد الانتصارات / الجولة SD #Wins / الجولة متوسط ​​الخسائر / الجولة SD #Losses / Tour مجموع الانتصارات مجموع الخسائر معدل الفوز
طالب 1 108.167 1.193 3.833 1.193 1298 46 0.9658
طالب 2 104.917 2.539 7.083 2.539 1259 85 0.9368
طالب 3 103.917 2.466 8.083 2.466 1247 97 0.9278
طالب 4 103.25 1.815 8.75 1.815 1239 105 0.9219
طالب 5 96.5 2.908 15.5 2.908 1158 186 0.8616
ماجستير في القانون (O، IR، 1) 95.417 2.314 16.583 2.314 1145 199 0.8519
ماجستير في القانون (O، A2، 1) 94.583 2.314 17.417 2.314 1135 209 0.8445
طالب 6 93.167 1.899 18.833 1.899 1118 226 0.8318
طالب 7 93.167 3.563 18.833 3.563 1118 226 0.8318
ماجستير في القانون (O، A1، 1) 86.083 3.029 25.917 3.029 1033 311 0.7686
ماجستير في القانون (O، GEN، 2) 84.083 6.947 27.917 6.947 1009 335 0.7507
ماجستير في القانون (O، CR، 2) 83.5 4.442 28.5 4.442 1002 342 0.7455
طالب 8 83.417 4.122 28.583 4.122 1001 343 0.7448
البحث عن المخاطر 82.417 3.343 29.583 3.343 989 355 0.7359
ماجستير في القانون (O، GEN، 1) 80.667 4.355 31.25 4.372 968 375 0.7208
نموذج الخصم 80.583 3.26 31.417 3.26 967 377 0.7195
ماجستير في القانون (د، أ1، 1) 79.417 3.965 32.583 3.965 953 391 0.7091
عرض سعر التكلفة الثابتة 77.167 4.951 34.833 4.951 926 418 0.689
ماجستير في القانون (O، IR، 2) 73.917 3.502 38 3.618 887 456 0.6605
ماجستير في القانون (O، A1، 2) 72.417 2.193 39.583 2.193 869 475 0.6466
ماجستير في القانون (G، A1، 2) 68.5 3.555 43.5 3.555 822 522 0.6116
ماجستير في القانون (أ، عام، 2) 67.917 2.968 44.083 2.968 815 529 0.6064
ماجستير في القانون (G، IR، 2) 65.917 2.314 46.083 2.314 791 553 0.5885
طالب 9 64.167 11.044 47.833 11.044 770 574 0.5729
ماجستير في القانون (G، A1، 1) 64 4.243 47.917 4.316 768 575 0.5719
ماجستير في القانون (G، IR، 1) 60.333 3.725 51.667 3.725 724 620 0.5387
ماجستير في القانون (O، A2، 2) 59.333 4.499 52.667 4.499 712 632 0.5298
ماجستير في القانون (دكتوراه، ماجستير في القانون، 1) 55.083 6.694 56.833 6.59 661 682 0.4922
ماجستير في القانون (G، GEN، 2) 53.167 3.664 58.833 3.664 638 706 0.4747
ماجستير في القانون (دكتوراه، عام، 2) 52.083 9.06 59.917 9.06 625 719 0.465
صادق 50.583 3.848 61.417 3.848 607 737 0.4516
طالب 10 48.833 2.98 63.167 2.98 586 758 0.436
ماجستير في القانون (دكتوراه، علاقات دولية، 1) 48.583 10.211 63.417 10.211 583 761 0.4338
ماجستير في القانون (أ، أ1، 1) 48 4.69 64 4.69 576 768 0.4286
ماجستير في القانون (G، A2، 1) 47.25 3.864 64.75 3.864 567 777 0.4219
ماجستير في القانون (أ، CR، 1) 43.833 4.609 68.167 4.609 526 818 0.3914
ماجستير في القانون (أ، أ1، 2) 43.75 2.05 68.25 2.05 525 819 0.3906
طالب 11 42.083 5.664 69.917 5.664 505 839 0.3757
ماجستير في القانون (أ، العلاقات الدولية، 1) 39.5 2.541 72.5 2.541 474 870 0.3527
ساذج 36.75 1.712 75.25 1.712 441 903 0.3281
طالب 12 36.333 1.775 75.667 1.775 436 908 0.3244
ماجستير في القانون (د، أ2، 1) 33.917 2.193 78.083 2.193 407 937 0.3028
ماجستير في القانون (أ، عام، 1) 30.167 1.749 81.833 1.749 362 982 0.2693
ماجستير في القانون (د، أ2، 2) 29.833 2.038 82.167 2.038 358 986 0.2664
ماجستير في القانون (G، A2، 2) 27 2.256 85 2.256 324 1020 0.2411
ماجستير في القانون (أ، أ2، 1) 26.333 0.985 85.667 0.985 316 1028 0.2351
ماجستير في القانون (O، CR، 1) 25 3.411 87 3.411 300 1044 0.2232
ماجستير في القانون (أ، العلاقات الدولية، 2) 24.333 8.542 87.667 8.542 292 1052 0.2173
ماجستير في القانون (أ، أ2، 2) 24 1.809 88 1.809 288 1056 0.2143
ماجستير في القانون (أ، CR، 2) 23.333 1.557 88.667 1.557 280 1064 0.2083
ماجستير في القانون (دكتوراه، عام، 1) 22.5 1.784 89.5 1.784 270 1074 0.2009
ماجستير في القانون (د، أ1، 2) 13.333 1.826 98.667 1.826 160 1184 0.119
ماجستير في القانون (G، CR، 1) 9.5 1.087 102.5 1.087 114 1230 0.0848
ماجستير في القانون (G، GEN، 1) 9.167 0.937 102.833 0.937 110 1234 0.0818
ماجستير في القانون (دكتوراه، علاقات دولية، 2) 7.75 0.622 104.25 0.622 93 1251 0.0692
ماجستير في القانون (G، CR، 2) 7.25 1.422 104.75 1.422 87 1257 0.0647
ماجستير في القانون (دكتوراه، ماجستير في القانون، 2) 5.667 0.985 106.333 0.985 68 1276 0.0506

للتوضيح، لعب كل وكيل ١١٢ مباراة في كل بطولة، لذا فإن أقصى متوسط ​​ممكن للفوز أو الخسارة لكل وكيل هو ١١٢. يعكس الانحراف المعياري (SD) التباين بين البطولات. يظهر الوكلاء المبرمجون بشريًا بخط غامق. يُصنف الوكلاء المبرمجون بـ LLM حسب النموذج (O = GPT-5 Thinking، G = Gemini 2.5 Pro، A = Claude Opus 4.1، D = DeepSeek R1)، متبوعًا برمز استراتيجية موجه من حرفين ورقم يشير إلى ما إذا كان الوكيل هو الأول أو الثاني الذي تم توليده باستخدام هذا التوجيه. مصدر

وفيما يتعلق بالنتائج الموضحة أعلاه، يذكر المؤلفون:

لم تُنتج برامج ماجستير القانون (LLM) أكوادًا متوقعة/تنافسية حتى في أبسط أشكال مشكلة APDP (على الرغم من خلوّ الكود إلى حد كبير من أخطاء بناء الجملة). وهذا يُبرز أهمية معايير تقييم الكود القائمة على المنطق، والتي تتجاوز الإكمال التلقائي وتُحدد نقاط ضعف جديدة في برامج ماجستير القانون.

"تظهر نتائجنا تفوقًا واضحًا للعوامل المبرمجة بواسطة الإنسان: (أ) يحتل وكلاء الطلاب المراكز الخمسة الأولى باستمرار، و (ثانيا) يتم التغلب على غالبية وكلاء LLM (33 من أصل 40) من قبل وكلاء أساسيين بسيطين للغاية (مثل التكلفة المتوقعة للعطاء الثابت).

الأهم من ذلك، أننا لم نُصحّح أخطاء كود الطالب (بينما اختبرنا/صحّحنا أخطاء كود LLM بدقة، سواءً في إعدادات اللعب الذاتي أو البطولة). في كل مرة يتعطل فيها وكيل طالب، كنا نمنح الفوز تلقائيًا لوكيل LLM. سيكون من السهل إصلاح عدد كبير من هذه الأعطال (مثلاً، انتهاء صلاحية الوكلاء)، وبالتالي قد يفشل وكلاء الطلاب رتبة أعلى".

كتجربة أخرى، تم حث GPT-5 Thinking على تحسين كود العميل البشري الأفضل أداءً، طالب 1لكن العامل المُعدّل بـ LLM تراجع لاحقًا إلى المركز العاشر، وهو الآن الأسوأ بين جميع الدرجات البشرية. فبدلًا من تحسين الحل، أدت تغييرات LLM إلى تدهوره بنسبة تقارب 20%.

وخلص المؤلفون إلى:

تُسلِّط نتائجنا الضوء على قيودٍ مهمةٍ في توليد أكواد برامج ماجستير القانون، وأبرزها محدودية قدراتها على التفكير والتخطيط أثناء توليدها. برامج ماجستير القانون الحديثة قادرة على توفير أكوادٍ تعمل بكفاءةٍ ودون أخطاء لغوية، لكن هذا ليس المعيار الذي ينبغي أن نستخدمه لقياس التقدم نحو الذكاء الاصطناعي العام المتقدم.

خاتمة

يلاحظ المؤلفون أنفسهم قرب نهاية البحث أن ترميز الاهتزازات قد مكّن الناس من جميع الخلفيات التقنية، ويصفون هذه الممارسة بإيجابية كقوة دافعة. مع ذلك، يُلمّحون أيضًا إلى أنه نظرًا لظهور ترميز الاهتزازات حديثًا، فإن حدوده غير معروفة، ويمكن افتراض أنها أعلى بكثير مما يمكن توقعه واقعيًا.

يختتمون عرضهم بالدعوة إلى تغيير الهدفمن الكود الذي يتم تجميعه إلى الكود الذي يتنافس.

أحد الأسئلة التي قد تخطر على بال القارئ العادي لهذه الورقة الجديدة المثيرة للاهتمام هو ما إذا كان المؤلفون يقومون بالضرب للأعلى أو للأسفل، نظرًا لأن المهمة الوكيلة المعنية أكثر تعقيدًا وتداخلًا من إخراج نصوص PowerShell وأشكال أخرى من الوظائف البسيطة والإصلاحات التي يكون الترميز الاهتزازي مناسبًا لها.

 

* يرجى ملاحظة أن الورقة تشير باستمرار إلى "العمق"اعتقد يبدو أن "R1" غير موجود، ولا يظهر إلا عدد قليل من المراجع على الإنترنت (على الأرجح من مؤلفين آخرين أخطأوا في كتابة "DeepSeek R1") إذا كان هذا خطأي، يُرجى التواصل معي عبر بيانات ملفي الشخصي، وسأقوم بتصحيحه.

التركيز من وجهة نظر المؤلف، وليس من وجهة نظري.

نُشر لأول مرة يوم الأربعاء، 26 نوفمبر 2025. وتم تعديله الساعة 17:35 بتوقيت شرق الولايات المتحدة لأغراض التنسيق.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai