زاوية أندرسون

الكود البشري من عام 2020 يسحق وكلاء Vibe-Code في الاختبارات الوكيلة

تم النشر 26 تشرين الثاني، 2025

مارتن أندرسون

صورة تم إنشاؤها بواسطة الذكاء الاصطناعي: مدرب وخيول من العصر الفيكتوري يفوزون في سباق الفورمولا 1 ضد منافسي سيارات السباق الحديثة. gpt-image-1.

تم اختبار ChatGPT وأدوات ترميز الاهتزاز الأخرى في ما يقرب من 40,000 ألف مباراة - وخسرت أمام أكواد طلاب الدراسات العليا المكتوبة قبل اختراع نماذج اللغة الكبيرة.

في دراسة جديدة من المملكة المتحدة، قام الباحثون بمقارنة العوامل المبرمجة بواسطة البشر مع مرمز بالاهتزاز تم تطوير الوكلاء باستخدام أحدث نماذج اللغة الكبيرة (ماجستير)، مثل ChatGPT-5 وClaude، ووجدنا أن الوكلاء الذين تم إنشاؤهم دون مساعدة الذكاء الاصطناعي يتغلبون بسهولة شديدة على الإصدارات التي يسهلها الذكاء الاصطناعي.

تم إنشاء كلا المجموعتين من الوكلاء من قِبل أجيال مختلفة من طلاب مختبر الذكاء الاصطناعي في المعهد الفيدرالي السويسري للتكنولوجيا في لوزان. طُوّرت الوكلاء غير المرتبطة بالذكاء الاصطناعي كجزء من المقررات الدراسية عام ٢٠٢٠، أي قبل عامين من إطلاق ChatGPT وانطلاق ثورة ماجستير القانون، بينما أنشأ الطلاب الحاليون الوكلاء الجدد، بمساعدة أحدث وأفضل برامج ماجستير القانون المتاحة.

حتى مع وجود لعبة مزورة، لم تتمكن الحلول المشفرة بالاهتزازات من الفوز، وتم الاحتفاظ بالمراكز الخمسة الأولى باستمرار من قبل الوكلاء "الخام"، مع هزيمة غالبية وكلاء LLM (33 من 40) بسهولة من قبل وكلاء خط الأساس "البسيطين للغاية"، عبر 38,304 تحديات في بطولة، عبر عدد كبير من المتغيرات والظروف.

تقول الورقة:

"يُظهر عملنا أنه في حين أن برامج إدارة التعلم الحديثة قادرة على توليد كود يعمل (أي خالٍ من الأخطاء النحوية)، فإن الحل الناتج لا ينافس الحلول المصممة من قبل البشر في أبعاد مثل التخطيط الاستراتيجي أو التحسين أو المنافسة بين الوكلاء المتعددين.

'وبالتالي، فإن هذا العمل يسلط الضوء على هذه الحدود الجديدة في توليد التعليمات البرمجية، ويهدف إلى تسهيل تطوير المعايير ومجموعات البيانات وخطوط الأساس مفتوحة المصدر التي تؤكد على توليف التعليمات البرمجية القائمة على التفكير.'

كان التحدي الذي تم تصميمه هو المشاركة بشكل إبداعي في المزادات، عبر مجموعة متنوعة من الاستراتيجيات، وترتيب الخدمات اللوجستية لتسليم العناصر التي تم الفوز بها إلى الفائزين.

يشير المؤلفون إلى أن برامج ماجستير القانون مُنحت عددًا من المزايا، مثل التدخل في برمجياتها لتحسين أدائها - وهي ميزة لم تكن متاحة لبرنامج عام ٢٠٢٠. ومع ذلك، حتى مع تزويدها ببرمجيات تصحيحية كان من شأنها تحسين نتائجها بشكل حاسم، لم تتمكن برامج ماجستير القانون من قبولها أو استخدامها.

"في معيارنا، حتى عندما نعرض حلاً جيدًا في السياق، لا يزال برنامج الماجستير في القانون غير قادر على الاستفادة منه.

"وتثير هذه النتيجة أيضًا أسئلة بحثية مستقبلية مثيرة للاهتمام حول حدود التعلم في السياق وحل المشكلات المعزز بالاسترجاع في السيناريوهات المعقدة."

تم استخدام LLMs في الاختبار تفكير GPT-5, الجوزاء 2.5 برو, كلود أوبس 4.1، و ديب سيك R1*.

استخدم ورقة جديدة بعنوان هل يستطيع فايب كودينج التفوق على طلاب علوم الكمبيوتر؟ مسابقة ماجستير في القانون مقابل البرمجة البشرية حول التخطيط الاستراتيجي الموجه نحو السوق، ويأتي من مؤلف واحد في جامعة ساوثهامبتون، وآخر في جامعة أكسفورد ومعهد آلان تورينج. ويذكر المؤلفون أن المعيار سيكون تم إصداره قريبا.

الأسلوب

ويشير المؤلفون إلى أن الاختبارات التقليدية في هذا المجال تركز على التحديات ذات الحلول الثنائية المحددة بوضوح (تصحيح or غير صحيح), تم التحقق من خلال اختبارات الوحدة. زاعمين أن هذه ليست الطريقة المثالية لاستكشاف حدود الكود المدعوم من برنامج LLM، ابتكر المؤلفون بدلاً من ذلك سيناريو تحدي أكثر تعقيدًا، مع العديد من المعايير والمعالم الداخلية، حيث يكون النصر ممكنًا، ولكنه ليس بسيطًا على الإطلاق:

مقارنة بين النهج القياسي القائم على اختبار الوحدة (أعلاه)، وسيناريو التحدي الأكثر انفتاحًا الذي وضعه المؤلفون (بالأزرق، أدناه). المصدر [ https://arxiv.org/pdf/2511.20613 ]

مقارنة بين النهج القياسي المبني على اختبار الوحدة (أعلاه)، وسيناريو التحدي الأكثر انفتاحًا الذي ابتكره المؤلفون (باللون الأزرق أدناه). مصدر

كانت مشكلة المزاد والاستلام والتسليم (APDP) المستخدمة في دراسة المؤلفين ذاتية الاختيار جزئيًا، نظرًا لتوافر مجموعة من أعمال طلاب الجامعة السويسرية لعام ٢٠٢٠؛ وهي أعمال سعت إلى إنشاء وكلاء آليين لمهمة APDP، قبل أي قدرة على تعزيز التطوير من خلال الذكاء الاصطناعي. لذلك، كان من السهل نسبيًا تكليف الطلاب المعاصرين بنفس المهمة، مع توفير الأدوات الحديثة لهم.

سعى المؤلفون إلى تجنب أطر الاختبار الشائعة مثل HumanEval, بيج كود بينش و ساحة تطوير الويب (من بين العديد من الإجراءات الأخرى)، نظرًا لأن هذه الفئة من إجراءات الاختبار تميل إلى المعاناة من تلوث البيانات (أي الحالات التي قد يكون فيها النظام تم تدريبه على بيانات الاختبار بدلا من احترام انقسم).

إن APDP عبارة عن مشكلة لوجستية ذات مرحلتين تعتمد على المزادات العكسية و توجيه السيارةفي المرحلة الأولى، يتنافس الوكلاء للفوز بمهام التسليم من خلال تقديم عروض أسعار تحدد المبلغ المطلوب لإنجاز كل مهمة. تقديم عرض سعر مرتفع جدًا يعني خسارة المهمة، بينما قد يؤدي تقديم عرض سعر منخفض جدًا إلى خسارة المال.

في المرحلة الثانية، يجب على كل وكيل إنشاء خطة فعالة لإنجاز المهام التي فاز بها فقط، وتعيينها لمركبات ذات قدرات وتكاليف مختلفة، في ظل قيود الوقت والموارد:

في برنامج APDP، تتنافس الشركات في المزادات العكسية لمهام التسليم، ثم تعمل على تحسين مسارات المركبات لتنفيذ المهام التي تفوز بها فقط، بهدف تعظيم الأرباح.

الهدف ليس مجرد إكمال المهام، بل تعظيم الربح الإجمالي من خلال توقع حزم المهام التي ستعمل بشكل أفضل معًا، والتنبؤ باستراتيجيات المنافسين الذين يحاولون جميعًا القيام بنفس الشيء.

يزيد معيار APDP من صعوبة مهام إنشاء التعليمات البرمجية من خلال تقديم التخطيط الاستراتيجي عبر سلسلة من المزادات المترابطة، حيث يعمل كل عرض على إعادة تشكيل مشهد الاختيارات المستقبلية؛ وبالتالي يتطلب من الوكلاء أن يفكروا ليس فقط في التكاليف المباشرة، ولكن أيضًا في الموقع، والتوقيت، والعواقب طويلة الأجل.

مشكلة التسليم الأساسية هي NP الصعبأي أنه لا يمكن لأي خوارزمية إيجاد الحل الأمثل بشكل موثوق في وقت معقول مع تزايد عدد المهام. هذا يجعل استخدام القوة الغاشمة نهجًا غير عملي، ويُجبر الوكلاء على التخلي عن الدقة مقابل السرعة.

السباق مستمر

قارن تقييم المؤلفين 40 عميلاً مُرمَّزاً بـ LLM مع 17 عميلاً مُرمَّزاً بشرياً في سلسلة من البطولات المتنافسة. استخدمت كل بطولة من البطولات الاثنتي عشرة مزيجاً مختلفاً من أربعة طوبولوجيات لشبكات الطرق، وتألفت من: الكل يلعب الكل الثنائيات، حيث يواجه العملاء كل خصم آخر مرتين: مرة يسيطرون على كل من الشركتين، مع مواصفات مركبة مختلفة.

أسفر هذا الإعداد عن 3,192 مباراة في كل بطولة، بإجمالي 38,304 مباريات. في كل مباراة، طُرحت 50 مهمة توصيل في مزاد، مُحددة حسب نقاط الاستلام والتسليم ووزنها، ورُسمت عشوائيًا عبر مخططات طرق مُصممة على غرار سويسرا وفرنسا وبريطانيا العظمى وهولندا.

شبكات الطرق المُبسّطة المُستخدمة في البطولة: بريطانيا العظمى (أعلى اليسار)، سويسرا (أعلى اليمين)، هولندا (أسفل اليسار)، وفرنسا (أسفل اليمين). تُشير المربعات الزرقاء والحمراء إلى مهام الاستلام والتوصيل. تُظهر المثلثات الملونة المواقع الحالية لمركبات العملاء.

تم اختيار وكلاء الطلاب من دورة تدريبية لعام ٢٠٢٠. جاء ثمانية منهم من بين أفضل اللاعبين في نهائي إقصائي واحد، وتم اختيار أربعة آخرين لأدائهم القوي ضد وكلاء خط الأساس في المباريات المباشرة.

اتبعت العوامل الأساسية الثابتة الاستدلال. ساذج حساب المسافة الإجمالية وتقديم العرض وفقًا لذلك، باستخدام مركبة واحدة فقط وتجاهل الدفعات؛ عرض سعر التكلفة الثابتة تم محاكاة 10 مهام عشوائية، وتم تقديم عرض بالتكلفة الهامشية المتوسطة؛ صادق تم حساب التكلفة الهامشية الفعلية لإدراج المهمة في الجدول الزمني؛ نموذج الخصم لقد فعل الشيء نفسه ولكنه أضاف تقديرًا لتكلفة الخصم، وعرض الحد الأقصى؛ و البحث عن المخاطر دمج التحلل الزمني المسبق مع تقدير التكلفة المباشرة ونمذجة الخصم - مرة أخرى تقديم أعلى من الاثنين.

شمل التقييم 40 برنامجًا مُرمَّزًا بشهادة LLM، مُصمَّمًا باستخدام GPT-5 Thinking (المذكور سابقًا)، وClaude Opus 4.1، وGemini 2.5 Pro، وDeepSeek R1. استُخدمت خمس استراتيجيات مُختلفة في كل نموذج، وطُبِّقت مرتين لكل نموذج.

استخدمت استراتيجيتان مواضيع ثابتة كتبها مؤلفون مختلفون، بينما طلبت استراتيجية ثالثة من النموذج أن يُراجع مخرجاته بنفسه؛ وتضمنت استراتيجية أخرى نقدًا ومراجعة من قِبل أستاذ ماجستير قانون مستقل. أما الاستراتيجية الأخيرة، فاستخدمت GPT-4 لتركيب موضوع جديد من خلال مراجعة جميع المناهج الأربعة السابقة.

عكست الرسالة الأساسية مهمة الطالب الأصلية، ووصفت بيئة التسليم وأعطت التعليمات للنموذج لتقديم العطاءات والتخطيط لتحقيق أقصى قدر من الربح، دون الاعتماد على أساليب عالية التعقيد.

تم اختبار جميع وكلاء LLM في إعدادات اللعب الذاتي والبطولات حتى تم إصلاح جميع الأخطاء الملحوظة. تولّت وكلاء LLM عملية إصلاح الأخطاء بشكل مستقل، حيث تم إخطارهم بمعلومات الخطأ.

تضمنت إخفاقات LLM الشائعة، وفقًا للملاحظات الورقية، انتهاكات لحدود المهلة، والفشل في التقاط أو تسليم المهام المعينة، وانتهاكات قيود سعة المركبة - وهي أخطاء غالبًا ما نشأت عن تجاهل التعليمات الصريحة، أو من منطق إعادة التخطيط الخاطئ^†:

"هناك مشكلة شائعة أخرى وجدناها (خاصةً مع Gemini وClaude وDeepSeek، وليس كثيرًا مع GPT) وهي أن LLM غالبًا ما يفشل باستمرار في حل خطأ ما.

'على سبيل المثال، قد يتوقف العميل عن العمل بشكل مستمر، على الرغم من دورات متعددة (على سبيل المثال، 5 - 15) من مطالبة LLM بالخطأ وتلقي الإصدار المحدث من الكود.

"الحل الوحيد الذي وجدناه لمثل هذه المواقف (حيث يفشل برنامج LLM مرارًا وتكرارًا في حل نفس الخطأ تمامًا) هو البدء من جديد من الصفر. بشكل عام، لاحظنا الحاجة إلى جهد يدوي كبير لتحقيق كود خالٍ من الأخطاء"كان علينا إنشاء عدد أكبر بكثير من الوكلاء للحصول على الوكلاء الأربعين الخاليين من الأخطاء الذين قمنا بتقييمهم."

تلخص النتائج الموضحة أدناه نتائج 12 بطولة مزدوجة الدور، تمتد على أربع طوبولوجيات شبكية وثلاث بطولات لكل طوبولوجيا، مما ينتج أفضل جزء من 40,000 مباراة:

الوكيل	متوسط عدد الانتصارات / الجولة	SD #Wins / الجولة	متوسط الخسائر / الجولة	SD #Losses / Tour	مجموع الانتصارات	مجموع الخسائر	معدل الفوز
طالب 1	108.167	1.193	3.833	1.193	1298	46	0.9658
طالب 2	104.917	2.539	7.083	2.539	1259	85	0.9368
طالب 3	103.917	2.466	8.083	2.466	1247	97	0.9278
طالب 4	103.25	1.815	8.75	1.815	1239	105	0.9219
طالب 5	96.5	2.908	15.5	2.908	1158	186	0.8616
ماجستير في القانون (O، IR، 1)	95.417	2.314	16.583	2.314	1145	199	0.8519
ماجستير في القانون (O، A2، 1)	94.583	2.314	17.417	2.314	1135	209	0.8445
طالب 6	93.167	1.899	18.833	1.899	1118	226	0.8318
طالب 7	93.167	3.563	18.833	3.563	1118	226	0.8318
ماجستير في القانون (O، A1، 1)	86.083	3.029	25.917	3.029	1033	311	0.7686
ماجستير في القانون (O، GEN، 2)	84.083	6.947	27.917	6.947	1009	335	0.7507
ماجستير في القانون (O، CR، 2)	83.5	4.442	28.5	4.442	1002	342	0.7455
طالب 8	83.417	4.122	28.583	4.122	1001	343	0.7448
البحث عن المخاطر	82.417	3.343	29.583	3.343	989	355	0.7359
ماجستير في القانون (O، GEN، 1)	80.667	4.355	31.25	4.372	968	375	0.7208
نموذج الخصم	80.583	3.26	31.417	3.26	967	377	0.7195
ماجستير في القانون (د، أ1، 1)	79.417	3.965	32.583	3.965	953	391	0.7091
عرض سعر التكلفة الثابتة	77.167	4.951	34.833	4.951	926	418	0.689
ماجستير في القانون (O، IR، 2)	73.917	3.502	38	3.618	887	456	0.6605
ماجستير في القانون (O، A1، 2)	72.417	2.193	39.583	2.193	869	475	0.6466
ماجستير في القانون (G، A1، 2)	68.5	3.555	43.5	3.555	822	522	0.6116
ماجستير في القانون (أ، عام، 2)	67.917	2.968	44.083	2.968	815	529	0.6064
ماجستير في القانون (G، IR، 2)	65.917	2.314	46.083	2.314	791	553	0.5885
طالب 9	64.167	11.044	47.833	11.044	770	574	0.5729
ماجستير في القانون (G، A1، 1)	64	4.243	47.917	4.316	768	575	0.5719
ماجستير في القانون (G، IR، 1)	60.333	3.725	51.667	3.725	724	620	0.5387
ماجستير في القانون (O، A2، 2)	59.333	4.499	52.667	4.499	712	632	0.5298
ماجستير في القانون (دكتوراه، ماجستير في القانون، 1)	55.083	6.694	56.833	6.59	661	682	0.4922
ماجستير في القانون (G، GEN، 2)	53.167	3.664	58.833	3.664	638	706	0.4747
ماجستير في القانون (دكتوراه، عام، 2)	52.083	9.06	59.917	9.06	625	719	0.465
صادق	50.583	3.848	61.417	3.848	607	737	0.4516
طالب 10	48.833	2.98	63.167	2.98	586	758	0.436
ماجستير في القانون (دكتوراه، علاقات دولية، 1)	48.583	10.211	63.417	10.211	583	761	0.4338
ماجستير في القانون (أ، أ1، 1)	48	4.69	64	4.69	576	768	0.4286
ماجستير في القانون (G، A2، 1)	47.25	3.864	64.75	3.864	567	777	0.4219
ماجستير في القانون (أ، CR، 1)	43.833	4.609	68.167	4.609	526	818	0.3914
ماجستير في القانون (أ، أ1، 2)	43.75	2.05	68.25	2.05	525	819	0.3906
طالب 11	42.083	5.664	69.917	5.664	505	839	0.3757
ماجستير في القانون (أ، العلاقات الدولية، 1)	39.5	2.541	72.5	2.541	474	870	0.3527
ساذج	36.75	1.712	75.25	1.712	441	903	0.3281
طالب 12	36.333	1.775	75.667	1.775	436	908	0.3244
ماجستير في القانون (د، أ2، 1)	33.917	2.193	78.083	2.193	407	937	0.3028
ماجستير في القانون (أ، عام، 1)	30.167	1.749	81.833	1.749	362	982	0.2693
ماجستير في القانون (د، أ2، 2)	29.833	2.038	82.167	2.038	358	986	0.2664
ماجستير في القانون (G، A2، 2)	27	2.256	85	2.256	324	1020	0.2411
ماجستير في القانون (أ، أ2، 1)	26.333	0.985	85.667	0.985	316	1028	0.2351
ماجستير في القانون (O، CR، 1)	25	3.411	87	3.411	300	1044	0.2232
ماجستير في القانون (أ، العلاقات الدولية، 2)	24.333	8.542	87.667	8.542	292	1052	0.2173
ماجستير في القانون (أ، أ2، 2)	24	1.809	88	1.809	288	1056	0.2143
ماجستير في القانون (أ، CR، 2)	23.333	1.557	88.667	1.557	280	1064	0.2083
ماجستير في القانون (دكتوراه، عام، 1)	22.5	1.784	89.5	1.784	270	1074	0.2009
ماجستير في القانون (د، أ1، 2)	13.333	1.826	98.667	1.826	160	1184	0.119
ماجستير في القانون (G، CR، 1)	9.5	1.087	102.5	1.087	114	1230	0.0848
ماجستير في القانون (G، GEN، 1)	9.167	0.937	102.833	0.937	110	1234	0.0818
ماجستير في القانون (دكتوراه، علاقات دولية، 2)	7.75	0.622	104.25	0.622	93	1251	0.0692
ماجستير في القانون (G، CR، 2)	7.25	1.422	104.75	1.422	87	1257	0.0647
ماجستير في القانون (دكتوراه، ماجستير في القانون، 2)	5.667	0.985	106.333	0.985	68	1276	0.0506

للتوضيح، لعب كل وكيل ١١٢ مباراة في كل بطولة، لذا فإن أقصى متوسط ممكن للفوز أو الخسارة لكل وكيل هو ١١٢. يعكس الانحراف المعياري (SD) التباين بين البطولات. يظهر الوكلاء المبرمجون بشريًا بخط غامق. يُصنف الوكلاء المبرمجون بـ LLM حسب النموذج (O = GPT-5 Thinking، G = Gemini 2.5 Pro، A = Claude Opus 4.1، D = DeepSeek R1)، متبوعًا برمز استراتيجية موجه من حرفين ورقم يشير إلى ما إذا كان الوكيل هو الأول أو الثاني الذي تم توليده باستخدام هذا التوجيه. مصدر

وفيما يتعلق بالنتائج الموضحة أعلاه، يذكر المؤلفون^†:

لم تُنتج برامج ماجستير القانون (LLM) أكوادًا متوقعة/تنافسية حتى في أبسط أشكال مشكلة APDP (على الرغم من خلوّ الكود إلى حد كبير من أخطاء بناء الجملة). وهذا يُبرز أهمية معايير تقييم الكود القائمة على المنطق، والتي تتجاوز الإكمال التلقائي وتُحدد نقاط ضعف جديدة في برامج ماجستير القانون.

"تظهر نتائجنا تفوقًا واضحًا للعوامل المبرمجة بواسطة الإنسان: (أ) يحتل وكلاء الطلاب المراكز الخمسة الأولى باستمرار، و (ثانيا) يتم التغلب على غالبية وكلاء LLM (33 من أصل 40) من قبل وكلاء أساسيين بسيطين للغاية (مثل التكلفة المتوقعة للعطاء الثابت).

الأهم من ذلك، أننا لم نُصحّح أخطاء كود الطالب (بينما اختبرنا/صحّحنا أخطاء كود LLM بدقة، سواءً في إعدادات اللعب الذاتي أو البطولة). في كل مرة يتعطل فيها وكيل طالب، كنا نمنح الفوز تلقائيًا لوكيل LLM. سيكون من السهل إصلاح عدد كبير من هذه الأعطال (مثلاً، انتهاء صلاحية الوكلاء)، وبالتالي قد يفشل وكلاء الطلاب رتبة أعلى".

كتجربة أخرى، تم حث GPT-5 Thinking على تحسين كود العميل البشري الأفضل أداءً، طالب 1لكن العامل المُعدّل بـ LLM تراجع لاحقًا إلى المركز العاشر، وهو الآن الأسوأ بين جميع الدرجات البشرية. فبدلًا من تحسين الحل، أدت تغييرات LLM إلى تدهوره بنسبة تقارب 20%.

وخلص المؤلفون إلى:

تُسلِّط نتائجنا الضوء على قيودٍ مهمةٍ في توليد أكواد برامج ماجستير القانون، وأبرزها محدودية قدراتها على التفكير والتخطيط أثناء توليدها. برامج ماجستير القانون الحديثة قادرة على توفير أكوادٍ تعمل بكفاءةٍ ودون أخطاء لغوية، لكن هذا ليس المعيار الذي ينبغي أن نستخدمه لقياس التقدم نحو الذكاء الاصطناعي العام المتقدم.

خاتمة

يلاحظ المؤلفون أنفسهم قرب نهاية البحث أن ترميز الاهتزازات قد مكّن الناس من جميع الخلفيات التقنية، ويصفون هذه الممارسة بإيجابية كقوة دافعة. مع ذلك، يُلمّحون أيضًا إلى أنه نظرًا لظهور ترميز الاهتزازات حديثًا، فإن حدوده غير معروفة، ويمكن افتراض أنها أعلى بكثير مما يمكن توقعه واقعيًا.

يختتمون عرضهم بالدعوة إلى تغيير الهدفمن الكود الذي يتم تجميعه إلى الكود الذي يتنافس.

أحد الأسئلة التي قد تخطر على بال القارئ العادي لهذه الورقة الجديدة المثيرة للاهتمام هو ما إذا كان المؤلفون يقومون بالضرب للأعلى أو للأسفل، نظرًا لأن المهمة الوكيلة المعنية أكثر تعقيدًا وتداخلًا من إخراج نصوص PowerShell وأشكال أخرى من الوظائف البسيطة والإصلاحات التي يكون الترميز الاهتزازي مناسبًا لها.

* يرجى ملاحظة أن الورقة تشير باستمرار إلى "العمق"اعتقد يبدو أن "R1" غير موجود، ولا يظهر إلا عدد قليل من المراجع على الإنترنت (على الأرجح من مؤلفين آخرين أخطأوا في كتابة "DeepSeek R1") إذا كان هذا خطأي، يُرجى التواصل معي عبر بيانات ملفي الشخصي، وسأقوم بتصحيحه.

^† التركيز من وجهة نظر المؤلف، وليس من وجهة نظري.

نُشر لأول مرة يوم الأربعاء، 26 نوفمبر 2025. وتم تعديله الساعة 17:35 بتوقيت شرق الولايات المتحدة لأغراض التنسيق.

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

الكود البشري من عام 2020 يسحق وكلاء Vibe-Code في الاختبارات الوكيلة

الأسلوب

السباق مستمر

خاتمة

قد يعجبك