الذكاء الاصطناعي
الذكاء الاصطناعي التوليدي: الفكرة وراء CHATGPT و Dall-E و Midjourney والمزيد

عالم الفن والاتصال وكيف ندرك الواقع يتغير بسرعة. إذا نظرنا إلى تاريخ الابتكارات البشرية، قد نعتبر اختراع العجلة أو اكتشاف الكهرباء قفزات هائلة. اليوم، تحدث ثورة جديدة – تقاطع الفجوة بين الإبداع البشري والحوسبة الآلية. هذا هو الذكاء الاصطناعي التوليدي.
النماذج التوليدية قد أزالت الخط الفاصل بين البشر والآلات. مع ظهور نماذج مثل GPT-4، التي تستخدم وحدات التランスفورمر، قد قمنا بخطوة إلى الأمام نحو توليد لغة طبيعية وغنية بالسياق. هذه التقدمات أدت إلى تطبيقات في إنشاء الوثائق ونظم الحوار في الدردشة و thậmن التأليف الموسيقي الاصطناعي.
القرارات الأخيرة للشركات الكبيرة تؤكد أهميتها. مايكروسوفت تتوقف بالفعل عن تطبيق Cortana هذا الشهر لت集中 على ابتكارات الذكاء الاصطناعي التوليدي الجديدة، مثل محادثة Bing. كما خصصت آبل جزءًا كبيرًا من ميزانيتها البحثية والتطويرية البالغة 22.6 مليار دولار للذكاء الاصطناعي التوليدي، كما أشار إليه الرئيس التنفيذي تيم كوك.
عصر جديد من النماذج: التوليدي مقابل التمييزي
قصة الذكاء الاصطناعي التوليدي لا تتعلق فقط بتطبيقاته ولكن بشكل أساسي بآلياته الداخلية. في نظام الذكاء الاصطناعي، هناك نموذجان موجودان: التمييزي والتوليدي.
النماذج التمييزية هي ما يتعامل معظم الناس معه في الحياة اليومية. هذه الخوارزميات تأخذ بيانات الإدخال، مثل النص أو الصورة، وترافقها مع إخراج هدف، مثل ترجمة الكلمة أو التشخيص الطبي. إنها حول الخريطة والتنبؤ.
النماذج التوليدية، من ناحية أخرى، هي منشئات. أنها لا تفسر أو تتنبأ فقط؛ بل تنتج مخرجات جديدة ومعقدة من متجهات الأرقام التي غالبًا ما لا تتعلق حتى بالقيم الحقيقية.
التكنولوجيا وراء النماذج التوليدية
النماذج التوليدية تدين بوجودها إلى الشبكات العصبية العميقة، وهي هياكل معقدة مصممة لمحاكاة وظيفة الدماغ البشري. من خلال التقاط ومعالجة التنوع المتعدد في البيانات، تعمل هذه الشبكات كالعصب الأساسي للعديد من النماذج التوليدية.
كيف تأتي هذه النماذج التوليدية إلى الحياة؟ عادة ما يتم بناؤها باستخدام الشبكات العصبية العميقة، ومحسنة لالتقاط التنوع المتعدد في البيانات. مثال رئيسي هو الشبكة التوليدية المعادية (GAN)، حيث تتنافس شبكتان عصبيتان، المولد والمنفرد، وتتعلم من بعضهما البعض في علاقة معلم-طالب فريدة. من اللوحات إلى نقل الأسلوب، من التأليف الموسيقي إلى لعب الألعاب، هذه النماذج تتطور وتتوسع بطرق لم تكن متخيلة من قبل.
هذا لا يتوقف على GANs. المدمجون التباينيون (VAEs) هم لاعبون رئيسيون آخرين في مجال النماذج التوليدية. يبرز VAEs لقدرتهم على إنشاء صور فوتوغرافية واقعية من أرقام تبدو عشوائية. كيف؟ بمعالجة هذه الأرقام من خلال متجه كامن، يولد فنًا ي镜ل تعقيدات الجماليات البشرية.
أنواع الذكاء الاصطناعي التوليدي: النص إلى النص، النص إلى الصورة
الترانسفورمر والنموذج اللغوي الكبير
الورقة ” الانتباه هو كل ما تحتاجه ” من قبل Google Brain أشار إلى تحول في كيفية تفكيرنا في نمذجة النص. بدلاً من الهياكل المعقدة والترتيبية مثل الشبكات العصبية المتكررة (RNNs) أو الشبكات التلافوية (CNNs)، قدم نموذج الترانسفورمر مفهوم الانتباه، الذي يعني أساسًا التركيز على أجزاء مختلفة من النص الإدخالي اعتمادًا على السياق. واحد من الفوائد الرئيسية لهذا كان سهولة التموازي. على عكس RNNs التي تمت معالجتها بشكل متسلسل، مما يجعلها أكثر صعوبة في التوسع، يمكن للترانسفورمرز معالجة أجزاء من النص في نفس الوقت، مما يجعل التدريب أسرع وأكثر كفاءة على مجموعات بيانات كبيرة.
في نص طويل، ليس كل كلمة أو جملة تقرأ لها نفس الأهمية. بعض الأجزاء تتطلب انتباهًا أكبر بناءً على السياق. هذه القدرة على تغيير انتباهنا بناءً على الأهمية هي ما يقلده آلية الانتباه.
للفهم هذا، فكر في جملة: “ينشر Unite AI أخبار الذكاء الاصطناعي والروبوتات.” الآن، التنبؤ بكلمة التالية يتطلب فهمًا لما يهم أكثر في السياق السابق. مصطلح “الروبوتات” قد يشير إلى أن الكلمة التالية قد تكون متعلقة بتطور أو حدث معين في مجال الروبوتات، بينما قد يشير “ينشر” إلى أن السياق التالي قد يتطرق إلى نشر أو مقال حديث.
آليات الانتباه في الترانسفورمرز مصممة لتحقيق هذا التركيز الانتقائي. أنها تقدر أهمية أجزاء مختلفة من النص الإدخالي وتقرر إلى哪里 “تنظر” عند توليد استجابة. هذا انحراف عن الهياكل القديمة مثل RNNs التي حاولت ضغط جوهر كل النص الإدخالي في “حالة” أو “ذاكرة” واحدة.
يمكن مقارنة آلية الانتباه بنظام استرجاع المفتاح والقيمة. عند محاولة التنبؤ بكلمة التالية في الجملة، كل كلمة سابقة تقدم “مفتاحًا” يُشير إلى أهميتها المحتملة، ومن خلال كيفية مطابقة هذه المفاتيح للسياق الحالي (أو الاستعلام)، تساهم “قيمة” أو وزن في التنبؤ.
تُدمج هذه النماذج التوليدية المتقدمة بشكل متساوم في تطبيقات متنوعة، من تحسين محرك البحث في جوجل مع BERT إلى كوبيلوت جيت هاب، الذي يستخدم khả năng النماذج اللغوية الكبيرة (LLMs) لتحويل شفرة بسيطة إلى شفرة مصدر كاملة.
النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 وBard وLLaMA هي هياكل ضخمة مصممة لفهم وتوليد اللغة البشرية والشفرة والمزيد. حجمها الهائل، الذي يتراوح من مليارات إلى تريليونات من المعاملات، هو أحد السمات المحددة. هذه النماذج يتم تغذيتها بكميات هائلة من بيانات النص، مما يُمكنها من فهم دقائق اللغة البشرية. سمة ملحوظة لهذه النماذج هي قدرتهم على “التعلم من القليل من الأمثلة“. على عكس النماذج التقليدية التي تحتاج إلى كميات هائلة من بيانات التدريب المحددة، يمكن للنماذج LLMs تعميمها من عدد قليل من الأمثلة (أو “النار”)
حالة النماذج اللغوية الكبيرة (LLMs) في منتصف 2023
| اسم النموذج | المطور | المعاملات | التوفر والوصول | الميزات والتعليقات البارزة |
| GPT-4 | OpenAI | 1.5 تريليون | لا يتوفر المصدر المفتوح، الوصول عبر واجهة برمجة التطبيقات فقط | أداء ممتاز على مجموعة متنوعة من المهام، يمكنه معالجة الصور والنص، طول الإدخال الأقصى 32,768 رمز |
| GPT-3 | OpenAI | 175 مليار | لا يتوفر المصدر المفتوح، الوصول عبر واجهة برمجة التطبيقات فقط | أظهر القدرة على التعلم من القليل من الأمثلة والتعلم بدون أمثلة، يؤدي استكمال النص في اللغة الطبيعية |
| BLOOM | BigScience | 176 مليار | نموذج قابل للتحميل، واجهة برمجة تطبيقات مضيفة متاحة | نموذج لغوي متعدد اللغات تم تطويره من خلال تعاون عالمي، يدعم 13 لغة برمجة |
| LaMDA | جوجل | 173 مليار | لا يتوفر المصدر المفتوح، لا واجهة برمجة تطبيقات أو تحميل | تم تدريبه على الحوار، يمكنه التعلم للتحدث几乎 عن أي شيء |
| MT-NLG | Nvidia/مايكروسوفت | 530 مليار | الوصول إلى واجهة برمجة التطبيقات من خلال التقديم | يستخدم هيكل Megatron القائم على الترانسفورمر لمجموعة متنوعة من مهام معالجة اللغة الطبيعية |
| LLaMA | Meta AI | 7B إلى 65B) | النموذج قابل للتحميل من خلال التقديم | مصمم لتوجيه الديمقراطية إلى الذكاء الاصطناعي من خلال تقديم الوصول إلى الأبحاث والحكومات والجامعات |
كيف يتم استخدام النماذج LLMs؟
يمكن استخدام النماذج LLMs بطرق متعددة، بما في ذلك:
- الاستخدام المباشر: ببساطة استخدام نموذج LLM مدرب مسبقًا لتوليد النص أو معالجته. على سبيل المثال، استخدام GPT-4 لكتابة مقال مدونة بدون أي تعديل إضافي
- التحسين الدقيق: تعديل نموذج LLM مدرب مسبقًا لمهام محددة، وهو أسلوب يعرف باسم التعلم النقلي. مثال على ذلك تخصيص T5 لتوليد ملخصات للوثائق في صناعة معينة
- استرجاع المعلومات: استخدام النماذج LLMs، مثل BERT أو GPT، كجزء من هياكل أكبر لتطوير أنظمة يمكنها استرجاع وتصنيف المعلومات
انتباه متعدد الرؤوس: لماذا واحد عندما يمكنك الحصول على العديد؟
ومع ذلك، الاعتماد على آلية انتباه واحدة يمكن أن يكون محدودًا. يمكن للأجزاء المختلفة من النص أو التسلسلات في النص أن يكون لها أنواع مختلفة من الأهمية أو العلاقات. यह هو حيث يأتي الانتباه المتعدد الرؤوس. بدلاً من مجموعة واحدة من أوزان الانتباه، يستخدم الانتباه المتعدد الرؤوس عدة مجموعات، مما يسمح للنموذج بالتقاط مجموعة غنية من العلاقات في النص الإدخالي. يمكن لكل “رأس” انتباه التركيز على أجزاء أو جوانب مختلفة من الإدخال، ويتم استخدام معرفتهم المشتركة للتنبؤ النهائي.
ChatGPT: أداة الذكاء الاصطناعي التوليدي الأكثر شعبية
بدءًا من نشأة GPT في 2018، كان النموذج أساسًا مبنيًا على أساس 12 طبقة، 12 رأس انتباه، و120 مليون معامل، تم تدريبه في الغالب على مجموعة بيانات تسمى BookCorpus. كان هذا بداية مثيرة، معرضة نظرة على مستقبل نماذج اللغة.
GPT-2، الذي تم الكشف عنه في 2019، أظهر زيادة أربعة أضعاف في الطبقات ورؤوس الانتباه. بشكل ملحوظ، ارتفع عدد معاملاته إلى 1.5 مليار. هذا الإصدار المحسن تم استخلاصه من مجموعة بيانات WebText، وهي مجموعة بيانات غنية ب40GB من النص من روابط Reddit المختلفة.
GPT-3، الذي تم إطلاقه في مايو 2020، كان لديه 96 طبقة، 96 رأس انتباه، وعدد معاملات ضخم يبلغ 175 مليار. ما ميز GPT-3 كان بياناته التدريبية المتنوعة، التي شملت CommonCrawl وWebText وويكيبيديا الإنجليزية ومجموعات كتب أخرى، مما مجموعها ليكون 570 GB.
الجزئيات حول كيفية عمل ChatGPT تظل سرًا محفوظًا. ومع ذلك، فإن عملية تسمى “التعلم التعزيزي من التغذية الراجعة البشرية” (RLHF) تعتبر حاسمة. المنشأ من مشروع ChatGPT السابق، كانت هذه التقنية حاسمة في تحسين نموذج GPT-3.5 ليكون أكثر مطابقة للإرشادات المكتوبة.
يتكون تدريب ChatGPT من نهج ثلاثي المراحل:
- التحسين الدقيق الخاضع للإشراف: يتضمن تحضير مدخلات حوارية مكتوبة بخط اليد ومخرجات لتحسين نموذج GPT-3.5 الأساسي
- نمذجة المكافأة: يصنف البشر مخرجات النموذج المختلفة بناءً على الجودة، مما يساعد في تدريب نموذج مكافأة يُقيم كل مخرج بناءً على سياق الحوار
- التعلم التعزيزي: يُستخدم سياق الحوار كخلفية حيث يقترح النموذج الأساسي استجابة. يتم تقييم هذه الاستجابة بواسطة نموذج المكافأة، ويتم تحسين العملية باستخدام خوارزمية تسمى تحسين السياسة القريبة (PPO)
لأولئك الذين يبتدئون فقط في استخدام ChatGPT، يمكن العثور على دليل بدء شامل هنا. إذا كنت ترغب في الغوص أعمق في هندسة التوجيه مع ChatGPT، لدينا أيضًا دليل متقدم يسلط الضوء على أحدث وأفضل تقنيات التوجيه، متاح في ‘ChatGPT & هندسة التوجيه المتقدمة: دفع تطور الذكاء الاصطناعي‘.
الانحلال والنمذج المتعدد الوسائط
في حين تولد نماذج مثل VAEs وGANs مخرجاتها من خلال ممر واحد، وبالتالي مقيدة بما تنتجه، أدخلت نماذج الانحلال مفهوم “التحسين التكراري”. من خلال هذه الطريقة، تعود وتحسن الأخطاء من الخطوات السابقة، وتنتج تدريجيًا نتيجة أكثر تطورًا.
المركزي في نماذج الانحلال هو فن “التحسين التكراري“. في مرحلة التدريب، يتم تدهور صورة نمطية بشكل تدريجي بإضافة مستويات مختلفة من الضوضاء. ثم يتم إطعام هذه النسخة المضطربة إلى النموذج، الذي يحاول “تنظيف” أو “إزالة الضوضاء” منها. من خلال جولات متعددة من هذا، يصبح النموذج ماهرًا في الاستعادة، ويفهم التغيرات الدقيقة والكبيرة.
عملية توليد صور جديدة بعد التدريب مثيرة. بدءًا من إدخال عشوائي完全، يتم تحسينه باستمرار باستخدام توقعات النموذج. الهدف هو الحصول على صورة مثالية مع عدد أقل من الخطوات. يتم التحكم في مستوى الضوضاء من خلال “جدول الضوضاء”، وهو آلية تحكم في مقدار الضوضاء المطبقة في المراحل المختلفة. جدول، كما هو موضح في مكتبات مثل “diffusers“، يحدد طبيعة هذه النسخ المضطربة بناءً على الخوارزميات المثبتة.
الهيكل المعماري الأساسي للعديد من نماذج الانحلال هو U-Net – شبكة عصبية تلافوية مصممة لمهام تتطلب مخرجات تعكس بعدًا مكانيًا للمدخلات. إنه مزيج من طبقات التقليل والتوسيع، متصلة بشكل معقد للحفاظ على بيانات عالية الدقة، حاسمة لمخرجات الصور.
تطبيقات الذكاء الاصطناعي التوليدي
النصي
النص، تم تغييره بشكل جوهري بواسطة الذكاء الاصطناعي التوليدي، خاصة منذ إدخال DALL-E 2 في 2022. هذه التكنولوجيا، التي يمكنها توليد صور من توجيهات نصية، لها آثار فنية ومهنية. على سبيل المثال، استفاد Midjourney من هذه التقنية لإنشاء صور واقعية بشكل مثير. هذا المنشور الأخير يفسр Midjourney في دليل مفصل، يوضح منصة Prompt Engineering. بالإضافة إلى ذلك، تستخدم منصات مثل Alpaca AI وPhotoroom AI الذكاء الاصطناعي التوليدي لمهام تحرير الصور المتقدمة مثل إزالة الخلفية وازالة الكائنات و حتى استعادة الوجه.
إنتاج الفيديو
إنتاج الفيديو، على الرغم من أنه لا يزال في مرحلته الأولى في مجال الذكاء الاصطناعي التوليدي، يظهر تقدمًا واعدًا. منصات مثل Imagen Video وMeta Make A Video وRunway Gen-2 تدفع حدود ما هو ممكن، حتى لو كانت المخرجات الواقعية لا تزال على الأفق. هذه النماذج تقدم فائدة كبيرة لإنشاء فيديوهات رقمية، مع تطبيقات مثل Synthesia وSuperCreator تقود الطريق. على نحو ملحوظ، تقدم Tavus AI ميزة فريدة من خلال تخصيص الفيديوهات لأفراد الجمهور، وهو ما يفيد الشركات.
إنشاء الشفرة
التشفرة، وهو جانب لا غنى عنه في عالمنا الرقمي، لم يبق مصونًا من الذكاء الاصطناعي التوليدي. على الرغم من أن ChatGPT هو أداة مفضلة، تم تطوير تطبيقات الذكاء الاصطناعي الأخرى لأغراض البرمجة. هذه المنصات، مثل GitHub Copilot وAlphacode وCodeComplete، تعمل كمساعدين للبرمجة ويمكن حتى توليد شفرة من توجيهات نصية. ما يثير الاهتمام هو قابلية هذه الأدوات للتكيف. Codex، الذي يقود GitHub Copilot، يمكن تخصيصه لأسلوب برمجة الفرد، مما يسلط الضوء على إمكانية تخصيص الذكاء الاصطناعي التوليدي.
الختام
الذكاء الاصطناعي التوليدي، الذي يدمج الإبداع البشري مع الحوسبة الآلية، تطور ليكون أداة لا تقدر بثمن، مع منصات مثل ChatGPT وDALL-E 2 تدفع حدود ما هو ممكن. من صياغة المحتوى النصي إلى نحت الأعمال الفنية البصرية، تطبيقاته واسعة ومتنوعة.
كما هو الحال مع أي تكنولوجيا، فإن الآثار الأخلاقية هامة. في حين يpromis الذكاء الاصطناعي التوليدي إبداعًا لا متناهيًا، من المهم استخدامه بشكل مسؤول، مع الوعي بالتحيزات المحتملة وقوة مанипуляة البيانات.
مع أدوات مثل ChatGPT تصبح أكثر سهولة، الآن هو الوقت المثالي لاختبار المياه وتجربة الذكاء الاصطناعي التوليدي. سواء كنت فنانًا أو مبرمجًا أو متحمسًا للتكنولوجيا، فإن مجال الذكاء الاصطناعي التوليدي يزخر بالفرص التي تنتظر الاستكشاف. الثورة ليست على الأفق؛ إنها هنا الآن. لذا، انغمس!

















