الذكاء الاصطناعي
كيف يؤثر البيان الاصطناعي على هلوسات الذكاء الاصطناعي؟
على الرغم من أن البيانات الاصطناعية هي أداة قوية، إلا أنها يمكن أن تقلل من هلوسات الذكاء الاصطناعي في ظروف محددة فقط. في hầuلى الحالات الأخرى، سوف تزيد من حدوثها. لماذا يحدث هذا؟ ماذا يعني هذا الظاهرة لأولئك الذين استثمروا فيها؟
كيف تختلف البيانات الاصطناعية عن البيانات الحقيقية؟
البيانات الاصطناعية هي معلومات يتم توليدها بواسطة الذكاء الاصطناعي. بدلاً من جمعها من أحداث العالم الحقيقي أو الملاحظات، يتم إنتاجها بشكل اصطناعي. ومع ذلك، فإنها تشبه الأصلية بما يكفي لإنتاج خرج دقيق وملائم. هذا هو الفكرة، على أي حال.
لإنشاء مجموعة بيانات اصطناعية، يُدرب مهندسو الذكاء الاصطناعي خوارزمية توليدية على قاعدة بيانات حقيقية متعلقة. عند الطلب، يتم إنتاج مجموعة ثانية تشبه الأولى بشكل وثيق ولكنها لا تحتوي على معلومات حقيقية. بينما تظل الاتجاهات العامة والخصائص الرياضية سليمة، هناك ضوضاء كافية لتغطية العلاقات الأصلية.
تذهب مجموعة البيانات التي تم توليدها بواسطة الذكاء الاصطناعي إلى ما هو أبعد من إلغاء التعريف، حيث تكرر المنطق الكامن وراء العلاقات بين الحقول بدلاً من استبدال الحقول ببدائل متساوية. منذ أنها لا تحتوي على تفاصيل تعريفية، يمكن للشركات استخدامها لتجاوز لوائح الخصوصية والحقوق التأليف والنشر. وأهم من ذلك، يمكنهم مشاركة أو توزيعها بحرية دون خوف من حدوث انتهاك.
然而، يتم استخدام المعلومات الكاذبة بشكل أكثر شيوعًا للتعويض. يمكن للشركات استخدامها لتحسين أو توسيع حجم العينات التي هي صغيرة جدًا، مما يجعلها كبيرة بما يكفي لتدريب أنظمة الذكاء الاصطناعي بشكل فعال.
هل تقلل البيانات الاصطناعية من هلوسات الذكاء الاصطناعي؟
في بعض الأحيان، يُشير الخوارزميات إلى أحداث غير موجودة أو يقدم اقتراحات غير منطقية. هذه الهلوسات غالبًا ما تكون غير منطقية أو خاطئة أو مضللة. على سبيل المثال، قد يكتب نموذج لغة كبير مقالًا تعليميًا حول ترويض الأسود أو أن يصبح طبيبًا في سن السادسة. ومع ذلك، ليست كلها بهذا الحد، مما يجعل التعرف عليها أمرًا صعبًا.
إذا تمت صياغة البيانات الاصطناعية بشكل مناسب، يمكن أن تقلل من هذه الحوادث. قاعدة بيانات تدريب حقيقية وملائمة هي الأساس لأي نموذج، لذلك من المنطقي أن كلما كان الشخص拥有 المزيد من التفاصيل، كلما كان خرج نموذجه أكثر دقة. تمكن مجموعة بيانات مكملة من التوسع، حتى في التطبيقات المتخصصة التي تفتقر إلى المعلومات العامة.
التحيز هو طريقة أخرى يمكن للبيانات الاصطناعية من خلالها تقليل هلوسات الذكاء الاصطناعي. وفقًا لمدرسة إدارة ماساتشوستس للتكنولوجيا، يمكن أن مساعدة في معالجة التحيز لأنها لا تقتصر على حجم العينة الأصلي. يمكن للمهنيين استخدام التفاصيل الواقعية لتعبئة الفجوات حيث تكون الفئات الفرعية المختارة غير ممثلة أو تمثيل زائد.
كيف تجعل البيانات الاصطناعية هلوسات أسوأ
由于 الخوارزميات الذكية لا تستطيع التفكير أو وضع السياق للمعلومات، فهي عرضة للهلوسات. النماذج التوليدية — وخاصة نماذج اللغة الكبيرة المسبقة التدريب — معرضة بشكل خاص. في بعض الطرق، تزيد الحقائق الاصطناعية من المشكلة.
تعزيز التحيز
مثل البشر، يمكن للذكاء الاصطناعي تعلم وتكرار التحيزات. إذا كانت قاعدة بيانات اصطناعية تُفرط في تقدير بعض المجموعات بينما تقلل من تمثيل أخرى — وهو ما يحدث بسهولة بشكل غير مقصود — سوف يتحيز منطق اتخاذ القرارات، مما يؤثر سلبًا على دقة الإخراج.
قد ي出现 مشكلة مماثلة عندما تستخدم الشركات بيانات كاذبة لإزالة التحيزات في العالم الحقيقي لأنها قد لا تعكس الواقع بعد ذلك. على سبيل المثال، منذ أن يحدث أكثر من 99% من سرطان الثدي في النساء، يمكن أن يؤدي استخدام معلومات إضافية لتساوي التمثيل إلى تشويه التشخيصات.
هلوسات تقاطعية
التقاطعية هي إطار اجتماعي يصف كيف تتقاطع الديموغرافيا مثل العمر والجنس والعرق والمهنة والطبقة. يحلل كيف تؤدي الهويات الاجتماعية المتداخلة للمجموعات إلى مجموعات فريدة من التمييز والامتياز.
عندما يُطلب من نموذج توليدي توليد تفاصيل اصطناعية بناءً على ما تم تدريبه عليه، قد يولد مجموعات لم تكن موجودة في الأصل أو تكون غير منطقية.
عملت إيريكا جونسون، أستاذة الجنس والمجتمع في جامعة لينكوبينج، مع عالم علمي في تعلم الآلة لتوضيح هذه الظاهرة. لقد استخدموا شبكة توليدية معادية لإنشاء إصدارات اصطناعية من إحصاءات التعداد السكاني للولايات المتحدة لعام 1990.
على الفور، لاحظوا مشكلة واضحة. كان الإصدار الاصطناعي يحتوي على فئات بعنوان “الزوجة والأمومة” و “أزواج غير متزوجين أبدًا”، وكلاهما كانا هلوسات تقاطعية.
بدون صياغة مناسبة، سوف تُشير قاعدة البيانات المتماثلة دائمًا إلى المجموعات الفرعية المهيمنة في مجموعات البيانات بينما تقلل من تمثيل — أو حتى استبعاد — المجموعات غير الممثلة. قد يتم تجاهل الحالات الحافة والخارجية تمامًا لصالح الاتجاهات السائدة.
انهيار النموذج
الاعتماد المفرط على الأنماط والاتجاهات الاصطناعية يؤدي إلى انهيار النموذج — حيث يتحول أداء الخوارزمية بشكل كبير إلى الأسوأ مع انخفاض قدرته على التكيف مع الملاحظات والأحداث في العالم الحقيقي.
تظهر هذه الظاهرة بشكل خاص في الذكاء الاصطناعي التوليدي الجيل القادم. يؤدي استخدام نسخة اصطناعية بشكل متكرر لتدريبها إلى حلقة自يّة. وجدت دراسة أن جودة الاستدعاء تنخفض بشكل متزايد بدون وجود أرقام حقيقية حديثة كافية في كل جيل.
التعلم الزائد
التعلم الزائد هو الاعتماد المفرط على بيانات التدريب. يؤدي الخوارزمية بشكل جيد في البداية ولكن سوف تهلوس عندما يتم تقديم نقاط بيانات جديدة. يمكن للبيانات الاصطناعية أن تزيد من هذه المشكلة إذا لم تعكس الواقع بدقة.
الآثار المترتبة على استمرار استخدام البيانات الاصطناعية
سوق البيانات الاصطناعية في ازدهار. شركات في هذا القطاع الفرعي جمعت حوالي 328 مليون دولار في عام 2022، من 53 مليون دولار في عام 2020 — زيادة بنسبة 518% في 18 شهرًا فقط. يُشار إلى أن هذا هو التمويل المعروف علنًا فقط، مما يعني أن الرقم الفعلي قد يكون أعلى. من الآمن القول إن الشركات تستثمر بشكل كبير في هذا الحل.
إذا استمرت الشركات في استخدام قاعدة بيانات اصطناعية بدون صياغة وتصحيح مناسب، سوف يتحول أداء نموذجها بشكل متزايد إلى الأسوأ، مما يؤدي إلى تدهور استثماراتها في الذكاء الاصطناعي. قد تكون النتائج أكثر حدة، اعتمادًا على التطبيق. على سبيل المثال، في مجال الرعاية الصحية، قد يؤدي زيادة في الهلوسات إلى تشخيصات خاطئة أو خطط علاجية غير مناسبة، مما يؤدي إلى نتائج أسوأ للمرضى.
الحل لن يتضمن العودة إلى البيانات الحقيقية
أنظمة الذكاء الاصطناعي تحتاج إلى ملايين، إن لم يكن مليارات، من الصور والنصوص والفيديوهات للتدريب، والتي يتم جمع معظمها من المواقع العامة ودمجها في مجموعات بيانات مفتوحة ضخمة. للأسف، تستهلك الخوارزميات هذه المعلومات بشكل أسرع مما يمكن للبشر توليدها. ماذا يحدث عندما يتعلمون كل شيء؟
يخاف قادة الأعمال من الوصول إلى حائط البيانات — النقطة التي يتم استنفاد جميع المعلومات العامة على الإنترنت فيها. قد يكون ذلك أقرب مما يعتقدون.
على الرغم من أن كلًا من كمية النص العادي على صفحة التصفح الشائع وعدد مستخدمي الإنترنت ينمو بنسبة 2% إلى 4% سنويًا، فإن الخوارزميات تفرغ من البيانات عالية الجودة. يمكن استخدام فقط 10% إلى 40% منها للتدريب دون المساس بالأداء. إذا استمرت الاتجاهات، قد ينفد مخزون المعلومات العامة التي يتم توليدها بواسطة البشر بحلول عام 2026.
في جميع الاحتمالات، قد تصل صناعة الذكاء الاصطناعي إلى حائط البيانات حتى قبل ذلك. أزمة الذكاء الاصطناعي التوليدي في السنوات القليلة الماضية زادت التوترات حول ملكية المعلومات وانتهاك حقوق النشر. أكثر مالكي المواقع يُستخدمون بروتوكول استبعاد الروبوت — معيار يستخدم ملف روبوتس.txt لمنع روبوتات التصفح — أو إظهار أن موقعهم محظور.
كشفت دراسة نُشرت في عام 2024 بواسطة مجموعة بحثية بقيادة معهد ماساتشوستس للتكنولوجيا أن القيود على مجموعة بيانات التصفح الكبير المُصحح (C4) في ازدياد. أكثر من 28% من المصادر الأكثر نشاطًا والحرجة في C4 تم حظرها بالكامل. بالإضافة إلى ذلك، تم تحديد 45% من C4 على أنه محظور من قبل شروط الخدمة.
إذا احترمت الشركات هذه القيود، سوف تنخفض طازجة وملاءمة ودقة الحقائق العامة في العالم الحقيقي، مما يضطرهم إلى الاعتماد على قواعد بيانات اصطناعية. قد لا يكون لديهم خيار كبير إذا قرر المحاكم أن أي بديل هو انتهاك لحقوق النشر.
مستقبل البيانات الاصطناعية وهلوسات الذكاء الاصطناعي
مع تحديث قوانين حقوق النشر وزيادة عدد مالكي المواقع الذين يخفيون محتوىهم عن روبوتات التصفح، سوف يزداد إنتاج قواعد البيانات الاصطناعية شعبية. يجب على المنظمات الاستعداد لمواجهة تهديد الهلوسات.












