الذكاء الاصطناعي
ما هي البيانات الاصطناعية؟

ما هي البيانات الاصطناعية؟
البيانات الاصطناعية هي اتجاه سريع التوسع وأداة ناشئة في مجال علم البيانات. ما هي البيانات الاصطناعية بالضبط؟ الجواب القصير هو أن البيانات الاصطناعية تتكون من بيانات لا تعتمد على أي ظواهر أو أحداث في العالم الحقيقي، بل يتم توليدها من خلال برنامج كمبيوتر. ومع ذلك، لماذا تصبح البيانات الاصطناعية مهمة جدًا لعلم البيانات؟ كيف يتم إنشاء البيانات الاصطناعية؟ دعونا نستكشف الإجابات على هذه الأسئلة.
ما هو مجموعة البيانات الاصطناعية؟
كما يوحي به المصطلح “الاصطناعي”، يتم إنشاء مجموعات البيانات الاصطناعية من خلال برامج الكمبيوتر، بدلاً من أن تتكون من خلال توثيق الأحداث في العالم الحقيقي. الغرض الرئيسي لمجموعة البيانات الاصطناعية هو أن تكون مرنة وقوية بدرجة كافية لتكون مفيدة لتدريب نماذج التعلم الآلي.
فيما يلي بعض الخصائص التي يجب أن تتوفر في البيانات الاصطناعية لتكون مفيدة لمصنف التعلم الآلي. في حين يمكن أن تكون البيانات تصنيفية أو ثنائية أو رقمية، يجب أن يكون طول مجموعة البيانات تعسفيًا ويتسم بالترتيب العشوائي. يجب أن تكون العمليات العشوائية المستخدمة في توليد البيانات قابلة للتحكم و基于 توزيعات إحصائية مختلفة. يمكن أيضًا وضع ضوضاء عشوائية في مجموعة البيانات.
إذا كانت البيانات الاصطناعية تستخدم لخوارزمية تصنيف، يجب أن يكون مقدار فصل الطبقات قابلاً للتعديل، بحيث يمكن جعل مشكلة التصنيف أسهل أو أكثر صعوبة وفقًا لمتطلبات المشكلة. وفي غضون ذلك، لمهمة الانحدار، يمكن استخدام عمليات توليد غير خطية لتوليد البيانات.
لماذا نستخدم البيانات الاصطناعية؟
随着 أطر التعلم الآلي مثل TensorFlow وPyTorch أصبحت أسهل في الاستخدام، وأصبحت النماذج المسبقة التصميم لمعالجة اللغة الطبيعية والرؤية الحاسوبية أكثر شيوعًا وقوة، فإن المشكلة الرئيسية التي يجب على علماء البيانات مواجهتها هي جمع البيانات ومعالجتها. غالبًا ما تواجه الشركات صعوبات في الحصول على كميات كبيرة من البيانات لتدريب نموذج دقيق في إطار زمني معين. التسمية اليدوية للبيانات هي طريقة مكلفة وبطيئة للحصول على البيانات. ومع ذلك، يمكن أن تساعد توليد البيانات الاصطناعية واستخدامها علماء البيانات والشركات على التغلب على هذه العوائق وتطوير نماذج التعلم الآلي بطريقة أسرع.
هناك عدد من المزايا لاستخدام البيانات الاصطناعية. أبرز طريقة لاستخدام البيانات الاصطناعية هي أن تقلل من الحاجة إلى جمع البيانات من الأحداث في العالم الحقيقي، وبالتالي يمكن توليد البيانات وإنشاء مجموعة بيانات بسرعة أكبر من مجموعة بيانات تعتمد على الأحداث في العالم الحقيقي. هذا يعني أنه يمكن إنتاج كميات كبيرة من البيانات في إطار زمني قصير. هذا صحيح بشكل خاص للأحداث التي تحدث نادرًا، حيث يمكن إنشاء المزيد من البيانات من عينات البيانات الحقيقية. بالإضافة إلى ذلك، يمكن تعليم البيانات تلقائيًا أثناء توليدها، مما يقلل بشكل كبير من الوقت اللازم لتعليم البيانات.
البيانات الاصطناعية يمكن أن تكون مفيدة أيضًا للحصول على بيانات تدريب لحالات الحواف، والتي هي حالات قد تحدث نادرًا ولكنها حاسمة لنجاح الذكاء الاصطناعي. حالات الحواف هي أحداث مشابهة للهدف الرئيسي للذكاء الاصطناعي ولكنها تختلف في جوانب مهمة. على سبيل المثال، يمكن اعتبار الأشياء التي تظهر فقط部分يًا في المنظور كحالات حواف عند تصميم مصنف الصور.
أخيرًا، يمكن أن تقلل مجموعات البيانات الاصطناعية من مخاوف الخصوصية. يمكن أن تكون محاولات إ 匿名ية البيانات غير فعالة، حيث يمكن أن تعمل المتغيرات الأخرى كمحددات عند دمجها، حتى إذا تم إزالة المتغيرات الحساسة / المحددة من مجموعة البيانات. هذه ليست مشكلة مع البيانات الاصطناعية، لأنها لم تكن تستند إلى شخص حقيقي أو حدث حقيقي في المقام الأول.
حالات استخدام البيانات الاصطناعية
البيانات الاصطناعية لها مجموعة واسعة من الحالات، حيث يمكن تطبيقها على أي مهمة تعلم آلي تقريبًا. الحالات الشائعة لاستخدام البيانات الاصطناعية تشمل السيارات ذاتية القيادة والأمان وآلات الروبوت والوقاية من الاحتيال والرعاية الصحية.
كان أحد الحالات الأولى لاستخدام البيانات الاصطناعية هو السيارات ذاتية القيادة، حيث يتم استخدام البيانات الاصطناعية لإنشاء بيانات تدريب للسيارات في ظروف يصعب أو يتعذر فيها الحصول على بيانات تدريب حقيقية على الطريق. كما أن البيانات الاصطناعية مفيدة لإنشاء بيانات تستخدم لتدريب أنظمة التعرف على الصور، مثل أنظمة المراقبة، بطريقة أكثر كفاءة من جمع البيانات وتعليمها يدوياً. يمكن أن تكون أنظمة الروبوتات بطيئة في التدريب والتنمية باستخدام طرق جمع البيانات التقليدية. تسمح البيانات الاصطناعية لشركات الروبوتات باختبار وتطوير أنظمة الروبوتات من خلال المحاكاة. يمكن أن تستفيد أنظمة حماية الاحتيال من البيانات الاصطناعية، ويمكن تدريب وتجريب أساليب الكشف عن الاحتيال الجديدة باستخدام بيانات دائمًا جديدة عند استخدام البيانات الاصطناعية. في مجال الرعاية الصحية، يمكن استخدام البيانات الاصطناعية لتصميم مصنفات صحية دقيقة تحافظ على خصوصية الأشخاص، حيث لن تكون البيانات مستندة إلى أشخاص حقيقيين.
تحديات البيانات الاصطناعية
في حين أن استخدام البيانات الاصطناعية يأتي مع العديد من المزايا، فإنه يأتي أيضًا مع العديد من التحديات.
عندما يتم إنشاء البيانات الاصطناعية، غالبًا ما تفتقر إلى القيم الشاذة. تحدث القيم الشاذة في البيانات بشكل طبيعي، و虽然 غالبًا ما يتم إسقاطها من مجموعات التدريب، قد يكون وجودها ضروريًا لتدريب نماذج التعلم الآلي الموثوقة. بالإضافة إلى ذلك، يمكن أن يكون جودة البيانات الاصطناعية متباينة للغاية. يتم إنشاء البيانات الاصطناعية غالبًا مع بيانات إدخال أو بذرة، وبالتالي يمكن أن تعتمد جودة البيانات على جودة البيانات الإدخالية. إذا كانت البيانات المستخدمة لتوليد البيانات الاصطناعية متحيزة، يمكن أن تُحدث البيانات المولدة هذا التحيز. تحتاج البيانات الاصطناعية أيضًا إلى بعض شكل التحكم في الإخراج / الجودة. يجب فحصها مقابل بيانات مصنفة يدوياً أو بيانات حقيقية في بعض الشكل.
كيف يتم إنشاء البيانات الاصطناعية؟
تتم إنشاء البيانات الاصطناعية برمجيًا باستخدام تقنيات التعلم الآلي. يمكن استخدام تقنيات التعلم الآلي الكلاسيكية مثل أشجار القرار، وكذلك تقنيات التعلم العميق. ستؤثر متطلبات البيانات الاصطناعية على نوع الخوارزمية المستخدمة لتوليد البيانات. تسمح أشجار القرار ونماذج التعلم الآلي المماثلة للشركات بإنشاء توزيعات بيانات غير تقليدية متعددة الأوضاع، مدربة على أمثلة من البيانات في العالم الحقيقي. ستوفر عملية توليد البيانات باستخدام هذه الخوارزميات بيانات ترتبط ارتباطًا وثيقًا بالبيانات الأصلية. في الحالات التي يكون فيها التوزيع النموذجي للبيانات معروفًا، يمكن للشركة توليد البيانات الاصطناعية من خلال استخدام طريقة مونت كارلو.
تعتمد الطرق القائمة على التعلم العميق لتوليد البيانات الاصطناعية عادةً على استخدام محول تبايني أوتوماتيكي (VAE) أو شبكة عصبونية تنافسية مولدة (GAN). محولات التباين الأوتوماتيكية هي نماذج تعلم آلي غير مُرقّبة تستخدم محوّلات وفكّاكات. الجزء المحول من محول التباين الأوتوماتيكي مسؤول عن ضغط البيانات إلى نسخة أبسط وأكثر إحكامًا من مجموعة البيانات الأصلية، والتي يفحصها الفكاك ثم يستخدمها لإنشاء تمثيل لقاعدة البيانات. يتم تدريب محول التباين الأوتوماتيكي بهدف وجود علاقة مثالية بين بيانات الإدخال وبيانات الإخراج، حيث تكون كلا البيانات متشابهة للغاية.
عندما يتعلق الأمر بنماذج GAN، فإنها تسمى “شبكات منافسة” بسبب حقيقة أن GANs هي في الواقع شبكتان تنافسان مع بعضهما البعض. المحول مسؤول عن توليد البيانات الاصطناعية، بينما تعمل الشبكة الثانية (المتميزة) عن طريق مقارنة البيانات المولدة مع مجموعة بيانات حقيقية ومحاولة تحديد ما هي البيانات الزائفة. عندما تكتشف المتميزة بيانات زائفة، يُبلغ المحول بذلك ويتعديل لتحقيق حزمة جديدة من البيانات التي يمكن للمتميزة اكتشافها. في المقابل، تصبح المتميزة أفضل وأفضل في الكشف عن الزيف. يتم تدريب الشبكتين ضد بعضهما البعض، مع أن البيانات الزائفة تصبح أكثر تشابهًا مع مرور الوقت.












