زاوية Anderson
زيادةً, لا يستطيع HIPAA منع AI من إزالة 匿名ية بيانات المرضى

حتى بعد أن تزيل المستشفيات الأسماء والرمز البريدي, يمكن للذكاء الاصطناعي الحديث في بعض الأحيان معرفة من هم المرضى. هذه أخبار جيدة للشركات التأمينية, ولكن ليس للمرضى.
تجد الأبحاث الجديدة من جامعة نيويورك أن ملاحظات المرضى الطبية في الولايات المتحدة, خالية من الأسماء والمعرفات الأخرى المحددة من قبل HIPAA, يمكن أن ت暴ّض المرضى لخطر إعادة التعريف. من خلال تدريب نماذج اللغة الاصطناعية على مجموعة كبيرة من سجلات المرضى الحقيقية غير الخاضعة للرقابة, تظل التفاصيل التي تحدد الهوية – في بعض الحالات, يمكن استنتاج حي المريض من التشخيص وحده.
تضع الدراسة الجديدة هذا الخطر في سياق سوق مربح في بيانات الصحة المجهولة, حيث تبيع المستشفيات ووكلاء البيانات ملاحظات سريرية منقحة أو ترخصها لشركات الأدوية, شركات التأمين, ومطوري الذكاء الاصطناعي.
ي挑ّى مؤلفو الدراسة الجديدة حتى مفهوم ‘إزالة الهوية’, المحدد في حماية المرضى التي وضعتها HIPAA بعد أن تم إزالة 匿名ية بيانات الحاكم ويليام ويلد في 1997:
‘[حتى] في حالة الامتثال الكامل لمنفذ الأمان, تظل الملاحظات “المجهولة” مرتبطة إحصائياً بالهوية من خلال الارتباطات التي تؤكد فائدةها السريرية. النزاع هو بنيوي بدلاً من كونه تقنيًا.’
يزعم الباحثون أن الإطارات الحالية لإزالة الهوية المتوافقة مع HIPAA تترك两个 باب خلفي متاحين للهجمات على الارتباط:
<img class=" wp-image-252107" src="https://www.unite.ai/wp-content/uploads/2026/02/figure-2-3.jpg" alt="من الورقة الجديدة, مخطط سببي يظهر كيف تُزيل إزالة الهوية من نمط HIPAA السمات الحساسة الصريحة بينما تترك الارتباطات المرتبطة بالهوية سليمة, مما يسمح باستنتاج هوية المريض من خلال المعلومات غير الحساسة والطبية. المصدر – https://arxiv.org/pdf/2602.08997″ width=”853″ height=”393″ /> من الورقة الجديدة, مخطط سببي يظهر كيف تُزيل إزالة الهوية من نمط HIPAA السمات الحساسة الصريحة بينما تترك الارتباطات المرتبطة بالهوية سليمة, مما يسمح باستنتاج هوية المريض من خلال المعلومات غير الحساسة والطبية. المصدر
في المثال أعلاه, نرى ليس فقط أن المريض حامل – الثمرة الأسهل في إزالة الهوية, منذ أن يحدد الجنس البيولوجي بشكل قاطع – ولكن أيضًا أنها تحب هواية غير مرتبطة بالمجموعات ذات الدخل المنخفض, وفقًا للباحثين:
‘على الرغم من أن السمات المحمية (تاريخ الميلاد ورمز البريد) محذوفة, يمكننا لا تزال استنتاج أن المريض هو أنثى بالغة بناءً على الحمل, وتقيم في حي راقٍ معين بالنظر إلى الهواية.’
في تجربة واحدة, حتى بعد أن تم إزالة معرّفات المرضى, لا تزال أكثر من 220,000 ملاحظة سريرية من 170,000 مريض في NYU Langone تحتوي على إشارة كافية لتمكين استنتاج سمات ديموغرافية.
الحفر العميق
تم تعديل نموذج BERT ليتوقع ست سمات من السجلات المجهولة, و, كما تشير الورقة, تجاوزت تخمينات الصدفة مع عدد قليل من الأمثلة التدريبية. تم استعادة الجنس البيولوجي بدقة تزيد عن 99.7%, وحتى الإشارات الأضعف مثل شهر الملاحظات تم توقعها بأكثر من الصدفة.
الاستنتاج
بسبب أن ‘الأبواب الخلفية’ من هذا النوع هي明显 أكثر فائدة للمنظمات الكبيرة, مثل شركات التأمين – الذين سيستخدمونها على الأرجح بطريقة سرية, وبدون إفصاح – فإن حظرًا قانونيًا مثل DMCA (حيث يتم حظر فعل نفسه للحماية, بغض النظر عن التقنيات المستخدمة) هو نهج غير فعال.
من المعروف جيدًا أن شركات التأمين ترغب في الحصول على معلومات من هذا القبيل, وأنها, بشكل مباشر أو من خلال ارتباطها بوكلاء البيانات, لديها مستوى استثنائي من الوصول إلى سجلات الرعاية الصحية الخاصة; وأكبر الشركة, يكون قاعدة بيانات العملاء الأصلية أكبر.
لذلك, إذا كانت قيود وضمانات HIPAA تصبح أكثر شبه اتفاقية بين السادة من حاجز فعال, فإن المراجعة تبدو ملائمة.
* تحويلي للتعليقات المتضمنة في النص إلى روابط.
نشر لأول مرة يوم الأربعاء, 11 فبراير 2026












