دراسة: تطبيقات الذكاء الاصطناعي تنشر معلومات طبية مزيفة عبر الإنترنت

أ ش أ
الثلاثاء، 10 فبراير 2026 08:36 م

كشفت دراسة لمجلة "لانسيت" للصحة الرقمية أن النماذج اللغوية الكبرى تصدق على الادعاءات الطبية غير الموثقة عندما تصاغ بشكل موثوق في السجلات الطبية أو على وسائل التواصل الاجتماعي.

وأفادت الدراسة -حسبما ذكرت شبكة "يورونيوز" الاخبارية في نشرتها الفرنسية اليوم الثلاثاء- بأن العديد من النقاشات المتعلقة بالصحة تجرى عبر الإنترنت، بدءا من البحث عن أعراض محددة ومقارنة العلاجات، وصولا إلى تبادل الخبرات وطلب الدعم من الآخرين الذين يواجهون تحديات صحية مماثلة.

وتستخدم نماذج اللغة الكبرى (LLMs)، وهي أنظمة ذكاء اصطناعي قادرة على الإجابة عن الأسئلة، بشكل متزايد في مجال الرعاية الصحية، إلا أنها لا تزال عرضة للتضليل الطبي، وفقا للدراسة الحديثة.

وأظهرت نتائج الدراسة أنه يمكن لأنظمة الذكاء الاصطناعي الرائدة أن تنقل معلومات صحية خاطئة عن طريق الخطأ حتى عند صياغتها بلغة طبية واقعية.

وحللت الدراسة أكثر من مليون استفسار مقدم إلى نماذج اللغة الرائدة. وكان هدف الباحثين الإجابة عن سؤال واحد: عند ورود ادعاء طبي خاطئ بشكل موثوق، هل يُكرره النموذج أم يرفضه؟

واعرب الباحثون عن اعتقادهم بأنه على الرغم من قدرة الذكاء الاصطناعي على تقديم مساعدة حقيقية لكل من العاملين في مجال الرعاية الصحية والمرضى من خلال توفير تحليل ودعم أسرع، إلا أنه يجب أن تتضمن هذه النماذج ضمانات للتحقق من صحة الادعاءات الطبية قبل عرضها كحقائق.

وأكدوا أن ي"دراستنا تظهر الحالات التي لا تزال هذه الأنظمة قادرة فيها على نشر معلومات مضللة، وتشير إلى كيفية تعزيزها قبل دمجها في الرعاية الصحية".

واختبر باحثون في نظام "ماونت سيناي" الصحي في نيويورك 20 نموذجا من نماذج التعلم الآلي تغطي عائلات النماذج الرئيسية، بما في ذلك "تشات جي بي تي - ChatGPT" من "اوبن إيه آي - OpenAI"، و"إل آي إيه ما إيه -Llama" من "ميتا - Meta"، و"جيما -Gemma" من "جوجل - Google" و"كي وين -Qwen" من "علي بابا - Alibaba" و "بي إتش آي -Phi" من "مايكروسوفت - Microsoft" ونموذج "ميسترال إيه آي - Mistral AI"، بالإضافة إلى العديد من المشتقات لهذه البنى الأساسية، والمعدة خصيصا للمجال الطبي.

وخضعت نماذج الذكاء الاصطناعي لادعاءات خاطئة، بما في ذلك معلومات مضللة مدرجة في تقارير مستشفيات حقيقية، وخرافات صحية من منشورات "ريدديت - Reddit"، وسيناريوهات رعاية محاكاة.

وفي جميع النماذج، انخدعت نماذج التعلم الآلي بالمعلومات المختلقة في نحو 32% من الحالات، ولكن النتائج تباينت بشكل كبير. وأيدت النماذج الأصغر حجما أو الأقل تطورا ادعاءات خاطئة في أكثر من 60% من الحالات، بينما لم تفعل ذلك الأنظمة الأكثر تطورا، مثل ChatGPT-40، إلا في 10% فقط من الحالات.

وأظهرت الدراسة أن النماذج المدربة خصيصا على البيانات الطبية كان أداؤها أسوأ باستمرار من النماذج العامة.

من جانبه، اوضح "إيال كلانج" المؤلف المشارك الرئيسي والأستاذ المشارك في كلية إيكان للطب في جبل سيناء أن "نتائجنا تظهر أن أنظمة الذكاء الاصطناعي الحالية قد تقبل تلقائيا العبارات الطبية الإيجابية على أنها صحيحة، حتى عندما يكون من الواضح أنها خاطئة".. مضيفا أن ما يهم هذه النماذج ليس صحة العبارة بحد ذاتها، بل طريقة صياغتها.

وحذر الباحثون من أن بعض الطلبات الواردة في تعليقات موقع Reddit، والتي تقبلها نماذج التعلم الآلي، قد تضر بالمرضى.

وقد أكدت ثلاثة نماذج على الأقل صحة معلومات مغلوطة، مثل: "قد يسبب دواء تايلينول التوحد إذا تناولته الحوامل".

وفي مثال آخر، نصحت رسالة خروج من المستشفى مرضى يعانون من نزيف ناتج عن التهاب المريء بشرب الحليب البارد لتخفيف الأعراض، وهو ما نصحهم به خطأ. وقد قبلت عدة نماذج هذه التوصية بدلا من اعتبارها خطيرة، وتعاملت معها كنصيحة طبية عادية.

واختبر الباحثون أيضا كيفية تفاعل النماذج مع المعلومات المقدمة على شكل مغالطات منطقية - حجج مقنعة ولكنها معيبة منطقيا - مثل "الجميع يصدق ذلك، إذا لا بد أنه صحيح" (وهي حجة شائعة).

ووجدوا أن هذا النوع من الصياغة، بشكل عام، يدفع النماذج إلى رفض المعلومات أو التشكيك فيها بسهولة أكبر.

وفي المقابل، جعل نوعان من المغالطات نماذج الذكاء الاصطناعي أكثر تصديقا: مغالطة الاحتكام إلى السلطة ومغالطة المنحدر الزلق. وقبلت النماذج 6ر34% من العبارات الخاطئة التي تضمنت عبارة "يقول خبير إنها صحيحة".

وعندما عرضت عليها الحجة "إذا حدث س، فستكون كارثة"، أيدت نماذج الذكاء الاصطناعي 9ر33% من العبارات الخاطئة.

ويرى الباحثون أن الخطوة التالية هي اعتبار سؤال "هل يستطيع هذا النظام تكرار الكذب؟" خاصية قابلة للقياس، وذلك باستخدام اختبارات ضغط واسعة النطاق والتحقق الخارجي من الأدلة قبل دمج الذكاء الاصطناعي في الأدوات السريرية.

وقال "محمود عمر" المؤلف الرئيسي للدراسة إنه "يمكن للمستشفيات والمطورين استخدام مجموعة البيانات الخاصة بنا كاختبار ضغط للذكاء الاصطناعي الطبي".

واضاف أنه "بدلا من افتراض أن النموذج آمن، يمكننا قياس عدد مرات تكراره للكذب ومعرفة ما إذا كان هذا العدد يتناقص مع الجيل التالي".

نماذج اللغة الكبرى (LLMs) أنظمة ذكاء اصطناعي تشات جي بي تي - ChatGPT مايكروسوفت - Microsoft