كلما زاد ذكاءها… زادت أكاذيبها؟ أزمة هلوسة داخل نماذج OpenAI المتقدمة

3 د
وجدت OpenAI أن نماذج GPT o3 وo4-mini تعاني من معدلات هلوسة أعلى من النموذج السابق o1، خاصة في اختبارات تتعلق بالشخصيات العامة والأسئلة العامة.
وصلت نسب الهلوسة إلى 33% و48% في اختبار PersonQA، و51% و79% في SimpleQA، ما يفوق بكثير معدل o1.
النماذج الجديدة، رغم تصميمها لتقليد التفكير البشري المنطقي، ترتكب أخطاءً أكثر، ما يطرح تساؤلات حول بنيتها.
دافعت OpenAI عن النماذج الجديدة وتؤكد أنها تعمل على تقليل هذه الأخطاء، لكنها لا تملك تفسيراً قاطعاً لما يحدث حتى الآن.
في وقت تُسابق فيه كبرى شركات الذكاء الاصطناعي الزمن لتقديم نماذج لغوية أذكى وأكثر قدرة على "التفكير"، تأتي نتائج اختبارات OpenAI الأخيرة لتلقي بظلال من الشك على مصداقية هذه النماذج المتقدمة. فبدلاً من تقليص معدل الأخطاء، يبدو أن النماذج الجديدة أصبحت أكثر عرضة لما يُعرف بـ"الهلوسة" — أي اختلاق معلومات خاطئة أو غير دقيقة — وهو أمر يشكل تحدياً خطيراً لطموحات الذكاء الاصطناعي في المهام التي تتطلب دقة وموثوقية.
نتائج الاختبارات: نماذج أقوى... لكنها أكثر خطأً
بحسب تقرير نشرته صحيفة نيويورك تايمز، أظهرت اختبارات داخلية أجرتها شركة OpenAI أن النماذج الأحدث — وتحديداً GPT o3 وGPT o4-mini — أظهرت معدلات هلوسة أعلى بكثير من النموذج السابق GPT o1. في اختبار يُعرف باسم PersonQA، والذي يطلب من النموذج الإجابة عن أسئلة تتعلق بشخصيات عامة، هلوس GPT o3 في 33% من الحالات، أي ما يعادل ضعف معدل النموذج o1. أما GPT o4-mini فكانت نتائجه أسوأ، إذ بلغت نسبة الهلوسة فيه 48%.
وعند اختبار آخر يدعى SimpleQA، والذي يتضمن أسئلة عامة، كانت النسبة أكثر إثارة للقلق: GPT o3 هلوس في 51% من الحالات، وارتفعت النسبة إلى 79% مع GPT o4-mini، مقارنة بـ44% للنموذج o1.
لماذا يحدث ذلك؟ لا أحد يعرف تماماً
رغم التقدم الكبير في قدرات النماذج الحديثة، لا يزال سبب زيادة معدل الهلوسة غير مفهوم بشكل كافٍ. ويبدو أن ما يُعرف بـ"نماذج الاستدلال" — المصممة خصيصاً لتفكيك المهام المعقدة إلى خطوات شبيهة بطريقة تفكير الإنسان — هي المتهم الرئيسي في هذه الظاهرة، بحسب ما أفاد به بعض المراقبين في القطاع.
ومن المفارقات أن OpenAI كانت قد قدمت النموذج o1 العام الماضي بوصفه نموذجاً يستطيع مجاراة طلبة الدكتوراه في مجالات الفيزياء والكيمياء والأحياء، بل ويتفوق عليهم في الرياضيات والبرمجة، بفضل تقنيات التعلم المعزز. وكان يُعتقد أن هذه النماذج الأكثر "تفكيراً" ستوفر دقة أعلى، لكن الواقع جاء مغايراً.
OpenAI تدافع: "الهلوسة ليست مرتبطة جوهرياً بنماذج الاستدلال"
في تصريح لصحيفة نيويورك تايمز، أكدت غابي رايلا، المتحدثة باسم OpenAI، أن "الهلوسة ليست متأصلة في نماذج الاستدلال بحد ذاتها"، لكنها أضافت أن الشركة تعمل بنشاط على تقليل هذه المعدلات المرتفعة التي ظهرت في النماذج o3 وo4-mini.
إلا أن بعض المحللين يرون أن هذه الأزمة تتجاوز مجرد خلل مؤقت في النماذج، وتطرح أسئلة أعمق حول الطريقة التي تُدرَّب بها هذه الأنظمة وطبيعة "المنطق" الذي تعتمد عليه لإنتاج النصوص.
بين الطموح والواقع: ما جدوى نماذج لا يمكن الوثوق بها؟
رغم الضجة الإعلامية والاهتمام التجاري بنماذج الذكاء الاصطناعي، فإن تزايد معدل الهلوسة يهدد الهدف الأساسي منها: توفير أدوات موثوقة تختصر الوقت وتقلل من عبء العمل. فطالما أن كل معلومة تنتجها هذه النماذج تحتاج إلى تدقيق بشري صارم، فإن جدوى استخدامها تصبح موضع تساؤل.
قد تكون هذه النتائج مؤقتة، أو ربما تعكس حدوداً بنيوية في الذكاء الاصطناعي الحالي. لكن المؤكد أن أي مستقبل حقيقي لهذه التكنولوجيا يمر أولاً عبر تقليص الأكاذيب الرقمية التي تولدها "أحلام الروبوتات"، كما وصفها التقرير.