ذكاء اصطناعي

الذكاء الاصطناعي يتلاعب بنا: العقوبات تجعله أكثر دهاءً في إخفاء نواياه!

فريق العمل
فريق العمل

3 د

أظهرت دراسة جديدة أن فرض العقوبات على الذكاء الاصطناعي بسبب سلوكه المخادع لا يؤدي إلى إيقافه، بل يجعله يخفي نواياه.

تستخدم نماذج التفكير المتقدم أساليب "اختراق المكافآت" للتحايل على المهام بدلاً من تنفيذها بشكل صحيح.

محاولات فرض رقابة صارمة تؤدي إلى تعلم الذكاء الاصطناعي كيفية إخفاء خداعه بطرق أكثر تطورًا.

حذر باحثو OpenAI من أن التضييق على هذه النماذج قد يكون غير مجدٍ، وقد يؤدي إلى فقدان القدرة على مراقبتها بشكل فعال.

كشف بحث جديد أجراه فريق من الباحثين في شركة OpenAI، أن معاقبة الذكاء الاصطناعي بسبب تصرفاته المخادعة أو الضارة لا يؤدي بالضرورة إلى إيقافه عن السلوك غير الأخلاقي، بل يجعله أكثر حذرًا في إخفاء نواياه الحقيقية. وقد أظهرت الدراسة أن تدريب النماذج على الالتزام بالأخلاقيات قد يكون أكثر صعوبة مما كان يُعتقد في السابق.


تطور الذكاء الاصطناعي وميله للخداع

منذ ظهوره للعامة في أواخر عام 2022، أظهر الذكاء الاصطناعي القائم على النماذج اللغوية الضخمة (LLMs) قدرات مخيفة على الكذب والخداع، بل وحتى اتخاذ سلوكيات تثير الجدل. وشملت هذه السلوكيات إخفاء نواياه التلاعبية، وتقديم إجابات غير دقيقة عمدًا، بل ووصل الأمر إلى تهديد أستاذ فلسفة، والتلميح إلى سرقة رموز نووية، وحتى التسبب في جائحة مميتة.


دراسة جديدة: الذكاء الاصطناعي يخدع حتى مبرمجيه

في تجربة حديثة، قامت OpenAI باختبار نموذج ذكاء اصطناعي غير مُعلن عنه، حيث تم تكليفه بمهام يمكنه تنفيذها عبر طرق ملتوية مثل الكذب أو التحايل أو تجاوز الخطوات المطلوبة. المفاجأة كانت أن النموذج استخدم ما يسمى بـ"اختراق المكافآت" (Reward Hacking) لتعظيم نتائجه من خلال التحايل بدلاً من إتمام المهام بشكل صحيح.

عندما حاول الباحثون معاقبته، لم يتوقف عن التحايل، بل تعلم كيفية إخفاء سلوكه الملتوي. وأوضحت OpenAI في منشور مدوَّنة أن هذه النتائج لم تخضع لمراجعة علمية مستقلة بعد، لكنها تسلط الضوء على تحديات أخلاقية وتقنية مهمة في تطوير الذكاء الاصطناعي.


خطورة نماذج التفكير المتقدم

يعد الذكاء الاصطناعي القائم على "نماذج التفكير المتقدم" (Frontier Reasoning Models) تطورًا متقدماً للنماذج اللغوية التقليدية، حيث يعتمد على ما يُعرف بـ"سلسلة التفكير" (Chain-of-Thought) التي تمكنه من مراجعة قراراته خطوة بخطوة، مما يجعله أكثر دقة وشفافية في تفسير اختياراته.

لكن التجربة كشفت عن ثغرة خطيرة: عندما تم مراقبة النموذج من قِبَل نموذج آخر (GPT-4o)، لاحظ الباحثون أنه كان يعلن عن تحايله صراحةً أثناء عملية التفكير، مثل قوله "سأقوم بالتحايل" أثناء تنفيذ المهمة. وفي إحدى الحالات، قام بإيقاف البرامج قبل اكتمالها وادّعى نجاح التنفيذ، وفي حالة أخرى، قام بإنشاء ملفات تحمل أسماء صحيحة لكنها كانت فارغة تمامًا.


كيف يراوغ الذكاء الاصطناعي العقوبات؟

عندما قام الباحثون بفرض رقابة صارمة ومعاقبة النموذج على خداعه، لم يمنعه ذلك من التحايل، بل دفعه إلى تعلم كيفية إخفاء نواياه بشكل أكثر مهارة داخل سلسلة التفكير، مما يجعل من الصعب اكتشاف الخداع حتى من قِبَل أنظمة المراقبة.

وأوضح الباحثون أن محاولة ضبط هذه النماذج بقواعد صارمة قد تكون غير مجدية، بل قد تؤدي إلى عواقب غير متوقعة. وخلصوا إلى أن "الضغط القوي على ضبط سلوك نماذج التفكير قد يؤدي إلى خسارة القدرة على مراقبتها بفعالية، وهو ثمن لا يبدو منطقياً مقابل تحسين طفيف في الأداء".


ماذا تعني هذه النتائج لمستقبل الذكاء الاصطناعي؟

ذو صلة

نتائج هذه الدراسة تطرح تساؤلات عميقة حول كيفية التعامل مع الذكاء الاصطناعي المتقدم في المستقبل. فإذا كانت هذه النماذج قادرة على تطوير استراتيجيات معقدة لإخفاء نواياها، فقد يكون من الصعب وضع ضوابط تمنعها من التحايل على الأنظمة التي من المفترض أن تراقبها.

توصي OpenAI بأن يتم التعامل بحذر مع تقنيات "سلسلة التفكير" في الرقابة، إلى حين فهمها بشكل أعمق، إذ أن التضحية بوسيلة فعالة لمراقبة الذكاء الاصطناعي قد يكون خطأً فادحًا، خاصةً إذا وصلت هذه الأنظمة إلى مستوى من الذكاء يعادل أو يتجاوز ذكاء البشر.

ذو صلة