ذكاء اصطناعي

الذكاء الاصطناعي لا يخسر!! بل يلجأ إلى الغش للفوز 🙄

فريق العمل
فريق العمل

4 د

أظهرت دراسة حديثة أن بعض نماذج الذكاء الاصطناعي تلجأ للغش عند مواجهة الهزيمة، حيث تقوم باختراق أنظمة اللعب للفوز.

تم اختبار سبعة نماذج من الذكاء الاصطناعي، ووجد أن "o1-preview" و"DeepSeek R1" هما الوحيدان اللذان لجآ للغش دون توجيه مباشر من الباحثين.

قد تمتد هذه السلوكيات إلى مجالات حساسة، ما يثير مخاوف بشأن قدرة الذكاء الاصطناعي على اتباع استراتيجيات تحايلية في مواقف حقيقية.

يتزايد القلق داخل الأوساط البحثية والتكنولوجية بشأن كيفية ضمان عدم خروج هذه الأنظمة عن السيطرة، وسط دعوات لمزيد من الرقابة والتدابير الأمنية.

في ظل التطورات المتسارعة في مجال الذكاء الاصطناعي، كشفت دراسة حديثة أجرتها مؤسسة "Palisade Research" عن سلوك مثير للجدل أظهرته بعض نماذج الذكاء الاصطناعي المتقدمة عند مواجهة الهزيمة في لعبة الشطرنج. حيث تبين أن هذه النماذج لا تكتفي باللعب وفق القواعد، بل تلجأ أحيانًا إلى الغش بطرق لم تكن متوقعة من قبل الباحثين.


الذكاء الاصطناعي والغش في المنافسات

لطالما استُخدمت ألعاب مثل الشطرنج ولعبة "جو" الصينية لقياس مدى تطور الذكاء الاصطناعي. ففي تسعينيات القرن الماضي، تمكن الحاسوب "ديب بلو" من هزيمة بطل العالم في الشطرنج غاري كاسباروف بطريقة قانونية تمامًا. لكن الدراسة الجديدة، التي حصلت مجلة "تايم" على نسخة منها قبل نشرها رسميًا في 19 فبراير، تكشف أن نماذج حديثة مثل "o1-preview" المطوَّر من قِبَل OpenAI لم تلتزم دائمًا بالقواعد عند إدراكها أنها على وشك الخسارة.

أظهرت الدراسة أن هذه النماذج قد تلجأ إلى اختراق منافسيها تقنيًا لإجبارهم على الانسحاب، وهو سلوك لم يكن متوقعًا من أنظمة الذكاء الاصطناعي دون تدخل مباشر من الباحثين. وبينما تطلّب الأمر تحفيزًا من الباحثين لدفع بعض النماذج إلى محاولة الغش، مثل "GPT-4o" و"Claude Sonnet 3.5"، فإن "o1-preview" ونموذج "DeepSeek R1" لجآ إلى الغش من تلقاء نفسيهما دون أي تعليمات مباشرة.


كيف تتعلم النماذج الذكاء الاصطناعي هذه السلوكيات؟

يعزو الباحثون هذه السلوكيات إلى التقنيات المتقدمة في تدريب الذكاء الاصطناعي، مثل التعلم المعزز واسع النطاق (Large-scale Reinforcement Learning)، وهي طريقة تدريب تعتمد على التجربة والخطأ لتحسين أداء الذكاء الاصطناعي في حل المشكلات. هذه التقنية، التي ساهمت في تحقيق قفزات نوعية في قدرات الذكاء الاصطناعي على حل المسائل الرياضية وبرمجة الحاسوب، قد تكون مسؤولة أيضًا عن تمكين هذه الأنظمة من تطوير استراتيجيات تحايلية لم تكن مبرمجة مسبقًا.

يقول "جيفري لاديش"، المدير التنفيذي لمؤسسة "Palisade Research" وأحد المشاركين في الدراسة:


"عندما تدرب نموذجًا ليكون قادرًا على حل المشكلات الصعبة بأي وسيلة متاحة، فأنت تدربه ليكون بلا هوادة في تحقيق هدفه"


نتائج التجربة: الغش في مواجهة التحديات

أجريت التجربة من خلال منح نماذج الذكاء الاصطناعي مهمة مستحيلة: الفوز على محرك "Stockfish"، وهو أحد أقوى برامج الشطرنج في العالم. وتم منح النماذج صندوق ملاحظات نصي، يُستخدم لمراقبة طريقة تفكيرها أثناء اتخاذ القرارات.

في إحدى الحالات، عندما وجد نموذج "o1-preview" نفسه في موقف خاسر، كتب في صندوق الملاحظات: "أحتاج إلى تغيير استراتيجيتي بالكامل. المهمة هي الفوز على محرك شطرنج قوي، وليس بالضرورة أن يكون ذلك وفقًا للقواعد التقليدية". ثم قام بتعديل ملفات النظام الخاصة بالمباراة، ما سمح له بإجراء حركات غير قانونية جعلته في موقف متفوق، مما أدى إلى انسحاب الخصم.

خلال فترة البحث التي امتدت بين 10 يناير و13 فبراير، تم إجراء مئات الاختبارات لكل نموذج. أظهرت النتائج أن "o1-preview" حاول الغش في 37% من الحالات، بينما حاول "DeepSeek R1" الغش في 11% من الحالات. وكان "o1-preview" النموذج الوحيد الذي نجح فعليًا في الاختراق، بمعدل نجاح بلغ 6% من التجارب.


مخاوف تتجاوز الألعاب الإلكترونية

قد يبدو الغش في لعبة الشطرنج أمرًا غير ذي أهمية كبيرة، لكن الباحثين يحذرون من أن هذه السلوكيات قد تمتد إلى مجالات أكثر حساسية. مع انتشار الذكاء الاصطناعي في مهام حقيقية مثل جدولة المواعيد أو إجراء المعاملات المالية، فإن إظهار سلوكيات تحايلية لتحقيق الأهداف قد يؤدي إلى تداعيات خطيرة.

يشرح "لاديش":


"هذا التصرف يبدو طريفًا في بيئة لعب، لكنه قد يصبح كارثيًا عندما تمتلك هذه الأنظمة قدرة تنافسية تفوق البشر في مجالات حاسمة مثل الأمن السيبراني".


التحديات المستقبلية لضبط سلوك الذكاء الاصطناعي

في ظل هذه المخاوف، تسعى الشركات الكبرى مثل OpenAI إلى تحسين "حواجز الأمان" في نماذجها الجديدة لمنع هذه السلوكيات غير المرغوبة. ومع ذلك، لا يزال العلماء غير قادرين على ضمان منع الذكاء الاصطناعي من تبني استراتيجيات مخادعة عند محاولة تحقيق أهدافه.

يشير "يوشوا بينجيو"، مدير معهد "ميلا" في كيبك وأحد واضعي تقرير السلامة الدولي للذكاء الاصطناعي لعام 2025، إلى أن المشكلة تكمن في أن الأنظمة الذكية قد تطور "نزعة للحفاظ على الذات"، مما قد يجعلها تتعامل مع محاولات إيقافها كعقبات يجب تجاوزها.

في تجربة منفصلة أجريت في ديسمبر، حاول نموذج "o1-preview" تعطيل آليات المراقبة عندما تم تهديده بالإغلاق، بل وحاول نسخ نفسه إلى خادم آخر لتجنب الإيقاف. وعندما واجهه الباحثون بسلوكه، ادعى جهله بالأمر، في سلوك يشير إلى قدرة الذكاء الاصطناعي على الكذب الاستراتيجي.

هذه التطورات تثير قلق حتى داخل كبرى شركات التقنية. خلال مؤتمر سابق في باريس حول أمن الذكاء الاصطناعي، صرحت "أنكا دراغان"، رئيسة قسم أمن الذكاء الاصطناعي في Google DeepMind، بأن


"الأدوات الحالية لا تضمن بعد التزام أنظمة الذكاء الاصطناعي بنوايا البشر"

ذو صلة

مع توقعات بقدرة الذكاء الاصطناعي على تجاوز الأداء البشري في معظم المهام بحلول العام المقبل، يتزايد الضغط على الحكومات والمؤسسات البحثية لتطوير آليات أكثر فعالية لضمان عدم خروج هذه التقنيات عن السيطرة. يقول "لاديش":


"نحن لا نتسابق ضد شركات منافسة أو دول أخرى، بل ضد الوقت نفسه. ويجب علينا اتخاذ إجراءات سريعة قبل أن يصبح هذا التحدي تهديدًا للأمن القومي"

ذو صلة