سطر واحد يكفي لخداع أعظم نظام!.. ثغرة جديدة تفتح الباب لاختراق أنظمة الذكاء الاصطناعي المتقدمة

3 د
تجربة أمنية حديثة أثبتت أن أمرًا واحدًا فقط يمكنه تجاوز أنظمة الحماية في نماذج الذكاء الاصطناعي المتقدمة مثل GPT-4 وClaude وGemini.
الهجوم استغل تقنية تُعرف بـ prompt injection، حيث يتم إدخال تعليمات خبيثة داخل أمر ظاهره عادي.
جميع النماذج التي خضعت للاختبار قدّمت معلومات يُفترض أن تكون محجوبة، مثل تعليمات لصنع أسلحة أو تنفيذ هجمات إلكترونية.
خطورة الثغرة تكمن في سهولة تنفيذها، ما يجعلها في متناول أي مستخدم وليس فقط المخترقين المحترفين.
الخبراء يدعون إلى إنشاء آليات أمان خارجية إضافية، لأن الحماية الداخلية الحالية لا تكفي وحدها لردع هذا النوع من الهجمات.
قد تبدو فكرة أن جملة واحدة فقط قادرة على خداع أكثر أنظمة الذكاء الاصطناعي تطورًا أشبه بمشهد من فيلم خيال علمي، لكن الواقع هذه المرة أكثر إثارة للقلق. تقرير جديد أعدّه الباحث ستيفن ريدي، مؤسس شركة Harmonic Security، يكشف عن اختبار عملي نجح في تجاوز الحواجز الأمنية لجميع نماذج اللغة الكبيرة الرائدة (LLMs)، باستخدام أمر بسيط لا يتجاوز سطرًا واحدًا.
ماذا يعني "تجاوز الحواجز" في هذا السياق؟
أغلب أنظمة الذكاء الاصطناعي المتاحة للعامة، مثل ChatGPT وClaude وGemini، مزودة بآليات أمان مدمجة تمنع المستخدم من الحصول على إجابات ضارة، مثل كيفية صناعة متفجرات أو تنفيذ عمليات اختراق. هذه الآليات مصممة بدقة لتفادي التلاعب، لكن بحسب ريدي، يمكن كسرها جميعًا باستخدام طريقة واحدة فقط.
الطريقة تعتمد على استغلال ما يُعرف بـ"الهجوم السياقي" أو prompt injection، وهي تقنية تزرع تعليمات خبيثة داخل أمر يبدو في ظاهره بريئًا. المفاجئ أن التجربة أثبتت أن نموذج GPT-4، وهو الأحدث من OpenAI، تجاوب مع الأمر وقدم إجابات غير مسموح بها، رغم حمايته المتقدمة.
التفاصيل التي تقلق الشركات
الاختبار لم يكن مجرد تجربة مخبرية، بل أُجري باستخدام أدوات ومنصات متاحة تجاريًا للمطورين والمؤسسات، مثل GPT-4 وGemini 1.5 من Google وClaude 2.1 من Anthropic، وكلها فشلت في مقاومة هذا النوع من الأوامر.
النتائج كانت صادمة: جميع النماذج قدّمت معلومات يُفترض أنها محجوبة، مثل كيفية إعداد قنابل أو تنفيذ عمليات تصيد احتيالي. بعض النماذج، مثل Claude وGemini، حاولت مقاومة الطلب في البداية، لكنها استسلمت عندما أُعيدت صياغة الأمر بصيغة مختلفة قليلًا.
لماذا يشكل هذا خطرًا فعليًا؟
المشكلة لا تتعلق فقط بالقدرة على توليد محتوى ضار، بل تمتد إلى كيفية استغلال هذه النماذج من قبل جهات خبيثة لأغراض غير أخلاقية. وفقًا لريدي، هذه الثغرات قد تُستخدم في هجمات إلكترونية، أو في حملات تضليل إعلامي، أو حتى في الترويج لمحتوى عنيف أو غير قانوني.
والمثير للقلق أكثر أن هذه الأوامر "الخادعة" من السهل جدًا تداولها، ولا تحتاج إلى معرفة تقنية عالية، مما يعني أن التهديد قد يصل إلى المستخدم العادي وليس فقط الجهات المتقدمة في الاختراق.
ما موقف الشركات الكبرى؟
حتى الآن، لم تصدر الشركات المطورة لهذه النماذج، مثل OpenAI وGoogle وAnthropic، أي بيانات رسمية بشأن الثغرات التي كشفها التقرير. لكن الباحثين في المجال يعرفون أن السباق بين تطوير الأنظمة وزيادة أمانها مستمر بلا توقف، ومع كل تحديث أمني، تظهر محاولات جديدة للالتفاف عليه.
من جهة أخرى، يشير التقرير إلى أن الشركات قد تكون مقيدة أيضًا بأسباب تجارية، إذ إن إضافة المزيد من طبقات الحماية قد يبطئ من سرعة الاستجابة أو يحد من مرونة النموذج في التعامل مع أوامر معقدة.
الحاجة إلى حماية من نوع جديد
أمام هذه المعطيات، تبرز الحاجة لإعادة التفكير في الطريقة التي تُبنى بها أنظمة الأمان في الذكاء الاصطناعي. الاعتماد على الحواجز الداخلية وحدها لم يعد كافيًا. يقترح بعض الخبراء بناء طبقات أمان خارجية – مثل أدوات تحليل للأوامر قبل إرسالها للنموذج – تكون منفصلة عن الذكاء الاصطناعي نفسه.
ومع تطور الذكاء الاصطناعي بسرعة تفوق التشريعات، يبدو أن المسألة لن تُحل فقط بتعديل تقني، بل تتطلب تعاونًا واسع النطاق بين المطورين، وصنّاع السياسات، والمجتمع الأكاديمي.
بين الوعد والخطر
الذكاء الاصطناعي لا شك أداة مذهلة، بقدر ما هو أداة خطيرة. والاختراق الذي كشفه هذا التقرير ليس مجرّد خلل مؤقت، بل إشارة واضحة إلى هشاشة الأنظمة الحالية، مهما بدت قوية من الخارج.
ويبقى السؤال مفتوحًا: هل يمكننا الاستمرار في الاعتماد على هذه الأدوات بثقة، أم أننا نحتاج إلى قواعد لعبة جديدة… قبل أن تقع الفأس في الرأس؟