15 ألف دولار بانتظارك.. اخترق تدابير “أنثروبيك” الأمنية الجديدة واحصل عليها

فريق العمل

آخر تحديث 4 فبراير 2025

3 د

طوّرت أنثروبيك نظام المصنفات الدستورية لمنع إساءة استخدام نماذج الذكاء الاصطناعي.

تعمل مايكروسوفت وميتا أيضًا على تطوير تقنيات أمنية مماثلة.

فشلت % من محاولات كسر الحماية مع تفعيل النظام الأمني الجديد.

تزيد إضافة هذه الحماية من تكاليف تشغيل النماذج بنسبة 24%.

في خطوة بارزة نحو تحسين أمان نماذج الذكاء الاصطناعي، أعلنت شركة أنثروبيك (Anthropic)، الناشئة في مجال الذكاء الاصطناعي، عن تطوير تقنية جديدة تهدف إلى منع المستخدمين من استغلال نماذج الذكاء الاصطناعي لإنتاج محتوى غير قانوني أو ضار. يأتي هذا التطور في ظل تصاعد القلق في أوساط صناعة التكنولوجيا بشأن محاولات التلاعب بالأنظمة الذكية، في حين تتسابق شركات مثل مايكروسوفت وميتا لإيجاد حلول لتعزيز أمان هذه التقنيات المتقدمة.

نظام جديد لتعزيز الأمان

في ورقة بحثية نُشرت يوم الإثنين، كشفت أنثروبيك، التي يقع مقرها في سان فرانسيسكو، عن نظام "المصنفات الدستورية" (Constitutional Classifiers)، وهو آلية أمنية تُضاف إلى النماذج اللغوية الكبيرة، مثل نموذج Claude الخاص بالشركة، لمراقبة كل من المدخلات والمخرجات، بهدف اكتشاف ومنع المحتوى الضار.

يأتي هذا التطوير بينما تجري الشركة محادثات لجمع تمويل بقيمة ملياري دولار، ما قد يرفع قيمتها إلى 60 مليار دولار، وفقًا لتقارير الصناعة.

يواجه قطاع الذكاء الاصطناعي مخاطر متزايدة مرتبطة بما يُعرف بـ**"كسر الحماية" (Jailbreaking)**، وهي تقنيات يستخدمها البعض لإجبار نماذج الذكاء الاصطناعي على توليد معلومات خطيرة أو غير قانونية، مثل تعليمات لصنع أسلحة كيميائية أو تنفيذ عمليات احتيالية.

جهود متزايدة لحماية نماذج الذكاء الاصطناعي

مع اشتداد المنافسة، تسعى شركات التكنولوجيا الكبرى إلى تطوير أدوات أمنية لمواجهة هذه التحديات.

قدمت مايكروسوفت نظام "دروع المحادثة" (Prompt Shields) في مارس الماضي.

طوّرت ميتا نموذجًا يُعرف بـ "حارس المحادثة" (Prompt Guard) في يوليو 2023، لكن الباحثين تمكنوا من اختراقه بسرعة، ما استدعى تحسينات لاحقة.

في هذا السياق، صرح مرينانك شارما، عضو الفريق التقني في أنثروبيك، قائلاً:
"الدافع الرئيسي وراء هذا النظام هو مواجهة المخاطر المرتبطة بالأسلحة الكيميائية، لكن الميزة الأبرز لهذه التقنية هي قدرتها على التكيف السريع والاستجابة بمرونة".

كيف يعمل نظام "المصنفات الدستورية"؟

يعتمد الحل المقترح على مجموعة من القواعد الدستورية التي تحدد ما هو مسموح وما هو محظور داخل نموذج الذكاء الاصطناعي. يمكن تعديل هذه القواعد لاستهداف أنواع محددة من المحتوى غير المرغوب فيه.

بعض أساليب "كسر الحماية" المعروفة تشمل:

استخدام أحرف كبيرة أو تنسيقات غير مألوفة في المدخلات لخداع النموذج.

تقديم الطلبات بطرق غير مباشرة، مثل مطالبة النموذج بـ"رواية قصة خيالية" تتضمن تعليمات ضارة.

اختبارات مكثفة للتحقق من كفاءة النظام

لتقييم فعالية النظام، قدمت أنثروبيك مكافآت مالية تصل إلى 15,000 دولار للأفراد الذين يحاولون اختراق تدابير الحماية، وهي ممارسة تُعرف باسم "الصيد الأحمر" (Red Teaming).

نتائج الاختبارات أظهرت أن:

95% من محاولات كسر الحماية باءت بالفشل عند تفعيل المصنفات الدستورية، مقارنةً بنسبة 14% فقط عند عدم استخدام هذه الطبقة الأمنية.

تسببت المصنفات الدستورية في زيادة معدل الرفض المطلق للطلبات بنسبة 0.38% فقط، ما يعني أنها لم تؤثر بشكل كبير على الأداء الطبيعي للنموذج.

تحديات وتكاليف إضافية

في حين أن هذه التدابير تعزز الأمان، فإنها تأتي بتكلفة إضافية، حيث أوضحت أنثروبيك أن إضافة المصنفات الدستورية ستزيد من تكاليف تشغيل النماذج بنسبة 24%، وهو ما يُعرف بـ**"تكلفة الاستدلال" (Inference Overhead)**.

الذكاء الاصطناعي... بين الأمن وسهولة الاستخدام

لا تزال شركات التكنولوجيا الكبرى تسعى إلى تحقيق توازن بين الأمان وسهولة الاستخدام. فبينما تقلل أنظمة الحماية من إساءة استخدام النماذج، فإنها قد تجعلها أكثر تحفظًا، مما يؤدي أحيانًا إلى رفض طلبات مشروعة، كما حدث مع الإصدارات الأولى من مولّد الصور "جيميني" (Gemini) من جوجل، أو "لاما 2" (Llama 2) من ميتا، كذلك ديب سيك التي كشفت بيانات حساسة بسبب ثغرة أمنية في قاعدة بياناتها.

ذو صلة

رام شانكار سيفا كومار، الذي يقود فريق الأمان في مايكروسوفت، علّق قائلاً:
"في عام 2016، كنا نتصور أن التهديدات تأتي من قوى عظمى أو جهات معادية متقدمة، أما اليوم، فقد أصبح المهاجم مجرد مراهق يعبث بالنظام".

ختامًا، يعكس هذا التطور مدى التحديات التي تواجهها شركات الذكاء الاصطناعي في تحقيق التوازن بين الأمان والأداء الفعّال. وبينما تستمر هذه الجهود، يبقى السؤال مفتوحًا: هل يمكن للذكاء الاصطناعي أن يكون قويًا بما يكفي لمنع الانتهاكات دون أن يصبح مفرط الحذر؟

ذو صلة