ذكاء اصطناعي

نموذج GPT-4.5 يتجاوز اختبار تورينغ: هل تجاوز الذكاء الاصطناعي حدود البشر؟

فريق العمل
فريق العمل

3 د

استطاع نموذج GPT-4,5 من OpenAI اجتياز اختبار تورينغ بنجاح بنسبة 73% عند منحه "شخصية"، متجاوزًا الإنسان الحقيقي في بعض الحالات.

كشفت النتائج أن التعليمات التي تعطى للنموذج – وخاصة التي تتضمن تبني شخصية بشرية – تلعب دورًا حاسمًا في إقناع المحاورين.

لا تُعد هذه النتائج دليلاً قاطعًا على امتلاك الذكاء الاصطناعي وعياً أو ذكاءً بشرياً، بل تعكس قدرته العالية على المحاكاة.

يفتح هذا التطور الباب لاحتمالات واسعة، تشمل أتمتة الوظائف والتأثير في التفاعلات الاجتماعية وربما تعزيز الهجمات السيبرانية.

في إنجاز مثير للجدل، أظهرت دراسة جديدة أن أحد نماذج الذكاء الاصطناعي المتقدمة – وهو نموذج GPT-4.5 من شركة OpenAI – تمكن من اجتياز اختبار تورينغ الشهير، متفوقًا في بعض الحالات حتى على البشر الحقيقيين من حيث القدرة على الإقناع بأنه "بشري". هذه النتيجة تعيد إشعال النقاش القديم حول مدى "ذكاء" النماذج اللغوية الضخمة، وتطرح تساؤلات جدية حول تداعيات هذا التطور على المجتمعات وسوق العمل.


اختبار تورينغ في ثوبه الجديد

اختبار تورينغ، الذي وضعه عالم الرياضيات البريطاني آلان تورينغ في عام 1950، صُمم كوسيلة لقياس مدى قدرة الآلة على تقليد التفكير البشري. فكرته الأساسية تتمثل في محادثة نصية بين شخصين (أحدهما إنسان والآخر آلة) مع وجود شخص ثالث يُدعى "المحقق" يحاول معرفة من منهما هو الإنسان. إذا فشلت المحاولة في التفريق بين الطرفين، فإن ذلك يُعد دليلاً – وإن كان رمزياً – على امتلاك الآلة نوعًا من الذكاء البشري.

لكن في الدراسة الجديدة التي لم تخضع بعد لمراجعة أكاديمية (preprint)، أُعيد تصميم الاختبار في نسخة ثلاثية الأطراف عبر الإنترنت، حيث شارك نحو 300 متطوع في ثماني جولات من المحادثة، إما كمحققين أو كمشاركين يُجري معهم التحقيق، وكان أحدهما دومًا روبوت دردشة.


النتائج: GPT-4.5 ينتصر بشخصية مُقنعة

أظهرت الدراسة أن نموذج GPT-4.5 من OpenAI، عندما زُوّد بتعليمات لتقمّص شخصية محددة – مثل شاب ضليع بالثقافة الرقمية – استطاع إقناع المشاركين بأنه إنسان في 73% من الحالات. هذه النسبة تتجاوز بشكل كبير الحد العشوائي البالغ 50%، مما يشير إلى أن الاختبار التقليدي قد "انهُزم فعليًا" لصالح الذكاء الاصطناعي.

والمثير أن المشاركين لم يتمكنوا من التمييز بين الإنسان الحقيقي والنموذج اللغوي حتى مع نموذج LLama 3.1-405B من Meta، في الحالات التي طُلب فيها من الذكاء الاصطناعي تبنّي "شخصية" معينة.

بل وكتب الباحث الرئيسي كاميرون جونز، من مختبر اللغة والإدراك بجامعة كاليفورنيا في سان دييغو، في سلسلة منشورات عبر منصة X (تويتر سابقاً):


"كان الناس عاجزين تمامًا عن التمييز بين GPT-4.5 وLLaMA عندما تم تزويدهما بتعليمات شخصية... بل إن GPT-4.5 تم تصنيفه على أنه إنسان أكثر من البشر الفعليين في بعض الحالات."


أهمية التعليمات المسبقة في نجاح النماذج

لفت الباحثون إلى أن أداء النماذج اللغوية اختلف جذريًا بحسب نوع التعليمات التي زُوّدت بها. ففي حالة "عدم استخدام شخصية"، حصل GPT-4.5 على نسبة نجاح متدنية بلغت 36% فقط، مقارنة بنسبة 73% عند منحه دورًا تمثيليًا.

أما نموذج GPT-4o – وهو الإصدار الحالي الذي يشغل ChatGPT – فقد حصد نسبة متدنية بلغت 21%، فيما تفوق عليه النموذج الكلاسيكي "ELIZA" الذي يعود تطويره إلى ما قبل 80 عامًا، بنسبة 23%!


هل يعني هذا أن الذكاء الاصطناعي أصبح "واعياً"؟

بالرغم من النتائج اللافتة، يحذر العديد من الخبراء من مغبة الخلط بين القدرة على تقليد الإنسان والذكاء الحقيقي. إذ يوضح المهندس البرمجي في Google، فرانسوا شولي، في حديث سابق لمجلة Nature عام 2023، أن اختبار تورينغ لم يكن في الأساس اختباراً عملياً بقدر ما كان تمريناً فكرياً لتصور قدرات الآلة.

وقد أيد جونز هذا الرأي حين غرّد قائلاً:


"هذا الاختبار لا يمنح حكماً قاطعًا على ما إذا كانت النماذج الذكية تمتلك ذكاءً بشرياً... بل ينبغي اعتباره جزءًا من مجموعة أوسع من الأدلة حول طبيعة الذكاء الذي تُظهره النماذج اللغوية."

وأضاف:


"الأهم من ذلك، أن هذه النتائج تشير إلى إمكانية استخدام هذه النماذج كبديل عن البشر في المحادثات القصيرة دون أن يلاحظ أحد، ما قد يمهد الطريق لأتمتة وظائف معينة، وزيادة فعالية الهجمات السيبرانية، وإحداث اضطرابات اجتماعية أوسع."

ذو صلة

الإنسان تحت المجهر أيضاً

يشدد جونز على أن اختبار تورينغ لا يُقيّم الآلات فقط، بل يعكس أيضًا إدراك البشر المتغير للتكنولوجيا. ومع ازدياد الاعتياد على التعامل مع الذكاء الاصطناعي، قد يصبح البشر أكثر مهارة في كشفه. لكن حتى يحين ذلك، يبدو أن الذكاء الاصطناعي بات يتقن "لعبة التقليد" ببراعة.

ذو صلة