آبل تفجّر مفاجأة وتوجه صفعة لعمالقة الذكاء الاصطناعي… نماذج التفكير ليست ذكية كما نعتقد

3 د
أثارت آبل جدلاً حول حدود الذكاء الاصطناعي في "التفكير المنطقي" وتأثيره على الشركات.
أظهرت دراسة آبل أن نماذج التفكير المنطقي تعاني في حل المشكلات المعقدة.
تواجه النماذج تحديات عند تعقيد المهام بشكل كبير، مثل زيادة عناصر لغز "برج هانوي".
ينتقد باحثو آبل معايير التقييم الحالية ويرون أنها تركز بشكل كبير على المهارات البرمجية.
تستدعي هذه النتائج التحقق من قدرات الذكاء الاصطناعي والتحديات التي تواجه نماذج التفكير المنطقي.
أثارت شركة آبل مؤخراً جدلاً كبيراً في مجال الذكاء الاصطناعي، بعد أن أصدرت دراسة توضح فيها حدود نماذج الذكاء الاصطناعي المتخصصة في "التفكير المنطقي"، الأمر الذي قد يوجه ضربة قوية لمنصات عملاقة مثل جوجل وأوبن إيه آي وأنثروبيك، وغيرها من الشركات التي راهنت على قدرات هذه النماذج في حل المسائل المعقدة.
ومن أجل فهم الصورة كاملة، علينا أولاً توضيح ما الذي نقصده بنماذج الذكاء الاصطناعي المنطقية. هذه النماذج، المعروفة اختصاراً باسم "نماذج التفكير أو LRMs"، هي نماذج متطورة تفكك المشكلة المعقدة إلى وحدات صغيرة تحل واحدة تلو الأخرى، وهي خطوة أبعد من النماذج اللغوية الكبيرة (LLMs) التقليدية التي تجيب عادة عن أسئلة مباشرة لا تعتمد عميقاً على خطوات متسلسلة من الاستنتاجات المنطقية.
وهنا يكمن جوهر المفاجأة. فقد أظهرت دراسة آبل، التي صدرت بعنوان لافت "وهم التفكير: استيعاب نقاط قوة وضعف نماذج التفكير في ضوء تعقيد المشكلة"، أن هذه التقنيات الواعدة لها حد واضح في التعامل مع التحديات الصعبة. وبالرغم من نجاحها في تقديم إجابات واضحة ودقيقة على مسائل سهلة أو متوسطة التعقيد، إلا أنها بدأت تعاني من ارتباك شديد وفشل كامل بمجرد أن تصبح التحديات أكثر تعقيداً.
وكانت شركة آبل قد صممت اختبارات منطقية جديدة تركز تحديداً على قدرة النماذج على الوصول إلى الحل خطوة بخطوة، بدون الاستعانة معلومات خارجية. من بين هذه الاختبارات، لعبة "برج هانوي" الشهيرة، التي تحرك فيها أقراصاً فوق ثلاثة أعمدة بطريقة استراتيجية، والتي نجحت النماذج في البداية في حلها بسهولة طالما كانت بسيطة العدد (ثلاثة أقراص مثلاً). ولكن بمجرد تعقيد اللغز بزيادة عدد الأقراص إلى حد معين، انهار أداء جميع النماذج وفشل تماماً في الوصول إلى الحل الصحيح، حتى عندما قُدمت لها الطريقة أو "الخوارزمية" الدقيقة لحل اللغز.
وينتقد باحثو آبل المعايير الحالية المستخدمة لتقييم قدرة هذه النماذج، مشددين على أنها تركز بشكل كبير على المهارات البرمجية أو الرياضية فقط، مما يجعلها عرضة لمشاكل مثل "تلوث البيانات" (أي تضمين معلومات عن الأجوبة أثناء مرحلة تدريب النماذج)، كما أنها لا تسمح للباحثين بالتحكم الكافي في متغيرات الاختبارات.
وبحسب فريق الباحثين في آبل، يتضح أن النماذج، بدلاً من تعزيز جهودها وزيادة فعاليتها في معالجة التحديات الأكثر صعوبة، فهي تفقد توازنها وتصبح مترددة، بل وتستنفذ الكثير من مواردها الحسابية (التوكنز tokens) في تأمل حلول خاطئة أو زائدة عن الحاجة، فيما وصفه التقرير بـ "الانهيار الكلي للدقة".
وهذا يقودنا إلى الأهمية الكبيرة لهذه النتيجة بالنسبة لشركات مثل جوجل وأوبن إيه آي، اللتين أشادت مؤخراً وبكثافة بنماذجهما مثل "Gemini" من جوجل ونموذجي "O1" و"O3" من أوبن إيه آي، إلى جانب نموذج "Claude 3.7 Sonnet" من أنثروبيك، وقدمت هذه الشركات وعوداً كبيرة حول قدراتها الفائقة، وربما بالغ بعضها في تصوير نماذج التفكير على أنها أشبه بـ"التفكير البشري" أو "القدرة على التعامل مع أخطاء التفكير وتصحيحها".
هكذا، يلقي البحث الجديد من آبل ظلالاً كثيفة من الشك على دقة تلك الادعاءات، ويبين أن هذه الأدوات ربما ما زالت بعيدة عن الوصول لنمط التفكير البشري الحقيقي. وتثير هذه النتيجة أسئلة هامة حول مستقبل هذه التقنيات، خاصة وأن قطاعات الأعمال والشركات اعتمدت إلى حد كبير على وعود من الشركات الكبرى في مجالات مثل اتخاذ القرار وحل المسائل المعقدة.
في الختام، يبدو واضحاً أن التحديات التي تواجه نماذج التفكير المنطقي في الذكاء الاصطناعي ما زالت موجودة وبقوة، وهذا لا يقلّل أبداً من شأن التقدم السريع الذي حققته هذه التكنولوجيا، لكنه يدعونا لتبني توقعات واقعية والتعامل مع هذه التقنيات كأدوات مساعدة داعمة، وليس كمنافس يحل مكان التفكير الإنساني، على الأقل في الوقت الراهن. إن الإشارة إلى بعض البدائل التقنية أو المقترحات لتحسين أداء هذه النماذج، كإعادة النظر في طرق التدريب أو تطوير معايير تقييم أكثر شمولية، قد تعزز مصداقية هذه النتائج وتسهم في الوصول إلى فهم أعمق لقدرات الذكاء الاصطناعي وحدوده الحقيقية.