ذكاء اصطناعي

ضجيج بلا عبقرية!! نموذج O3 من OpenAI يتعثر في أول اختبار جدي

ضجيج بلا عبقرية!! نموذج O3 من OpenAI يتعثر في أول اختبار جدي
مجد الشيخ
مجد الشيخ

3 د

كشفت OpenAI عن نموذج o3 الذي أثار اهتماماً كبيراً بعد نجاحه في اختبارات رياضية معقدة.

أظهرت اختبارت مستقلة تبايناً في نتائج o3 مقارنةً بالإعلانات السابقة من OpenAI.

أوضحت Epoch AI أن الفرق في النتائج قد يكون بسبب اختلاف ظروف الاختبارات.

أكدت OpenAI أن النموذج الجديد يركز على الأداء العملي السريع بدل الدقة في اختبارات رياضية.

هناك تحذيرات متزايدة للمستهلكين حول الاعتماد الكامل على نتائج اختبارات الذكاء الاصطناعي.

نماذج الذكاء الاصطناعي التي تطورها كبرى الشركات التقنية في العالم أصبحت محور أحاديث الناس في كل مكان؛ تعتمد عليها الشركات وقطاع الأعمال بشكل متزايد في أداء المهام والوظائف المتنوعة. إحدى أبرز هذه الشركات هي OpenAI، التي قدمت مؤخراً نماذج ذكاء اصطناعي جديدة، كان من بينها نموذج o3 الذي أثار اهتماماً عالمياً كبيرة.


نتائج غير متوقعة تثير الجدل

في ديسمبر الماضي، عندما كشفت OpenAI عن نموذج الذكاء الاصطناعي o3، أعلنت أنه تمكن من حل حوالي 25% من الأسئلة الصعبة في اختبار FrontierMath، وهو اختبار متخصص في مسائل رياضيات معقدة مصمم لتحدي قدرات نماذج الذكاء الاصطناعي في التفكير والتحليل الرياضي. كانت النتائج التي أعلنت عنها OpenAI مبهرةً للغاية، خاصة بالنظر إلى أن أفضل نموذج منافس بعد o3 في حينها بالكاد تجاوزت نسبة نجاحه في حل أسئلة هذا الاختبار حاجز الـ 2%، وهو فرق شاسع فعلاً.

لكن في الأيام الأخيرة، أظهرت نتائج اختبارات مستقلة أجرتها مؤسسة أبحاث الذكاء الاصطناعي "Epoch AI"، أن نموذج o3 لم يسجل سوى حوالي 10% فقط في الاختبارات ذاتها، ما أثار أسئلة وانتقادات واسعة النطاق حول مدى شفافيتها ودقة النتائج التي أعلنتها OpenAI سابقاً.


توضيحات من الطرفين

وكرد فعل على هذه النتائج المثيرة للجدل، أوضحت Epoch AI التي طورت FrontierMath أن الاختلاف في النتائج ربما يعود إلى الظروف التي جرت تحتها الاختبارات. وأشارت المؤسسة إلى أن OpenAI قد تكون استخدمت نموذجاً بإمكانات حسابية أكبر في الاختبارات الداخلية، أو اعتمدت مجموعة مختلفة من الأسئلة، ما أدى إلى تحقيق نتائج أعلى.

من جانبها، أكدت OpenAI أنه لم يكن هناك محاولة للتضليل، وبينت أن النموذج الذي أطلقته بشكل رسمي منذ أيام هو نسخة محسنة ومخصصة أكثر للاستخدام العملي السريع – مثل مهام الدردشة والتطبيقات العملية – وليس مصمماً حصراً لتحقيق أفضل النتائج في اختبارات رياضية معقدة. وأشار الباحث "ويندا زهو" من الفريق التقني في OpenAI إلى أن النسخة الرسمية من النموذج ركزت بشكل أساسي على تحقيق توازن أفضل بين دقة وكفاءة الأداء من جهة، وتكلفة التشغيل من جهة أخرى.


مقارنات ومعايير العرض تثير الجدل

تميزت الفترة الأخيرة بظهور تباينات وانتقادات متزايدة للطريقة التي يتم من خلالها تقديم نماذج الذكاء الاصطناعي وقياس قدراتها الفعلية. فليست هذه هي الحالة الأولى التي تثير أسئلة حول مدى وضوح وصراحة الشركات الكبرى تجاه معايير تقييم قدرات الذكاء الاصطناعي لها؛ حيث شهد القطاع سابقاً عدة انتقادات مشابهة طالت شركات مثل Meta وxAI.

وفيما يُنتظر قريباً إطلاق نماذج أخرى– مثل نموذج o3-pro الأكثر قوة– بدأ المراقبون والخبراء بتحذير الجمهور والمستهلكين من أخذ نتائج الاختبارات لهذه النماذج بحرفيتها؛ فهذه النتائج التي تتباهى بها الشركات قد تكون أحياناً مبنية على ظروف مثالية جداً، ولا تعكس أداء هذه الأدوات في ظروف الاستخدام الواقعي المعتاد.


التحديات تتزايد في قطاع الذكاء الاصطناعي

ذو صلة

في ظل هذه المرحلة المهمة من تطور عالم الذكاء الاصطناعي، تظهر الحاجة الملحة إلى وضع معايير واضحة وموحدة وشفافة لقياس أداء هذه النماذج، بحيث تكون مفهومة وواضحة للجميع. وإلى أن يتم ذلك، يبقى الحذر مطلوباً من المستخدمين، خصوصاً الشركات والأعمال التي تعتمد كلياً على هذه النماذج لتنفيذ أعمال ومهام دقيقة أو ذات حساسية خاصة.

ما نراه اليوم يؤكد أن القطاع دخل في مرحلة حساسة جداً تتطلب وعياً أكبر، وطرح مزيد من التساؤلات حول الشفافية وواقعية التقييمات المقدمة مع كل نموذج ذكاء اصطناعي جديد يتم الإعلان عنه. وإذا كانت الشركات تأمل في استمرار الثقة والإقبال الذي تحظى به نماذجها، فإنها بلا شك مطالبة بمزيد من الوضوح وتعزيز ثقة الجمهور في دقة اختباراتها ونتائجها الرسمية.

ذو صلة