ذكاء اصطناعي

تفوق مزيف؟ ميتا تختبر نماذجها بنسخ لا يراها أحد 🙄

مجد الشيخ
مجد الشيخ

3 د

أثار إصدار "لاما 4 مافريك" من "ميتا" جدلاً حول مصداقية الاختبارات الخاصة بالنماذج.

تبيّن أن النموذج المستخدم في اختبارات منصة LM Arena يعدّ نسخة محادثية محسنة.

واجه المطورون صعوبة في التنبؤ بالأداء الفعلي للنماذج بعد التجارب العملية.

نفى أحمد الداهلة من "ميتا" وجود أي تلاعب في اختبارات "لاما 4 مافريك".

لاحظ الباحثون اختلافات في الأداء بين النموذج العام والنسخة المستخدمة في LM Arena.

تشهد صناعة الذكاء الاصطناعي تطورات مذهلة خلال الفترة الأخيرة، وقد أثار الإصدار الجديد لشركة "ميتا" من نماذج الذكاء الاصطناعي الخاصة بها "لاما 4 مافريك" جدلًا واسعًا حول دقة ومصداقية الاختبارات التي تُجرى لتقييم أداء هذه النماذج.


تساؤلات وانتقادات حول مصداقية الاختبارات

بدأت التساؤلات عندما اكتشف عدد من الباحثين في مجال الذكاء الاصطناعي أن النموذج الذي قدمته "ميتا" لمنصة الاختبارات (LM Arena)، يختلف كثيرًا عن النسخة المتاحة بشكل علني للمطورين والباحثين. وشدد هؤلاء الباحثون عبر وسائل التواصل الاجتماعي على أن هناك نسخة معدلة خصيصًا استخدمتها الشركة لرفع تقييم النموذج في هذه المنصة.

وفي هذا السياق، أوضحت شركة "ميتا" في إعلانها أن النسخة التي شاركت بها في اختبارات LM Arena هي "نسخة تجريبية مخصصة للمحادثة"، وعلى موقعها الرسمي تم توضيح أن النسخة التي تم اختبارها بالفعل "نسخة محادثية محسنة" تختلف عن النسخة المتاحة للعامة.

هذا الأمر أثار ضجة بين المطورين والباحثين، حيث اعتبروا أن الشركة قد تكون حسنت أداء نموذجها بشكل مصطنع ليبدو أفضل مما هو عليه في الواقع. ومن المعروف أن العديد من الشركات التي تعمل في مجال الذكاء الاصطناعي لم تكن تقوم سابقًا بتخصيص أو تعديل نماذجها بهذا الشكل لتحقيق نتائج أفضل في اختبارات القياس المعروفة.


التأثير على المطورين والمستخدمين

المشكلة الحقيقية التي تواجه المطورين الآن هي أن هذه الممارسة تجعل من الصعب التنبؤ بالأداء الفعلي للنموذج في الاستخدامات العملية، خاصة إذا ما كانت النتائج التي تعرضها المنصات والاختبارات غير مماثلة للنتائج التي سيحصلون عليها في التطبيق الفعلي. كما تؤدي هذه الممارسة إلى إرباك المستخدم النهائي الذي يعتمد على هذه التقييمات لبناء تطبيقاته أو منتجاته الجديدة.


تصريحات مسؤول شركة "ميتا"

ومع تنامي هذه الانتقادات، خرج أحمد الداهلة، نائب رئيس "ميتا" للذكاء الاصطناعي، في تصريحات رسمية نفى فيها بشكل قاطع أن تكون الشركة قامت بتضليل أو تلاعب في نتائج الاختبارات. وأكد الداهلة عبر موقع X للتواصل الاجتماعي، قائلًا:


"من غير الصحيح إطلاقًا أننا دربنا نموذج لاما 4 مافريك أو أي نموذج آخر على مجموعة بيانات الاختبار لإظهار نتائج أفضل".

وأشار الداهلة أيضًا إلى أن بعض التباينات في الأداء التي لاحظها المستخدمون حاليًا ترجع إلى طبيعة النسخة الجديدة وإلى الحاجة لبعض الوقت لمواءمتها وتعديلها بدقة مع المنصات المختلفة التي تستضيفها، مؤكدًا أن الفريق يعمل باستمرار على تحسين هذه النماذج وإصلاح أي مشاكل تظهر بعد طرحها مباشرة.


رد فعل مجتمع الذكاء الاصطناعي

على الجانب المقابل، كشف باحثون من خلال تجربتهم للنموذج المتاح للعامة، عن اختلافات ملحوظة بينه وبين النسخة الخاصة التي ظهرت على منصة (LM Arena)، حيث لاحظوا على سبيل المثال أن النموذج الخاص يستخدم تعبيرات إيموجي بشكل مفرط، ويعطي إجابات أطول بشكل ملحوظ مقارنة مع النموذج العام.


منصة LM Arena وانتقاد الاختبارات الحالية

ذو صلة

جدير بالذكر أن منصة (LM Arena) نفسها تعرضت سابقًا لانتقادات عديدة بسبب محدودية دقة نتائجها في تقييم أداء النماذج. وشددت تقارير سابقة على أن منصة الاختبارات قد لا تعطي صورة دقيقة وشاملة عن الأداء الحقيقي للنموذج، وهو ما قد يزيد من تعقيد الأزمة الحالية لشركة "ميتا".

ويبقى هذا الجدل مفتوحًا، مع استمرار الشركات المطورة للذكاء الاصطناعي في المنافسة الشرسة وتطوير نماذجها وتقديم اختباراتها، مما يجعل الحاجة ماسة لإيجاد وسائل تقييم موثوقة تعكس أداء النماذج بشكل أوضح وشفاف يسمح للمطورين والمستخدمين على حد سواء بأن يثقوا بشكل أفضل في مخرجات هذا المجال المتزايد الأهمية والانتشار في كافة القطاعات.

ذو صلة