أكثر من 1800 لغة | Hugging Face تطلق mmBERT: أول نموذج ذكاء اصطناعي متعدد اللغات!

3 د
أطلقت شركة Hugging Face نموذج mmBERT، مُشفّر لغوي متعدد اللغات مدرّب على 1,833 لغة.
يعتمد mmBERT على تحديثات تقنية مثل Flash Attention 2 ليصل إلى 8,192 كلمة في النصوص.
تفوق النموذج الجديد على XLM-R في معايير XTREME وTyDiQA، مما يعزز نتائجه.
النهج التدرّجي أظهر فاعلية في دمج اللغات الهامشية بشكل عادل ومدروس.
يمهد النموذج الجديد الطريق لتطبيقات تقنية أكثر شمولية وعدلاً حول العالم.
أعلنت شركة Hugging Face عن إطلاق نموذجها الجديد mmBERT، وهو مُشفِّر لغوي متعدد اللغات مدرَّب على أكثر من 3 تريليونات كلمة عبر 1,833 لغة، ليكون بذلك أكبر محاولة حتى الآن لتحقيق توازن بين التغطية الواسعة والكفاءة العملية في مجال معالجة اللغات الطبيعية. الإعلان جاء نهاية سبتمبر 2025 ليضع حدًا لهيمنة XLM-R، النموذج الذي ظل المرجع الأساسي لسنوات في مهام الفهم متعدد اللغات.
تدرّج في التدريب بدلًا من الجمع الفوضوي
اعتمد الفريق على أسلوب "الإضافة التدرّجية للغات"؛ إذ بدأ التدريب على 60 لغة عالية الموارد، ثم توسّع إلى 110، قبل أن يصل أخيرًا إلى جميع اللغات. هذه المنهجية سمحت بدمج لغات ضعيفة الموارد مثل التيغرينية والفارويسية في المراحل الأخيرة فقط، ومع ذلك أظهرت نتائج قوية بفضل هذه البنية المنظمة التي تجنبت تغليب اللغات الأكثر انتشارًا.
في المقابل، يعمل mmBERT على تقليل نسبة إخفاء الكلمات أثناء التدريب من 30% إلى 5%، كما عدّل توزيع العيّنات لتأمين تمثيل أكثر عدلًا للغات الصغيرة. هذه التعديلات التقنية وفرت "إشارة" لغوية كافية حتى للغات شبه المهملة على الإنترنت.
تفاصيل تقنية ترفع سقف التوقعات
يعتمد mmBERT على بنية ModernBERT بفضل دمج تقنيات مثل Flash Attention 2 ومعالجة التسلسلات من دون حشو (unpadded). هذا التصميم جعل النموذج قادرًا على استيعاب نصوص بطول يصل إلى 8,192 كلمة، في حين أن الحجم الأساسي لا يتجاوز 110 مليون معلمة غير مرتبطة بالتضمين (307 مليون إجمالًا). كما تم إطلاق نسخة أصغر بسعة 140 مليون معلمة لتلائم الاستخدامات الأخف.
- 22 طبقة للمُشفر.
 
- سياق تسلسلي حتى 8,192 كلمة.
 
- اندماج بين ثلاثة نماذج (إنجليزي، 110 لغات، 1,833 لغة) عبر تقنية TIES merging.
 
"إضافة اللغات في المراحل المتأخرة كشفت عن تحسّن ملحوظ حتى مع موارد محدودة، دليل على قوة النهج التدرّجي." - أحد مهندسي Hugging Face
من المثير أن الأداء لم يقتصر على المهام متعددة اللغات فقط، بل تفوق mmBERT على نطاق واسع في مهام البحث والاسترجاع، محققًا نتائج غير مسبوقة على معيار MTEB v2. وبالرغم من أن ربع بياناته فقط كان باللغة الإنجليزية، فقد نافس نماذج مخصصة للإنجليزية بشكل مباشر.
انعكاسات على المشهد اللغوي وتوازن القوة
إطلاق نموذج بقدرة على التعامل مع 1,800 لغة وأكثر يفتح الباب أمام إعادة النظر في كيفية بناء أدوات الذكاء الاصطناعي حول العالم. فالاهتمام باللغات الهامشية، وإن كان متأخرًا، يضع أساسًا لتطبيقات محلية أكثر عدلًا وشمولية. هذه الخطوة تأتي في وقت يشهد فيه القطاع منافسة محتدمة، خاصة مع السباق نحو نماذج تتبنى دعم لغات إقليمية غير مدعومة تقليديًا. من زاوية أخرى، قد يكون هذا التوجه بمثابة جسر تقني لمؤسسات تسعى إلى تحسين تجربة المستخدمين في أماكن لم تصلها تقنيات الذكاء الاصطناعي المتقدمة بعد، وهو ما سبق أن ظهر مع توسيع جوجل لدعم العربية في أنظمتها الذكية.
يبقى السؤال الحقيقي حول مدى استعداد الباحثين والمطورين في المجتمعات المختلفة لاستثمار مثل هذه النماذج. فالقدرة التقنية متاحة، لكن القيمة الحقيقية ستظهر عندما تُبنى حلول فعلية تُراعي السياق المحلي، سواء في التعليم، أو الصحة، أو إثراء المحتوى الرقمي بلغات مهددة بالاندثار. mmBERT قد لا يكون نهاية الطريق، لكن من المؤكد أنه وضع مؤشرًا جديدًا على أن الشمولية اللغوية لم تعد مجرد شعار بل واقعًا يمكن استثماره وتطويره.









