قفزة نوعية في ذكاء الروبوتات بفضل تقنية الذكاء الاصطناعي المتقدمة من Google DeepMind تساعد الآلات على فهم العالم

3 د
كشفت Google DeepMind عن نماذج "Gemini Robotics 1.
5" لتطوير الفهم الحركي والبيئي للروبوتات.
يمكن للنماذج تنفيذ مهام متعددة الخطوات وتقييم النتائج باستخدام الذكاء الاصطناعي.
يوفر النموذج تكاملاً بين "العقل والحركة" لتخطيط ذكي وتنفيذ دقيق للأوامر.
قدرة النماذج على نقل التعلم تتيح تحسين أنظمة متكاملة متعددة الروبوتات.
يسعى المشروع لتحقيق توازن بين الذكاء الاصطناعي النظري وسلوكه في العالم الواقعي.
كشفت شركة Google DeepMind عن جيل جديد من نماذج الذكاء الاصطناعي الخاصة بالروبوتات يحمل اسم "Gemini Robotics 1.5" و"Gemini Robotics-ER 1.5"، في خطوة تؤشر إلى انتقال الذكاء الاصطناعي من التفاعل اللغوي إلى الفهم الحركي والمنطقي للعالم المادي. النماذج الجديدة تتيح للروبوتات أداء مهام معقدة ومتعددة الخطوات بقدرة تحليلية غير مسبوقة، ما يجعلها أقرب من أي وقت مضى إلى "التفكير" بالمعنى العملي.
ذكاء اصطناعي يفهم العالم من حوله
النموذجان الجديدان يمثلان تطورًا مباشرًا لأبحاث DeepMind السابقة ضمن مشروع Gemini Robotics القائم على نموذج اللغة الكبير Gemini، لكن مع تخصيصه لفهم البيئات الفيزيائية. فبعد أن تمكن النموذج الأولي من توجيه ذراع آلية لوضع موزة في سلة، أصبح بإمكان الجيل الجديد أن يميّز بين الألوان والأشكال ويصنّف أنواع الفاكهة على أطباق مختلفة، مع شرح العملية بلغته الطبيعية أثناء التنفيذ.
“لقد مكّنّاه من التفكير، ومن إدراك البيئة خطوة بخطوة لاستكمال المهام المتعددة المراحل”، أوضح جيه تان، أحد كبار الباحثين في DeepMind.
هذه التجربة المبدئية قد تبدو بسيطة، لكنها تمثّل نقلة كبيرة في مجال الإدراك الآلي: قدرة الروبوت على فهم السياق، اتخاذ القرار تبعًا للمعطيات الحسية، وتقييم النتيجة لحظيًا، وهي عناصر جوهرية في طريق تطوير "روبوتات عامة الاستخدام".
كيف تنسّق النماذج بين “العقل” و”الحركة”؟
تعتمد بنية Gemini Robotics على تكامل بين نموذجين متكاملين:
- Gemini Robotics-ER 1.5: نموذج رؤية-لغة (VLM) يعمل كـ"عقل" لتحليل البيئة ومعالجة الأوامر اللفظية والتخطيط العام.
- Gemini Robotics 1.5: نموذج رؤية-لغة-حركة (VLA) بمثابة "العيون والأيدي" التي تنفّذ الأوامر وتحلل ردود الفعل البصرية والفيزيائية.
يتعاون النموذجان بطريقة تشبه علاقة المشرف والعامل، بحيث يقوم الأول بتوليد خطة ذكية بناءً على الأوامر، فيما يتولّى الثاني التنفيذ وفق فهم بصري مباشر. هذه الصيغة من "التفكير الموزع" تمكّن الروبوت من مراجعة قراراته أثناء المهمة، ما يفتح الباب أمام أداء مهام أكثر تعقيدًا مثل فرز النفايات وفق قواعد بيئية محلّية، بعد البحث عنها عبر الإنترنت.
في إحدى التجارب، استخدم الروبوت محرك البحث لاستدعاء قواعد إعادة التدوير في سان فرانسيسكو قبل تنفيذ عملية فرز المواد إلى نفايات، معاد تدويرها، وسماد عضوي، وهو ما يعكس دمج النماذج اللغوية القوية بالأدوات الحقيقية مباشرة في سلوك الآلة.
تبادل الخبرات بين أنظمة مختلفة
على عكس الأنظمة السابقة التي كانت تُدرّب على مهمّة محددة، تستطيع النماذج الجديدة نقل ما تتعلمه من روبوت إلى آخر، سواء كان ذراعًا ثنائي الحركة أو روبوتًا إنسانيًا كاملاً مثل Apollo. هذه الخاصية - المعروفة باسم "التعلّم عبر النماذج المجسّدة المتعددة" - تعني أن أي تطوير في أحد الأنظمة يمكن أن يتحول إلى ترقية تلقائية لبقية المنظومة.
ووفق التقرير التقني الرسمي، يعتمد Gemini Robotics 1.5 على فهم شامل للفراغ الفيزيائي وقدرة على تقسيم المهام إلى خطوات جزئية متسلسلة، لتحسين الاستقرار أثناء تنفيذ الأوامر، سواء في بيئة العمل أو في المنزل.
ما الذي يعنيه ذلك لمستقبل الروبوتات؟
يأتي هذا التحديث في وقت تتسابق فيه الشركات لدمج الذكاء الاصطناعي القادر على الفهم المنطقي ضمن الأجهزة المادية. فبينما تواصل مشاريع مثل LaMDA اختبار حدود الوعي الرقمي، تتجه DeepMind نحو جعل "الفهم" قابلاً للتطبيق الحسي. الفارق هنا أن الروبوت لم يعد يتلقى أوامر فحسب، بل يفسّرها ويعلّل قراراته، ما يفتح الباب أمام علاقة أكثر أمانًا وواقعية بين الإنسان والآلة.
التحدي القادم لن يكون في التدريب، بل في "الأخلاق العملية" لهذه الأنظمة: كيف يمكن تصميم روبوت يستطيع اتخاذ قرارات ذاتية دون خرق القيم البشرية أو القوانين الاجتماعية؟ يبدو أن DeepMind تتقدم بثبات نحو ذلك التوازن الحرج بين الذكاء الاصطناعي النظري وسلوكه في العالم الواقعي، وإذا استمر المسار بهذا النسق، فقد نرى قريبًا روبوتات لا تنفّذ المهام فحسب، بل تفهم سبب قيامها بها.