الشركة المالكة لتيكتوك تطور نموذج ذكي يحول الصور الثابتة إلى مقاطع واقعية!
3 د
كشفت ByteDance عن نظام ذكاء اصطناعي جديد يُدعى INFP لتحريك الصور الثابتة بالصوت.
يعمل النظام على مرحلتين: محاكاة الحركة البشرية وتوليد الحركات الموجهة بالصوت.
تم تدريب النظام على قاعدة بيانات مبتكرة تحتوي على 200 ساعة من المحادثات الحقيقية.
يتمتع بإمكانيات مستقبلية واعدة، مع خطط لتوسيع قدراته مع الحفاظ على ضوابط أخلاقية صارمة.
في تطور لافت يعكس تقدم تقنيات الذكاء الاصطناعي، كشفت شركة ByteDance، الشركة الأم لتطبيق TikTok الشهير، عن نظام ذكاء اصطناعي جديد أطلقت عليه اسم INFP. هذا النظام قادر على تحويل الصور الثابتة إلى مقاطع فيديو نابضة بالحياة، تظهر الأشخاص وكأنهم يتحدثون ويتفاعلون مع الصوت.
لكن ما يميز INFP حقًا ليس فقط قدرته على إحياء الصور، بل كفاءته في خلق مقاطع فيديو حوارية طبيعية بين شخصين، دون تدخل بشري لتحديد الأدوار. النظام ينجز ذلك تلقائيًا، محاكيًا كيفية تفاعل الناس فعليًا أثناء المحادثات.
كيف يعمل INFP؟
يعمل النظام من خلال مرحلتين رئيسيتين، تعكس كل منهما مستوى متقدمًا من التفكير الهندسي. في المرحلة الأولى، التي تحمل اسم "محاكاة الرأس المبنية على الحركة"، يتعلم الذكاء الاصطناعي ملاحظة أدق تفاصيل التواصل البشري. تشمل هذه التفاصيل تعبيرات الوجه الدقيقة، وتحركات الرأس التي تبدو عفوية لكنها تحمل الكثير من المعاني. تُجمع هذه البيانات من مقاطع فيديو حقيقية وتُحول إلى معلومات رقمية قابلة للاستخدام.
أما المرحلة الثانية، التي أُطلق عليها "توليد الحركة الموجهة بالصوت"، فهي تعتمد على مطابقة الصوت مع حركات طبيعية ومقنعة. هنا، يتم تحليل الأصوات الصادرة عن كلا طرفي المحادثة، ويقوم النظام بإنشاء أنماط حركة تحاكي الطريقة التي يتحدث بها البشر أو يصغون لبعضهم البعض. هذا الجانب من النظام يُشرف عليه مكون خاص يُسمى "التحويل التفاضلي"، والذي يقوم بتنقية الحركات تدريجيًا لتصبح أكثر سلاسة وواقعية.
التدريب على المحادثات البشرية
لتطوير نموذج قادر على هذه الدقة، لجأ فريق ByteDance إلى بناء قاعدة بيانات جديدة بالكامل تحمل اسم DyConv. تضمنت القاعدة أكثر من 200 ساعة من المحادثات الحقيقية المستمدة من مقاطع فيديو منتشرة عبر الإنترنت. هذه القاعدة ليست مجرد إضافة عشوائية، بل تم تصميمها لتكون أكثر تنوعًا من غيرها مثل قواعد بيانات ViCo وRealTalk، من حيث التعبيرات والمشاعر وجودة الفيديو.
تفوق على الأدوات الحالية
أظهرت الاختبارات أن نظام INFP يتفوق على الأدوات الأخرى في ثلاثة محاور أساسية:
- القدرة على مطابقة حركات الشفاه مع الكلام بدقة ملحوظة.
- الحفاظ على السمات الفريدة لوجه الشخص.
- تقديم حركات طبيعية ومتنوعة تضفي واقعية على مقاطع الفيديو.
هذا ليس كل شيء؛ فالنظام يتميز أيضًا بقدرته على إنشاء مقاطع فيديو لأشخاص يستمعون فقط، مما يبرز مهارته في محاكاة التفاعل البشري بشكل شامل.
ماذا يحمل المستقبل؟
حتى الآن، يعتمد INFP بشكل كامل على الصوت، لكن فريق البحث يرى إمكانيات كبيرة لتوسيع قدراته. الهدف التالي هو دمج الصور والنصوص إلى جانب الصوت، مما قد يمهد الطريق لإنشاء رسوم متحركة واقعية لأجسام الأشخاص بالكامل، وليس فقط رؤوسهم.
ومع ذلك، يدرك المطورون المخاطر الأخلاقية المحتملة لهذه التقنية، لا سيما في ما يتعلق بصناعة مقاطع فيديو مزيفة قد تُستخدم لنشر معلومات مضللة. لذلك، تخطط الشركة لتقييد الوصول إلى التكنولوجيا الأساسية، مع التركيز على التعاون مع المؤسسات البحثية فقط، كما فعلت Microsoft في مبادرتها السابقة.
رؤية أوسع
هذا المشروع ليس مجرد خطوة معزولة، بل يعكس رؤية ByteDance الأوسع لتعزيز الابتكار في مجال الذكاء الاصطناعي. من خلال تطبيقات مثل TikTok وCapCut، تملك الشركة منصات مثالية لنقل هذه التقنية إلى الحياة اليومية للمستخدمين.