أطلقت شركة “بايت دانس” المالكة لتطبيق تيك توك، نموذج ذكاء اصطناعي جديد يمكنه تحويل الصور الثابتة إلى مقاطع فيديو تظهر فيها الصور كأنها تتحدث وتتفاعل.
وأطلقت الشركة الصينية على النموذج اسم INFP، وهو يتميز بقدرته على إنشاء مقاطع فيديو لمحادثات واقعية بين شخصين دون الحاجة إلى تحديد أدوار التحدث والاستماع يدويًا، ويعتمد النموذج على تحليل تدفق المحادثة لتحديد الأدوار تلقائيًا.
ويتكون النظام من مرحلتين رئيسيتين:
– تضمن المرحلة الأولى تقليد حركات الرأس عبر التقاط التفاصيل الدقيقة، مثل تعابير الوجه وحركات الرأس من مقاطع الفيديو، وتحويلها إلى بيانات قابلة للاستخدام لتحريك الصور الثابتة.
– والمرحلة الثانية، فهي تضمن توليد الحركات استنادًا إلى الصوت، إذ تحلل الصوت لإنشاء أنماط حركة طبيعية للتحدث والاستماع، مع تعديل هذه الأنماط لتتوافق بشكل واقعي مع الصوت.
وأكّدت بايت دانس أن نموذج INFP يتفوق على الأدوات الحالية في مطابقة حركة الشفاه بالصوت، والحفاظ على ملامح الوجه الطبيعية، بالإضافة إلى إنشاء حركات واقعية للشخص في أثناء الاستماع.
وتسعى بايت دانس لتطوير النموذج INFP الذي يعتمد على الصوت فقط ليعمل مع النصوص والصور، بالإضافة إلى تطوير تقنيات لتحريك الجسم كاملًا، وليس الرأس فقط.
وتجنبًا لإساءة استخدام هذه التقنية، تخطط بايت دانس لجعل استخدامها مقتصرًا على الأبحاث الأكاديمية في المرحلة الحالية.