كشفت شركة “ميتا” عن CM3Leon وهو نموذج جديد للذكاء الاصطناعي لتوليد الصور، وتدعي أنه يعد أفضل نموذج في فئته استنادًا إلى الأوامر النصية.
وقالت ميتا عبر مدونتها الرسمية:“من خلال قدرات CM3Leon يمكن لأدوات توليد الصور إنتاج صور أكثر اتساقًا وفقًا للإرشادات النصية المدخلة، ونحن نعتقد أن الأداء القوي للنموذج عبر مجموعة متنوعة من المهام يمثل خطوة نحو تحسين جودة توليد الصور وفهمها.
وبهذا بحسب ميتا، يتميز هذا النموذج بأدائه المتطورة لتوليد صور أكثر اتساقًا مع الأوامر النصية، إذ إنه أكثر كفاءة، ويتطلب حوسبة أقل بخمس مرات، ومجموعة بيانات أصغر للتدرب مقارنةً بالنماذج الأخرى.
ويعتمد نموذج ميتا CM3Leon على تقنية تُعرف باسم “الاهتمام Attention” تجعل النموذج أسرع في التدرب وخلق النتائج وأقل كلفة في التشغيل، وهو نموذج مختلف عن مولدات الصور التي تعمل بالذكاء الاصطناعي والتي تعتمد على تقنية تُعرف باسم “الانتشار Diffusion” وهي تقنية تتطلب حوسبة أكبر فضلًا عن كونها بطيئة ومكلفة لتشغيلها، وهي موجودة في أدوات مثل DALL-E التي تطورها شركة OpenAI، و Imagen التي تطورها جوجل.
واستخدمت ميتا ملايين الصور المرخصة من شركة Shutterstock من أجل تدريب CM3Leon، وتحتوي أقوى نسخة من النموذج على 7 مليارات معامل، أي أكثر من ضعف ما يحتوي عليه نموذج DALL-E 2 التابع لشركة OpenAI، ويعد المعامل Parameter وحدة قياس لمهارة النموذج وقدراته.
كما استخدمت ميتا تقنية الضبط الدقيق تحت الإشراف لتدريب CM3Leon، إذ حسنت أداء النموذج في توليد الصور وكتابة الوصف والتعليقات على الصور، مما يوفر إمكانية الإجابة على الأسئلة حول الصور، وكذلك تعديلها باستخدام الأوامر النصية.