أعلنت مجموعة “علي بابا” الصينية، عن نموذج جديد للذكاء الاصطناعي أطلقت عليه (Qwen2.5-Omni-7B)، وهو يتمتع بقدرات متعددة الوسائط، إذ يستطيع معالجة النصوص والصور والمقاطع الصوتية والفيديوهات، إلى جانب توليد استجابات نصية وصوتية طبيعية بشكل لحظي.
وبحسب ما ذكرته الشركة، عبر صفحة النموذج الرسمية على موقع Hugging Face، فإن النموذج الجديد مصمم للعمل بكفاءة عالية حتى على الأجهزة الطرفية مثل الهواتف المحمولة، دون أن يؤثر ذلك في أدائه، ما يجعله خياراً مثالياً لتطوير وكلاء ذكاء اصطناعي مرنين ومنخفضي التكلفة، خاصة في التطبيقات الصوتية الذكية.
وقالت الشركة الصينية إن هذا النموذج يساعد الأشخاص المكفوفين، من خلال تقديم أوصاف صوتية لما تراه كاميرا هواتفهم الذكية، مما يُمكّنهم من التنقل في محيطهم بسهولة.
ويقوم النموذج الجديد على معمارية مبتكرة تُعرف باسم Thinker-Talker، وهي مصممة للعمل كنظام شامل يتعامل مع وسائط متعددة، تشمل النصوص والصور والصوت والفيديوهات، ويُنتج استجابات نصية وصوتية في الوقت نفسه بشكل لحظي.
وقدمت الشركة تقنية جديدة ضمن هذا النموذج تُسمى TMRoPE وهي طريقة لتضمين المواضع الزمنية داخل النموذج تساعد على مزامنة توقيتات عرض المحتوى المصور مع الإشارات الصوتية، مما يجعل التجربة أكثر واقعية.
ويتيح هذا التصميم للنموذج دعم محادثات صوتية ومرئية لحظية، مع استجابة آنية فور تلقّي البيانات والمدخلات المعلوماتية من المستخدم، ما يجعله مناسباً للتطبيقات التفاعلية عالية السرعة، الترجمة الصوتية أو النصية الفورية، وكذلك طرح أسئلة بشأن العالم المحيط بالمستخدم، وذلك من الممكن أن يكون عبر كاميرا الهاتف لجمع بيانات عن محيط المستخدم ليقدم إجابات ومعلومات دقيقة
يتميّز النموذج بقدرته الكبيرة على توليد إجابات بنبرة صوتية أقرب للطبيعية؛ ما يجعل التجربة أكثر موثوقية وراحة في التعامل اليومي للمستخدمين.
كما أظهر نموذج Qwen2.5-Omni-7B الجديد أداء قوياً عند اختباره على وسائط مختلفة، إذ فاق في قدراته الصوتية أداء نموذج Qwen2-Audio المماثل له بالحجم، وحقق نتائج مقاربة لنموذج Qwen2.5-VL-7B المتخصص في الوسائط المتعددة.
وأثبت النموذج قدرة متميزة في تنفيذ التعليمات المنطوقة بالكفاءة نفسها في التعامل مع التعليمات النصية، وفق ما أظهرته نتائج اختباراته على مؤشرات تقييم عالمية مثل MMLU وGSM8K.
يذكر أن إطلاق هذا النموذج يأتي كجزء من استراتيجية أوسع لـ”علي بابا” في مجال الذكاء الاصطناعي، إذ أعلنت الشركة في فبراير الماضي عن خطة استثمارية ضخمة بقيمة 53 مليار دولار، سيتم ضخها خلال السنوات الثلاث المقبلة في البنية التحتية للحوسبة السحابية وتقنيات الذكاء الاصطناعي، وهو ما يتجاوز إجمالي استثماراتها في هذا القطاع خلال العقد الماضي.