Follow ICT
شعار الموقع الاساسى
جايزة 160
جايزة 160

«شاومي» تدخل عالم الروبوتات الكبيرة وتزيح الستار عن أول نماذجها

أزاحت شركة “شاومي” الستار عن أول نماذجها للروبوتات الكبيرة والذي يحمل اسم Xiaomi-Robotics-0، ويجمع بين الرؤية والفهم اللغوي والتنفيذ الفعلي للحركات، ويضم 4.7 مليار معلمة.

خطوة شاومي الأولى 

ويمثل Xiaomi-Robotics-0 خطوة “شاومي” الأولى الجادة نحو دمج الذكاء البصري واللغوي مع الأداء الحركي في الروبوتات الواقعية، ويضع الشركة على خريطة البحث المتقدم في مجال الروبوتات الكبيرة.

وقالت “شاومي” إن النموذج حقق أرقامًا قياسية في الاختبارات الافتراضية والواقعية، مستهدفًا ما تصفه ب”الذكاء الفيزيائي”.

ووفق الشركة الصينية نموذج Xiaomi-Robotics-0 مبني على معمارية Mixture-of-Transformers (MoT) وينقسم إلى مكونين رئيسيين:

1- النموذج البصري اللغوي (VLM):

– بمثابة دماغ الروبوت.

– يفهم التعليمات البشرية، حتى الغامضة منها، مثل: “رجاءً طوي المنشفة”.

– يعالج كشف الأشياء، والأسئلة البصرية، والتفكير المنطقي.

2- خبير الحركة:

يعتمد على Diffusion Transformer متعدد الطبقات (DiT).

ينتج Action Chunks، أي تسلسل حركات متسلسلة وسلسة باستخدام تقنيات flow-matching.

وهو مصمم للحفاظ على الأداء الدقيق أثناء التعلم الحركي دون فقدان القدرات الإدراكية للنموذج.

التدريب والتحسينات التقنية
النموذج يتدرب على البيانات متعددة الوسائط والحركة بشكل مشترك، لتجنب فقدان القدرة على الفهم أثناء تعلم الحركات.

Action Proposal: يسمح لVLM بالتنبؤ بتوزيعات الحركات الممكنة أثناء معالجة الصور.

DiT يتدرب لاحقًا على توليد تسلسل الحركات بدقة من الضوضاء، باستخدام ميزات key-value بدلًا من الرموز اللغوية.

تقليل زمن الاستجابة: من خلال Inference Asynchronous وClean Action Prefix للحفاظ على حركة سلسة ومستقرة.

Λ-shaped attention mask: يركز على المدخلات البصرية الحالية بدلًا من الاعتماد على الحالات السابقة.

الأداء والاختبارات
النموذج سجل نتائج قياسية في محاكيات LIBERO وCALVIN وSimplerEnv، متفوقًا على نحو 30 نموذجًا آخر.

على أرض الواقع، استخدم على روبوت ذو ذراعين، وأظهر تنسيق عين-يد ممتاز في مهام طويلة مثل طي المنشفة وتفكيك المكعبات، مع التعامل مع الأشياء الصلبة والمرنة دون مشاكل واضحة.

وعلى عكس الأنظمة السابقة، Robotics-0 حافظ على قدراته البصرية واللغوية حتى بعد تعلم الحركات، ما يجعله مثالياً للمهام التي تجمع بين الإدراك والتنفيذ الفيزيائي.

The short URL of the present article is: https://followict.news/yyu6