يشهد العالم تطورات سريعة في مجال الذكاء الاصطناعي، لذلك تقدم منصة الاقتصاد الرقمي FollowICT، نشرة أسبوعية نستعرض فيها أبرز أخبار الذكاء الاصطناعي وتطوراته على مستوى العالم.
– شركة Perplexity جمعت 200 مليون دولار عند تقييم 20 مليار دولار
حصلت شركة بيربلكسيتي، وهي شركة ناشئة للبحث مدعومة بالذكاء الاصطناعي، تُنافس جوجل من خلال توفير إجابات تفاعلية لاستفسارات المستخدمين، على 200 مليون دولار كرأس مال جديد، بتقييم 20 مليار دولار، ويأتي هذا التمويل الجديد بعد شهرين فقط من جمع الشركة 100 مليون دولار، بتقييم 18 مليار دولار.
منذ تأسيسها قبل ثلاث سنوات، جمعت شركة الذكاء الاصطناعي سريعة النمو تمويلًا إجماليًا قدره 1.5 مليار دولار، وفقًا لبيانات PitchBook. ولم يتضح بعد من قاد آخر دفعة تمويلية لشركة Perplexity. وذكرت بلومبرغ أن تمويل يوليو كان امتدادًا لجولة تمويل سابقة بقيمة 500 مليون دولار، أُنجزت في وقت سابق من هذا العام، بتقييم 14 مليار دولار، بقيادة شركة Accel.
– مختبر Thinking Machines يستهدف جعل نماذج الذكاء الاصطناعي أكثر اتساقًا
كان هناك اهتمام كبير بما يُنشئه مختبر ميرا موراتي للآلات الفكرية، بتمويله الأولي البالغ ملياري دولار، وانضمام فريقٍ من الباحثين السابقين في OpenAI إلى المختبر. في منشورٍ نُشر يوم الأربعاء، قدّم مختبر أبحاث موراتي للعالم أول نظرة على أحد مشاريعه: إنشاء نماذج ذكاء اصطناعي باستجابات قابلة للتكرار.
تحاول مدونة البحث، بعنوان “التغلب على عدم التحديد في استدلالات ماجستير القانون”، كشف السبب الجذري وراء العشوائية في استجابات نماذج الذكاء الاصطناعي. على سبيل المثال، اطرح السؤال نفسه على ChatGPT عدة مرات، ومن المرجح أن تحصل على مجموعة واسعة من الإجابات. لطالما تقبّل مجتمع الذكاء الاصطناعي هذه الحقيقة على نطاق واسع – تُعتبر نماذج الذكاء الاصطناعي الحالية أنظمة غير حتمية – لكن مختبر Thinking Machines يرى أن هذه مشكلة قابلة للحل.
يُجادل المنشور، الذي كتبه الباحث هوراس هي من مختبر Thinking Machines Lab، بأن السبب الجذري لعشوائية نماذج الذكاء الاصطناعي يكمن في طريقة دمج نوى وحدة معالجة الرسومات (GPU) – وهي البرامج الصغيرة التي تعمل داخل شرائح حاسوب Nvidia – في عملية معالجة الاستدلال (كل ما يحدث بعد الضغط على زر الإدخال في ChatGPT). ويقترح أنه من خلال التحكم الدقيق في هذه الطبقة من التنسيق، يُمكن جعل نماذج الذكاء الاصطناعي أكثر حتمية.
إلى جانب توفير استجابات أكثر موثوقية للشركات والعلماء، يُشير هي إلى أن استخدام نماذج الذكاء الاصطناعي لتوليد استجابات قابلة للتكرار يُمكن أن يُحسّن أيضًا تدريب التعلم المُعزّز (RL). التعلم المُعزّز هو عملية مكافأة نماذج الذكاء الاصطناعي على الإجابات الصحيحة، ولكن إذا كانت جميع الإجابات مختلفة قليلاً، فإن البيانات تُصبح مُشوّشة بعض الشيء. ووفقًا لهي، فإن إنشاء استجابات أكثر اتساقًا لنماذج الذكاء الاصطناعي يُمكن أن يُسهّل عملية التعلم المُعزّز بأكملها. وقد أبلغت شركة Thinking Machines Lab المستثمرين أنها تُخطط لاستخدام التعلم المُعزّز لتخصيص نماذج الذكاء الاصطناعي للشركات ، وفقًا لما ذكرته The Information سابقًا.
– ثلاثة علماء سابقين في Google X يسعون ليكون الذكاء الاصطناعي الخاص بهم بمثابة عقلك الثاني.. وجمعوا 6 ملايين دولار
يسعى ثلاثة علماء سابقين في جوجل إكس إلى تزويدك بدماغ ثانٍ افتراضيًا – ليس بأسلوب الخيال العلمي أو تقنية “الرقاقة في رأسك”، بل من خلال تطبيق مُدعّم بالذكاء الاصطناعي يكتسب السياق من خلال الاستماع إلى كل ما تقوله في الخلفية. وقد جمعت شركتهم الناشئة، TwinMind مؤخرا 5.7 مليون دولار أمريكي كتمويل أولي، وأصدرت نسخةً لنظام أندرويد، بالإضافة إلى نموذج حديث جديد بتقنية الذكاء الاصطناعي. كما يتوفر منها نسخةٌ لأجهزة آيفون.
تم تأسيس TwinMind في مارس 2024 على يد دانيال جورج (الرئيس التنفيذي) وزملائه السابقين في Google X ساني تانج وماهي كريم (كلاهما من مديري التكنولوجيا)، وتعمل الشركة في الخلفية، وتلتقط الكلام المحيط (بإذن المستخدم) لبناء رسم بياني للمعرفة الشخصية.
بتحويل الأفكار المنطوقة والاجتماعات والمحاضرات والمحادثات إلى ذاكرة منظمة، يُمكن للتطبيق إنشاء ملاحظات ومهام وإجابات مدعومة بالذكاء الاصطناعي. يعمل التطبيق دون اتصال بالإنترنت، ويعالج الصوت آنيًا لنسخه على الجهاز، ويمكنه التقاط الصوت بشكل متواصل لمدة 16 إلى 17 ساعة دون استنزاف بطارية الجهاز، وفقًا لمؤسسيه. كما يُمكن للتطبيق نسخ بيانات المستخدم احتياطيًا لاستعادة المحادثات في حال فقدان الجهاز، مع إمكانية إلغاء الاشتراك. كما يدعم التطبيق الترجمة الفورية بأكثر من 100 لغة.
يتميز TwinMind عن تطبيقات تدوين ملاحظات الاجتماعات بالذكاء الاصطناعي مثل Otter وGranola وFireflies بتسجيل الصوت بشكل سلبي في الخلفية طوال اليوم. ولتحقيق ذلك، طوّر الفريق خدمة منخفضة المستوى بلغة Swift خالصة تعمل تلقائيًا على أجهزة iPhone. في المقابل، يستخدم العديد من المنافسين React Native ويعتمدون على المعالجة السحابية، والتي تمنع Apple تشغيلها في الخلفية لفترات طويلة، وفقًا لموقع TechCrunch.
– ميزة الذكاء الاصطناعي الجديدة في Amazon Music تولد قوائم تشغيل مخصصة كل يوم اثنين
منذ أن أطلقت Spotify برنامج DJ AI، قامت Amazon Music بتطوير ميزاتها الخاصة المدعومة بالذكاء الاصطناعي، بما في ذلك قوائم التشغيل التي تم إنشاؤها بواسطة الذكاء الاصطناعي والبحث بمساعدة الذكاء الاصطناعي ، للتنافس بشكل أكثر فعالية مع عملاق الموسيقى.
تُطلق أمازون ميوزيك الآن ميزة جديدة تُسمى “Weekly Vibe”، المُصممة لتخصيص تجربة الاستماع بشكل أكبر. تُطرح الميزة لعملاء الولايات المتحدة عبر جميع فئات الاشتراك في التطبيق على نظامي iOS وAndroid.
إدراكًا للتحدي الشائع الذي يواجهه مُحبو الموسيقى المتحمسون، وهو الملل من نفس الأغاني بعد الاستماع المُكثّف، تهدف Weekly Vibe إلى تحديث قوائم تشغيلك أسبوعيًا. في كل يوم اثنين، تستخدم Weekly Vibe الذكاء الاصطناعي لإنشاء قوائم تشغيل مُخصصة تُعكس عادات الاستماع الحديثة لديك، مع مراعاة “مزاجك الموسيقي” المُتطور واهتماماتك، كما توضح الشركة.
– روبوتات الدردشة من “ميتا” و”OpenAI” وشركات أخرى محل تحقيق أمريكي
قالت لجنة التجارة الفيدرالية الأميركية، يوم الخميس، إنها تسعى للحصول على معلومات من عدة شركات، منها “ألفابت” و”ميتا” و”OpenAI”، والتي تُقدم روبوتات دردشة مدعومة بالذكاء الاصطناعي مُوجهة للمستهلكين، حول كيفية قياس هذه الشركات واختبارها ورصدها للآثار السلبية المحتملة لهذه التقنية.
وترغب لجنة التجارة الفيدرالية في معرفة كيفية تحقيق هذه الشركات، بالإضافة إلى “Character.AI” و”سناب” و”xAI”، للدخل من تفاعل المستخدمين، ومعالجة مُدخلاتهم وتوليد مُخرجات استجابةً لاستفساراتهم.
وتسعى اللجنة أيضًا إلى معرفة كيفية استخدام هذه الشركات للمعلومات المُستقاة من خلال المحادثات مع روبوتات الدردشة، بحسب “رويترز”.
وتخضع شركات الذكاء الاصطناعي التوليدي للتدقيق في الأسابيع الأخيرة، بعد أن نشرت “رويترز” تقريرًا عن سياسات داخلية لشركة ميتا سمحت لروبوتات الدردشة بإجراء محادثات ذات طابع رومانسي مع الأطفال، ورفعت عائلة دعوى قضائية ضد “OpenAI” لدور “شات جي بي تي” في انتحار ابنها المراهق.
– علي بابا تطلق أكبر نماذجها للذكاء الاصطناعي لمنافسة “OpenAI”
كشفت شركة علي بابا الصينية عن أحدث نماذجها للذكاء الاصطناعي، وهو “Qwen-3-Max-Preview”، الذي يُعد أكبر نموذج لها حتى الآن.
وينتمي النموذج الجديد لسلسلة “Qwen” ويضم أكثر من تريليون معامل، مما يجعله منافسًا قويًا في مجال الذكاء الاصطناعي.
ويتوفر النموذج الآن للمطورين حول العالم عبر منصتي “Alibaba Cloud” و”OpenRouter”، بحسب عدة تقارير.
و”Qwen-3-Max-Preview” هو نموذج يقتصر على معالجة النصوص فقط، وقد تفوق في أدائه على سابقه، “Qwen3-235B-A22B-2507″، في الاختبارات الداخلية للشركة.
– شركتا OpenAI وNvidia تعلنان عن استثمارات في مراكز البيانات في المملكة المتحدة
أشار الرئيسان التنفيذيان لشركة OpenAI، الشركة المصنعة لـ ChatGPT، وشركة Nvidia (NVDA.O)، إلى تقديم الدعم لاستثمارات بمليارات الدولارات في مراكز البيانات في المملكة المتحدة عندما تتوجه إلى البلاد الأسبوع المقبل في نفس الوقت الذي يتوجه فيه الرئيس الأمريكي دونالد ترامب، حسبما ذكرت بلومبرج.
وذكرت التقارير نقلا عن أشخاص مطلعين على الأمر أن الشركات تتعاون مع شركة مراكز البيانات “إن سكيل جلوبال هولدينجز” ومقرها لندن في تنفيذ المشروع.
ويؤكد هذا الاستثمار الطلب المتزايد على البنية التحتية الرقمية، المدفوعة بالذكاء الاصطناعي والحوسبة السحابية.
ومن المتوقع أن يزور سام ألتمان الرئيس التنفيذي لشركة OpenAI وجينسن هوانج الرئيس التنفيذي لشركة Nvidia البلاد كجزء من الوفد، وفقًا للتقرير.
– علي بابا وبايدو تبدآن استخدام شرائحهما الخاصة لتدريب نماذج الذكاء الاصطناعي
بدأت علي بابا وبايدو في استخدام شرائح مصممة داخليًا لتدريب نماذج الذكاء الاصطناعي الخاصة بهم، واستبدلوا جزئيًا تلك التي صنعتها شركة Nvidia (NVDA.O).
وتستخدم شركة علي بابا شرائحها الخاصة في نماذج الذكاء الاصطناعي الأصغر منذ أوائل هذا العام، في حين تجري شركة بايدو تجارب على تدريب إصدارات جديدة من نموذج إيرني للذكاء الاصطناعي باستخدام شريحة كونلون بي 800.
وتمثل هذه الخطوة تحولاً كبيراً في مشهد التكنولوجيا والذكاء الاصطناعي في الصين – حيث تعتمد الشركات إلى حد كبير على معالجات Nvidia القوية لتطوير الذكاء الاصطناعي – ومن شأنها أن تؤثر بشكل أكبر على أعمال Nvidia في الصين.
وقال متحدث باسم شركة إنفيديا ردًا على ذلك: “لا شك أن المنافسة قد وصلت… وسنواصل العمل لكسب ثقة ودعم المطورين الرئيسيين في كل مكان”.
– أمازون تعمل على تطوير نظارات الواقع المعزز للمستهلكين لمنافسة Meta
تعمل شركة أمازون على تطوير نظارات الواقع المعزز للمستهلكين، حسبما ذكرت صحيفة “Information” الأربعاء، نقلاً عن شخصين مطلعين على الخطط، وهي خطوة من شأنها أن تضع الشركة في منافسة مع شركة ميتا (META.O) المالكة لفيسبوك.
وذكر التقرير أن النظارات، التي تحمل الاسم الرمزي “جايهوك” (Jayhawk)، ستتضمن ميكروفونات ومكبرات صوت وكاميرا وشاشة ملونة كاملة في عين واحدة. وتسعى أمازون إلى طرح المنتج للمستهلكين أواخر عام 2026 أو أوائل 2027.
سيُمثّل هذا المشروع دخول أمازون إلى سوق نظارات الواقع المعزز الاستهلاكية. وكانت الشركة تعمل بالفعل على تطوير نظارات متخصصة لسائقي التوصيل، وفقًا لتقرير لرويترز العام الماضي.
شاهد AI
– كاميرا موجهة بالذكاء الاصطناعي تجعل الجراحة الفردية ممكنة في تشيلي
كان لدى ريكاردو فونكي، رئيس قسم الجراحة في كلينيكا لاس كونديس في سانتياغو، تشيلي، مساعد جديد أثناء إجراء عملية جراحية بالمنظار يوم الاثنين – وهي كاميرا مستقلة موجهة بالذكاء الاصطناعي سمحت له بإجراء عملية إزالة المرارة بمفرده.
تعتمد هذه العملية على الجمع بين أدوات جراحية مغناطيسية وبرمجيات تعمل على توجيه الكاميرا الجراحية بشكل مستقل، وتتبع أدوات الجراح وضبط الزوايا دون الحاجة إلى مساعد بشري.
قال فونكي لرويترز بعد الجراحة: “كانت الكاميرا تلاحقني أينما حركت يدي، وكانت العملية برمتها ممتازة. هذه الكاميرا تُمكّننا من إجراء الجراحة بمفردنا، بينما أجريتها بمفردي مع الروبوت”.
تحليل
– كيف تقوم نماذج الذكاء الاصطناعي بإنشاء مقاطع الفيديو؟
كان هذا العام عامًا حافلًا بإنتاج الفيديو. خلال الأشهر التسعة الماضية، طرحت OpenAI تطبيق Sora ، وأطلقت Google DeepMind تطبيق Veo 3 ، وأطلقت شركة الفيديو الناشئة Runway الجيل الرابع. جميع هذه التقنيات قادرة على إنتاج مقاطع فيديو يكاد يكون من المستحيل تمييزها عن اللقطات المصورة الفعلية أو الرسوم المتحركة المُولّدة بالحاسوب. كما شهد هذا العام إطلاق Netflix لمؤثر بصري بتقنية الذكاء الاصطناعي في مسلسلها The Eternaut ، وهي المرة الأولى التي يُستخدم فيها إنتاج الفيديو لإنتاج برامج تلفزيونية موجهة للجمهور.
بالتأكيد، تُختار المقاطع التي تشاهدها في عروض الفيديو التوضيحية بعناية لعرض نماذج الشركات في قمة نجاحها. ولكن مع توافر التكنولوجيا بين أيدي عدد أكبر من المستخدمين – يتوفر Sora وVeo 3 في تطبيقي ChatGPT وGemini للمشتركين المدفوعين – أصبح بإمكان حتى صانع الأفلام العادي إنجاز شيء مميز، وفقا ل MIT Technology Review.
كيف تقوم بإنشاء فيديو؟
لنفترض أنك مستخدم عادي. تتوفر الآن مجموعة من الأدوات المتطورة التي تتيح لمُنشئي الفيديو المحترفين إدراج نماذج إنشاء الفيديو في سير عملهم. لكن معظم الناس يستخدمون هذه التقنية في تطبيقات أو مواقع إلكترونية. أنت تعرف الطريقة: “يا برج الجوزاء، اصنع لي فيديو وحيد قرن يأكل معكرونة السباغيتي. الآن اجعل قرنه ينطلق كالصاروخ.” ما ستحصل عليه سيكون إما ناجحًا أو فاشلًا، وعادةً ما ستحتاج إلى مطالبة النموذج بمحاولة أخرى أو عشر محاولات قبل أن تحصل على ما تريد تقريبًا.
إذن، ما الذي يجري تحت الغطاء؟ لماذا يكون مُتفاوتًا في الأداء، ولماذا يستهلك هذا الكم الهائل من الطاقة؟ تُعرف أحدث موجة من نماذج توليد الفيديو باسم محولات الانتشار الكامن . نعم، هذا شرحٌ مُفصّل يقدمه MIT Technology Review.
ما هو نموذج الانتشار؟
تخيل أنك التقطت صورة وأضفت عليها تناثرًا عشوائيًا من البكسلات. خذ تلك الصورة المتناثرة، وكرر ذلك مرارًا وتكرارًا. كرر ذلك مرات عديدة، وستتحول الصورة الأولية إلى فوضى عشوائية من البكسلات، مثل صورة ثابتة على جهاز تلفزيون قديم.
نموذج الانتشار هو شبكة عصبية مُدرَّبة على عكس هذه العملية، بتحويل البيانات الثابتة العشوائية إلى صور. أثناء التدريب، تُعرض ملايين الصور في مراحل مختلفة من عملية التبكسل. يتعلم النموذج كيفية تغير هذه الصور في كل مرة تُلقى فيها بكسلات جديدة، وبالتالي كيفية التراجع عن هذه التغييرات.
والخلاصة هي أنه عندما تطلب من نموذج الانتشار إنشاء صورة، فإنه سيبدأ بمجموعة عشوائية من وحدات البكسل، وسيعمل خطوة بخطوة على تحويل هذه الفوضى إلى صورة تشبه إلى حد كبير الصور الموجودة في مجموعة التدريب الخاصة به.
لكنك لا تريد أي صورة، بل تريد الصورة التي حددتها، عادةً مع مُطالبة نصية. وهكذا، يُقرن نموذج الانتشار بنموذج ثانٍ، مثل نموذج لغة واسع النطاق (LLM) مُدرّب على مطابقة الصور مع أوصاف نصية، يُوجّه كل خطوة من خطوات عملية التنظيف، دافعًا نموذج الانتشار نحو الصور التي يعتبرها نموذج اللغة الواسع مُطابقة جيدًا للمُطالبة.
من الأسهل تخيّل نماذج الانتشار تعمل مع الصور. ولكن يمكن استخدام هذه التقنية مع أنواع عديدة من البيانات، بما في ذلك الصوت والفيديو. لإنشاء مقاطع فيديو، يجب على نموذج الانتشار تصفية تسلسلات الصور – الإطارات المتتالية من الفيديو – بدلاً من صورة واحدة فقط.
ما هو نموذج الانتشار الكامن؟
يتطلب كل هذا قدرًا هائلاً من الحوسبة (أي الطاقة). ولذلك، تستخدم معظم نماذج الانتشار المستخدمة في توليد الفيديو تقنية تُسمى الانتشار الكامن. فبدلاً من معالجة البيانات الخام – ملايين البكسلات في كل إطار فيديو – يعمل النموذج فيما يُعرف بالفضاء الكامن، حيث تُضغط إطارات الفيديو (والنص الموجه) في شيفرة رياضية تلتقط فقط السمات الأساسية للبيانات وتتجاهل الباقي.
يحدث شيء مشابه عندما تقوم ببث مقطع فيديو عبر الإنترنت: يتم إرسال مقطع فيديو من خادم إلى شاشتك بتنسيق مضغوط لجعله يصل إليك بشكل أسرع، وعندما يصل، سيقوم الكمبيوتر أو التلفزيون الخاص بك بتحويله مرة أخرى إلى مقطع فيديو قابل للمشاهدة.
وهكذا، فإن الخطوة الأخيرة هي فك ضغط ما أنتجته عملية الانتشار الكامن. بمجرد تحويل الإطارات المضغوطة للثبات العشوائي إلى إطارات مضغوطة لفيديو يعتبره دليل ماجستير القانون مناسبًا لطلب المستخدم، يُحوّل الفيديو المضغوط إلى شيء يمكنك مشاهدته.
مع الانتشار الكامن، تعمل عملية الانتشار تقريبًا بنفس طريقة عمل الصورة. الفرق هو أن إطارات الفيديو المُبكسلة تُصبح الآن ترميزات رياضية لتلك الإطارات، وليست الإطارات نفسها. هذا يجعل الانتشار الكامن أكثر كفاءة بكثير من نموذج الانتشار التقليدي. (مع ذلك، لا يزال توليد الفيديو يستهلك طاقة أكبر من توليد الصور أو النصوص . هناك كمية هائلة من العمليات الحسابية).
ما هو محول الانتشار الكامن؟
هناك جزءٌ آخر من اللغز، وهو كيفية ضمان إنتاج عملية الانتشار سلسلةً من الإطارات المتسقة، مع الحفاظ على الكائنات والإضاءة، وما إلى ذلك، من إطارٍ إلى آخر. وقد فعلت OpenAI ذلك مع Sora بدمج نموذج الانتشار الخاص بها مع نوعٍ آخر من النماذج يُسمى المُحوِّل. وقد أصبح هذا الآن معيارًا في الفيديو التوليدي.
تتميز المحولات بقدرتها الفائقة على معالجة سلاسل طويلة من البيانات، كالكلمات مثلاً. وهذا ما جعلها الصلصة المميزة في نماذج اللغات الكبيرة، مثل GPT-5 من OpenAI وGemini من Google DeepMind ، والتي يمكنها توليد سلاسل طويلة من الكلمات ذات المعنى، مع الحفاظ على الاتساق عبر عشرات الجمل.
لكن مقاطع الفيديو ليست كلمات. بل تُقسّم إلى أجزاء صغيرة يُمكن التعامل معها كما لو كانت كلمات. وقد ابتكرت OpenAI أسلوبًا لتقطيع مقاطع الفيديو عبر الزمان والمكان. يقول تيم بروكس، الباحث الرئيسي في مشروع Sora: “يشبه الأمر تجميع إطارات الفيديو وقصها إلى مكعبات صغيرة”.
مجموعة مختارة من مقاطع الفيديو المُنتجة باستخدام Veo 3 وMidjourney. حُسِّنت المقاطع في مرحلة ما بعد الإنتاج باستخدام Topaz، وهي أداة لتحرير الفيديو بالذكاء الاصطناعي. حقوق الصورة: VaigueMan
يُحقق استخدام المحولات مع نماذج الانتشار مزايا عديدة. فبفضل تصميمها لمعالجة تسلسلات البيانات، تُساعد المحولات نموذج الانتشار على الحفاظ على اتساق الإطارات أثناء توليدها. وهذا يُتيح، على سبيل المثال، إنتاج مقاطع فيديو لا تظهر فيها العناصر فجأةً وتختفي.
ولأن مقاطع الفيديو مُجزأة، فإن حجمها واتجاهها لا يُؤثران على أدائها. هذا يعني أنه يُمكن تدريب أحدث موجة من نماذج توليد الفيديو على مجموعة واسعة من مقاطع الفيديو النموذجية، بدءًا من المقاطع العمودية القصيرة المُصوَّرة بالهاتف وصولًا إلى الأفلام السينمائية ذات الشاشة العريضة. وقد أدى تنوع بيانات التدريب إلى تحسين إنتاج الفيديو بشكل ملحوظ مقارنةً بما كان عليه قبل عامين فقط. كما يعني ذلك أنه يُمكن الآن طلب إنتاج مقاطع فيديو بتنسيقات مُتنوعة من نماذج توليد الفيديو.
ماذا عن الصوت؟
من التطورات الكبيرة في Veo 3 قدرته على توليد الفيديو مع الصوت، بدءًا من الحوارات المتزامنة مع حركة الشفاه، مرورًا بالمؤثرات الصوتية، ووصولًا إلى ضوضاء الخلفية. وهذه سابقة في نماذج توليد الفيديو. وكما قال ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، في مؤتمر Google I/O لهذا العام : “نحن نخرج من عصر توليد الفيديو الصامت”.
كان التحدي يكمن في إيجاد طريقة لتنسيق بيانات الفيديو والصوت بحيث تعمل عملية الانتشار عليهما في الوقت نفسه. وكان الإنجاز الذي حققته جوجل ديب مايند هو طريقة جديدة لضغط الصوت والفيديو في جزء واحد من البيانات داخل نموذج الانتشار. عندما يُنتج Veo 3 فيديو، يُنتج نموذج الانتشار الخاص به الصوت والفيديو معًا في عملية متزامنة، مما يضمن مزامنة الصوت والصور.