DeepSeek V4 يدخل سباق الذكاء الاصطناعي… كفاءة أعلى وتكلفة أقل تعيد رسم خريطة المنافسة
نماذج متقدمة بهندسة MoE ونافذة سياقية تصل إلى مليون رمز
يأتي إطلاق تحديث DeepSeek V4 من شركة DeepSeek في لحظة تشهد منافسة محتدمة في سوق نماذج الذكاء الاصطناعي، تزامنًا مع طرح GPT-5.5 من OpenAI وClaude Opus 4.7 من Anthropic. ويعكس هذا التوقيت تصاعد سباق تقني بلغ مستويات جديدة من التعقيد والابتكار.
ورغم أن العديد من الشركات تركز على توسيع حجم النماذج، تتبنى DeepSeek نهجًا مختلفًا قائمًا على تحسين الكفاءة وتقليل التكلفة، ما يجعل أدواتها المفتوحة المصدر جذابة بشكل خاص للمطورين والشركات الناشئة.
يتضمن الإصدار التجريبي نموذجين يعتمدان على بنية “Mixture-of-Experts”، ولمن لا يعرف فإن مصطلح (MoE) في الذكاء الاصطناعي يشير إلى نوع من بنى النماذج يتم فيها تقسيم الذكاء الرقمي إلى عدة نماذج فرعية متخصصة، بدلًا من الاعتماد على نموذج واحد ضخم يعالج كل شيء. تخيّل أن لديك فريقًا من الخبراء، كل واحد منهم بارع في مجال معين (لغة، برمجة، رياضيات، إلخ). عندما تطرح سؤالًا، لا يعمل الفريق كله دفعة واحدة، بل يتم اختيار عدد قليل من هؤلاء “الخبراء” فقط للإجابة، بناءً على طبيعة السؤال، وبالتالي يتم تشغيل عدد قليل فقط من الخبراء في كل مرة، وليس الجميع، أما في النماذج التقليدية كل أجزاء النموذج تعمل دائمًا

النموذج الجديد يأتي مع نافذة سياقية تصل إلى مليون رمز. الأول هو DeepSeek-V4-Pro بإجمالي 1.6 تريليون معامل Parameters، والثاني DeepSeek-V4-Flash بإجمالي 284 مليار معامل Parameters، مع 13 مليار مُعامل مُفعّل، والمعامل يعتبر بمثابة “خلايا مخ” النموذج التي كلما زاد عددها، زادت قدرة النموذج على الفهم والتعلم، أما النافذة السياقية (Context Window) هي ببساطة حجم الذاكرة المؤقتة التي يستخدمها نموذج الذكاء الاصطناعي أثناء المحادثة أو معالجة النصوص.
وتستهدف هذه النماذج تحديًا رئيسيًا في تطبيقات الذكاء الاصطناعي الحديثة، مثل وكلاء البرمجة، وأدوات البحث، والمساعدين المؤسسيين، حيث يتطلب التعامل مع سياقات طويلة مراجعة كميات ضخمة من البيانات بشكل مستمر.
يرتكز الابتكار الأبرز في DeepSeek V4 على تصميم تفكير واستدلال هجين يجمع بين تقنيتي “الانتباه المضغوط المتفرق” و”الانتباه المضغوط عالي الكثافة”. ويتيح هذا النهج للنموذج تقليل الحاجة إلى معالجة كل البيانات السابقة بنفس التكلفة، عبر ضغط المعلومات واختيار الأجزاء الأكثر صلة فقط.
وتكمن أهمية هذا التطور في أن آلية الانتباه تُعد من أكثر مكونات النماذج استهلاكًا للموارد. ومع زيادة طول السياق، ترتفع التكلفة الحسابية بشكل كبير. إلا أن هذا التصميم الجديد يتعامل مع السياق الطويل كمسألة هندسية لإدارة الذاكرة، ما يسمح بتحقيق توازن بين الدقة والكفاءة.

كما يدعم هذا التوجه أبحاث سابقة للشركة، مثل النموذج التجريبي “Engram”، وهو وحدة ذاكرة تفصل بين استرجاع المعرفة الثابتة والحساب الديناميكي، بما يعزز كفاءة الاستدلال.
يؤدي خفض تكلفة الاستدلال إلى توسيع نطاق استخدام الذكاء الاصطناعي بشكل كبير. إذ يصبح بإمكان المطورين بناء تطبيقات أكثر تعقيدًا، مثل تحليل مستودعات برمجية كاملة، أو مراجعة وثائق قانونية مطولة، أو إدارة عمليات مالية متعددة في وقت واحد.
وبالنسبة للشركات الناشئة، يمثل هذا التطور فرصة لتقليل تكاليف التجربة والابتكار، بينما يمنح المؤسسات الكبرى القدرة على تشغيل سير عمل معقدة تعتمد على كميات ضخمة من البيانات بشكل أكثر واقعية.
لا يقتصر تأثير DeepSeek V4 على البرمجيات، بل يمتد إلى تصميم الأجهزة. إذ يشير التقرير التقني إلى ضرورة تحسين العلاقة بين القدرة الحاسوبية وسرعة الاتصال داخل المعالجات، بدلًا من التركيز فقط على زيادة عرض النطاق الترددي.
وفي هذا السياق، تم تكييف النموذج للعمل مع رقائق Huawei من فئة Ascend، ما يعكس توجهًا متزايدًا نحو التكامل بين تطوير النماذج والبنية التحتية المادية. قد يكون الأثر الأهم لـ DeepSeek V4 اقتصاديًا، حيث يؤدي خفض تكاليف المعالجة طويلة السياق إلى جعل العديد من تطبيقات الذكاء الاصطناعي أكثر جدوى. وتشمل هذه التطبيقات أدوات البحث المتقدم، والتحليل القانوني، والتدقيق المالي، وأنظمة إدارة المعرفة المؤسسية.
وفي ظل هذا التحول، قد تواجه الشركات التي تعتمد على نماذج مغلقة المصدر ضغوطًا متزايدة لتبرير تكاليفها المرتفعة، بينما يُتوقع أن يُحفّز ذلك منافسيها في مجال المصادر المفتوحة على تطوير حلول أكثر كفاءة.
يعكس DeepSeek V4 تحولًا في فلسفة تطوير الذكاء الاصطناعي، من التركيز على الحجم إلى التركيز على الكفاءة. ومع استمرار هذا الاتجاه، قد يشهد قطاع التكنولوجيا العالمي إعادة تشكيل موازين القوى في السوق، حيث تصبح القدرة على تقديم أداء قوي بتكلفة أقل العامل الحاسم في المنافسة.







