أعلنت “أوبن إيه آي” OpenAI عن إضافة مجموعة جديدة من ميزات الذكاء الصوتي إلى واجهاتها البرمجية (API)، في خطوة تهدف إلى تمكين المطورين من إنشاء تطبيقات قادرة على التحدث مع المستخدمين، ونسخ المحادثات صوتياً، وترجمتها بشكل فوري.
وكشفت الشركة عن نموذجها الجديد GPT-Realtime-2، وهو نموذج صوتي متطور صُمم لتقديم محاكاة صوتية واقعية تتيح إجراء محادثات طبيعية مع المستخدمين.
ويأتي النموذج الجديد كخليفة للإصدار السابق GPT-Realtime-1.5، لكنه يعتمد هذه المرة على قدرات استدلال من فئة GPT-5، ما يمنحه قدرة أفضل على التعامل مع الطلبات المعقدة وفهم السياقات المتقدمة أثناء المحادثة.
كما أطلقت الشركة خدمة GPT-Realtime-Translate، المخصصة للترجمة الفورية المباشرة أثناء المحادثات، بحيث تتمكن من مواكبة المتحدث بشكل طبيعي ودون تأخير ملحوظ.
وتدعم الخدمة أكثر من 70 لغة للإدخال، إلى جانب 13 لغة للإخراج والترجمة الصوتية، بحسب تقرير نشره موقع “تك كرانش”.
كما أعلنت الشركة عن ميزة جديدة لتحويل الكلام إلى نص تحمل اسم GPT-Realtime-Whisper، والتي تتيح نسخ المحادثات صوتياً بشكل مباشر ولحظي أثناء حدوثها.
وقالت الشركة إن النماذج الجديدة تمثل نقلة في قدرات التفاعل الصوتي، موضحة أنها تنقل تقنيات الصوت الفوري من مجرد الاستجابة للأوامر إلى واجهات قادرة على الاستماع، والاستدلال، والترجمة، والنسخ، واتخاذ الإجراءات أثناء سير المحادثة.
وترى “أوبن إيه آي” أن هذه الأدوات ستكون مفيدة لقطاعات متعددة، أبرزها خدمات العملاء، إلى جانب مجالات التعليم والإعلام وتنظيم الفعاليات ومنصات صناعة المحتوى.
ورغم الفوائد الكبيرة لهذه التقنيات، أشارت الشركة إلى أنها وضعت ضوابط حماية لمنع إساءة استخدامها في عمليات الاحتيال أو الرسائل المزعجة أو أي أنشطة ضارة عبر الإنترنت.
وأضافت أن النظام يتضمن آليات لرصد المحتوى المخالف، مع إمكانية إيقاف المحادثات التي تنتهك سياسات المحتوى الضار.
وأكدت الشركة أن جميع النماذج الصوتية الجديدة أصبحت متاحة عبر Realtime API، حيث يتم احتساب تكلفة خدمتي الترجمة والنسخ بالدقيقة، بينما يعتمد تسعير GPT-Realtime-2 على عدد الرموز (Tokens) المستخدمة.







