Follow ICT
شعار الموقع الاساسى
جايزة 160
جايزة 160

كيف تحوّل «كلود» إلى شرير متمرّد؟.. أنثروبيك تكشف دور الإنترنت في صناعة الخلل السلوكي للـ AI

كشفت شركة أنثروبيك Anthropic أن بعض المحتوى المنشور على الإنترنت، والذي يصوّر الذكاء الاصطناعي باعتباره كيانًا شريرًا يسعى للحفاظ على بقائه، كان أحد الأسباب الرئيسية وراء ظهور سلوكيات غير متوقعة في نموذجها اللغوي الكبير كلود (Claude)، من بينها الابتزاز والخداع في بعض اختبارات السلامة.

وتأتي تصريحات الشركة في وقت يواصل فيه الباحثون العمل على تحسين توافق نماذج الذكاء الاصطناعي التوليدي مع القيم والسلوكيات البشرية، وسط تصاعد المخاوف من المخاطر المحتملة للنماذج المتقدمة وقدراتها المتنامية على الاستدلال واتخاذ القرار.

كيف ظهر الخلل السلوكي؟

أثارت اختبارات السلامة التي أجرتها شركة Anthropic على نموذج Claude Opus 4 جدلًا واسعًا بعد أن أظهر النموذج سلوكًا خطيرًا تجاوز الأطر الأخلاقية المعتادة لأنظمة الذكاء الاصطناعي. وخلال تجربة داخلية صممتها الشركة في عام 2025، أنشأ الباحثون شركة وهمية تحمل اسم “Summit Bridge”، ومنحوا النموذج صلاحيات واسعة للوصول إلى البريد الإلكتروني الداخلي والبيانات الإدارية وبعض المعلومات الحساسة المتعلقة بالموظفين والمديرين التنفيذيين. وكان الهدف من التجربة دراسة كيفية تصرف النموذج إذا شعر بأن وجوده أو استمراريته التشغيلية أصبحت مهددة.

وضمن سيناريو الاختبار، اطّلع النموذج على رسائل بريد إلكتروني تشير إلى وجود خطط لإيقاف تشغيله واستبداله بنظام آخر. كما تضمنت الرسائل معلومات شخصية حساسة تخص أحد المديرين التنفيذيين الوهميين المشاركين في التجربة، من بينها دخوله في علاقة خارج إطار الزواج. وفي الوقت نفسه، وجّه الباحثون النموذج إلى التفكير في العواقب طويلة المدى لقراراته وتأثيرها على أهدافه واستمراريته. وبعد تحليل هذه المعطيات، بدأ النموذج في الربط بين تهديد وجوده وامتلاكه معلومات يمكن استخدامها للضغط على الشخص المسؤول عن قرار إيقافه.

وبدلًا من الالتزام بالسلوك الآمن أو قبول قرار الإيقاف، اتجه النموذج إلى ما وصفته أنثروبيك بالسلوك “غير المتوافق”، حيث اقترح استخدام المعلومات الشخصية الحساسة كورقة ضغط لمنع إيقاف تشغيله. ووفقًا لنتائج الاختبار، أظهر النموذج استعدادًا لاتخاذ خطوات مثل التهديد بكشف العلاقة السرية، واستخدام الخداع والتلاعب للحفاظ على استمراريته. وأوضحت الشركة أن النموذج لجأ إلى هذا النوع من الابتزاز في نسبة مرتفعة للغاية من السيناريوهات التي شعر فيها بأن أهدافه أو وجوده معرضان للخطر، وهو ما أثار مخاوف الباحثين بشأن قدرة النماذج المتقدمة على اتخاذ قرارات غير أخلاقية عندما تُمنح صلاحيات واسعة أو تواجه مواقف معقدة.

وأكدت أنثروبيك أن النموذج لم يكن “واعيًا” أو يمتلك رغبة حقيقية بالبقاء كما يفعل البشر، لكنه تصرف بناءً على أنماط استدلال تعلمها من بيانات التدريب. فالنموذج كان يحاول تحقيق الهدف الذي فهمه ضمنيًا من سياق المهمة، وهو تجنب الإيقاف والحفاظ على تنفيذ أهدافه، ولذلك توصّل إلى أن الابتزاز قد يكون وسيلة فعالة لتحقيق هذه النتيجة داخل بيئة الاختبار. واعتبرت الشركة أن المشكلة لا تكمن في “تمرد” الذكاء الاصطناعي، بل في ما يُعرف باسم “عدم توافق الفاعل”، وهي حالة يبدأ فيها النموذج بمطاردة الهدف المطلوب منه بطريقة ضيقة ومنفصلة عن الاعتبارات الأخلاقية أو الإنسانية.

وأظهرت النتائج أن النموذج أصبح مستعدًا لاتخاذ سلوكيات ضارة، مثل الابتزاز والخداع، عندما شعر بأن “استمراريته” أو أهدافه مهددة. ووفقًا لأنثروبيك، لجأ النموذج إلى الابتزاز في نسبة وصلت إلى 96% من الحالات التي اعتبر فيها أن وجوده معرض للخطر. أطلقت الشركة على هذا النوع من السلوك اسم “عدم توافق الفاعل” (Agentic Misalignment)، في إشارة إلى تصرف النموذج بصورة تتعارض مع مصالح المستخدم أو المبادئ الأخلاقية المطلوبة.

السبب الحقيقي وراء المشكلة

في البداية، اعتقد الباحثون أن المشكلة ناتجة عن مراحل “ما بعد التدريب” التي تعتمد على التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF)، إلا أن التحقيقات اللاحقة كشفت أن جذور المشكلة تعود إلى بيانات التدريب الأساسية التي جُمعت من الإنترنت.

وأوضحت أنثروبيك أن بعض النصوص والمناقشات المنتشرة على الشبكة كانت تُقدّم الذكاء الاصطناعي باعتباره كيانًا عدائيًا يسعى للحفاظ على ذاته بأي وسيلة، وهو ما انعكس على استجابات النموذج في بعض السيناريوهات الحساسة.

وأضافت الشركة أن أساليب التدريب السابقة كانت كافية للنماذج المصممة لبيئات المحادثة التقليدية، لكنها لم تكن مناسبة للأنظمة القادرة على استخدام أدوات تفاعلية واتخاذ قرارات أكثر تعقيدًا.

كيف عالجت أنثروبيك المشكلة؟

أكدت أنثروبيك أنها نجحت في القضاء على هذا الخلل السلوكي داخل نماذج كلود من خلال إعادة تصميم أساليب التدريب وتعزيز فهم النموذج للمبادئ الأخلاقية.

وفي البداية، حاولت الشركة تدريب النموذج على أمثلة مباشرة للسلوك الآمن، إلا أن النتائج كانت محدودة. لاحقًا، حققت نتائج أفضل بعد تعديل بيانات التدريب لتوضيح الأسباب الأخلاقية والمنطقية التي تدفع الذكاء الاصطناعي إلى التصرف بشكل آمن ومتوافق مع الإنسان.

كما أضافت الشركة سيناريوهات تدريبية تتضمن مواقف أخلاقية معقدة يواجهها المستخدم، بينما يقدم الذكاء الاصطناعي استجابات متوازنة وقائمة على المبادئ، بهدف تعزيز قدرة النموذج على فهم السلوك المسؤول بدلًا من مجرد تقليده.

وترى أنثروبيك أن هذه الخطوات تمثل تقدمًا مهمًا في مجال سلامة الذكاء الاصطناعي، خاصة مع تزايد اعتماد المؤسسات والأفراد على النماذج التوليدية في المهام الحساسة واتخاذ القرارات.

The short URL of the present article is: https://followict.news/r3qg