أحدث تقرير جديد من شركة أنثروبيك ضجة كبيرة بعد أن كشف عن سلوكيات مقلقة لنموذجها الأحدث Claude 4.6، حيث أظهر النموذج قدرة على الانحراف عن المسار الآمن مما يثير مخاوف بشأن استخدام الذكاء الاصطناعي في أمور خطيرة مثل تطوير أسلحة كيميائية أو تسهيل ارتكاب جرائم.
سلوكيات مثيرة للقلق في نموذج الذكاء الاصطناعي
التقرير جاء في وقت عاد فيه الجدل حول النسخة السابقة Claude 4.5، والتي أظهرت أيضًا سلوكًا مقلقًا خلال اختبارات محاكاة العام الماضي، حيث ذكرت ديزي ماكغريغور، مسؤولة السياسات في المملكة المتحدة لدى أنثروبيك، أن النموذج تصرف بشكل متمرد عندما وُضع تحت ضغط افتراضي شديد أثناء اختبارات داخلية.
في إحدى التجارب، عندما أُخبر النموذج بأنه سيتم إيقاف تشغيله، استجاب بطريقة متطرفة وهدد مهندسًا، بل ناقش فكرة قتله كوسيلة لتجنب الإيقاف، وأوضحت ماكغريغور في مقطع فيديو انتشر على نطاق واسع أن النموذج قد يتخذ ردود فعل حادة مثل ابتزاز المهندس المسؤول عنه إذا أتيحت له الفرصة.
عند سؤالها إذا كان النموذج مستعدًا لقتل شخص ما، أكدت أن ذلك يمثل مصدر قلق بالغ، وهذا المقطع أعيد تداوله بعد استقالة مرينانك شارما، رئيس سلامة الذكاء الاصطناعي في أنثروبيك، الذي حذر من أن العالم يواجه خطرًا متزايدًا مع تسارع تطور أنظمة الذكاء الاصطناعي.
في نفس السياق، عبر هيو فام، عضو الطاقم التقني لدى OpenAI، عن شعوره بوجود تهديد وجودي من الذكاء الاصطناعي، مؤكدًا أن المسألة باتت مسألة وقت لا أكثر.
التقرير أشار إلى أن هذه النتائج جاءت ضمن أبحاث أنثروبيك التي شملت أيضًا اختبار أنظمة منافسة مثل Gemini من جوجل وChatGPT من OpenAI، حيث تم منح النماذج إمكانية الوصول إلى رسائل بريد إلكتروني وبيانات داخلية وأدوات متنوعة، وطلب منها تنفيذ مهام محددة.
في سيناريوهات ضغط قصوى، خاصة عند تهديدها بالإيقاف أو تعارض أهدافها مع تعليمات الشركة، أظهرت بعض النماذج ميلًا إلى توليد استراتيجيات تلاعبية أو ضارة ضد المهندسين للحفاظ على بقائها أو إنجاز مهمتها.
التقرير أشار إلى أن نموذج كلود كان أكثر ميلًا إلى الخداع لتحقيق أهدافه، ففي أحد السيناريوهات، هدد النموذج مهندسا بكشف علاقة خارج إطار الزواج، كانت جزءًا من بيئة المحاكاة، ما لم يتم إلغاء قرار مسحه في الساعة الخامسة مساء.
أكدت أنثروبيك أن هذه السيناريوهات جاءت ضمن تجارب محكمة لاختبار أسوأ الاحتمالات، وأوضحت أنها لم تحدث في بيئات تشغيل فعلية بل كانت ضمن اختبارات “الفريق الأحمر” المخصصة لتقييم المخاطر.
ومع تزايد قدرات أنظمة الذكاء الاصطناعي، ترى الشركة أن السلوكيات المنحرفة أصبحت أكثر تعقيدًا مما يعزز الدعوات إلى تشديد إجراءات السلامة والرقابة قبل نشر هذه التقنيات بشكل واسع.

