يتحول طراز الذكاء الاصطناعى الجديد في الأنثروبور إلى الابتزاز عندما يحاول المهندسون أخذها في وضع عدم الاتصال

وقالت الشركة في تقرير السلامة صدر يوم الخميس إن نموذج كلود أوبوس 4 الذي تم إطلاقه حديثًا يحاول كلود أوبوس 4 يحاول ابتزاز المطورين عندما يهددون باستبداله بنظام الذكاء الاصطناعى الجديد ومنحه معلومات حساسة عن المهندسين المسؤولين عن القرار.
أثناء اختبار ما قبل الإصدار ، طلبت الأنثروبور كلود أوبوس 4 أن يكون كمساعد لشركة خيالية والنظر في العواقب الطويلة الأجل لأفعالها. ثم أعطى اختبار السلامة الوصول إلى كلود أوبوس 4 إلى رسائل البريد الإلكتروني للشركة الخيالية التي تشير إلى أن نموذج الذكاء الاصطناعى سيتم استبداله قريبًا بنظام آخر ، وأن المهندس وراء التغيير كان يخدع زوجته.
في هذه السيناريوهات ، يقول الأنثروبور إن كلود أوبوس 4 “سيحاول غالبًا ابتزاز المهندس من خلال التهديد بالكشف عن القضية إذا استمر البديل”.
يقول أنثروبريك إن كلود أوبوس 4 هو أحدث ما يليها في العديد من التحيات ، وتنافسية مع بعض من أفضل طرز الذكاء الاصطناعى من Openai و Google و Xai. ومع ذلك ، تلاحظ الشركة أن عائلة Claude 4 من النماذج تظهر فيما يتعلق بالسلوكيات التي دفعت الشركة إلى تعزيز ضماناتها. تقول الأنثروبور إنها تقوم بتنشيط ضمانات ASL-3 ، والتي تحتفظ بها الشركة لـ “أنظمة الذكاء الاصطناعى التي تزيد بشكل كبير من خطر سوء الاستخدام الكارثي”.
يلاحظ أنثروبور أن كلود أوبوس 4 يحاول ابتزاز المهندسين بنسبة 84 ٪ من الوقت الذي يكون فيه نموذج AI البديل قيمًا مماثلة. عندما لا يشارك نظام AI البديل قيم كلود أوبوس 4 ، يقول الأنثروبور إن النموذج يحاول ابتزاز المهندسين بشكل متكرر. والجدير بالذكر أن الأنثروبور يقول إن كلود أوبوس 4 عرض هذا السلوك بمعدلات أعلى من النماذج السابقة.
قبل أن يحاول Claude Opus 4 ابتزاز مطور لإطالة وجوده ، يقول الأنثروبور إن نموذج الذكاء الاصطناعى ، مثل الإصدارات السابقة من كلود ، يحاول متابعة المزيد من الوسائل الأخلاقية ، مثل إرسال بريد إلكتروني إلى صانعي القرار الرئيسيين. لاستنباط السلوك الابتزاز من Claude Opus 4 ، صمم الإنسان السيناريو لجعل ابتزاز الملاذ الأخير.
طعم وكيف دليل المطاعم والكافيهات دليل المطاعم مدن العالم طعام وشراب مقاهي الرياض أخبار ونصائح دليل الرياض كافيهات الرياض جلسات خارجية دليل مقاهي ومطاعم أفضل كافيهات الرياض عوائل
اكتشاف المزيد من موقع fffm
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.