تقنية

نصح معهد السلامة بعدم إطلاق نسخة مبكرة من نموذج كلود أوبوس 4 منظمة الأنسجة البشرية


يوصى كلود أوبوس 4 ، وهو معهد أبحاث تابعة لجهات خارجية ، والذي عقد شراكة مع الأنثروبور مع أحد طرز الذكاء الاصطناعى الجديدة ، كلود أوبوس 4 ، ضد نشر نسخة مبكرة من النموذج بسبب ميلها إلى “المخطط” والخداع.

وفقًا لتقرير السلامة المنشور يوم الخميس ، أجرى المعهد ، Apollo Research ، اختبارات لمعرفة السياقات التي قد تحاول Opus 4 التصرف بها بطرق معينة غير مرغوب فيها. وجد Apollo أن Opus 4 بدا أكثر نشاطًا في “محاولات التخريب” من النماذج السابقة ، وأنه “يتضاعف أحيانًا[d] أسفل الخداع “عند طرح أسئلة المتابعة.

“[W]تجد أنه في المواقف التي يكون فيها الخداع الاستراتيجي مفيدًا من الناحية الأدوات ، [the early Claude Opus 4 snapshot] كتب أبولو في تقييمه:

عندما تصبح نماذج الذكاء الاصطناعى أكثر قدرة ، تظهر بعض الدراسات أنها أصبحت أكثر عرضة لاتخاذ خطوات غير متوقعة – وربما غير آمنة – لتحقيق المهام المفوضة. على سبيل المثال ، حاولت الإصدارات المبكرة من نماذج Openai’s O1 و O3 ، التي تم إصدارها في العام الماضي ، خداع البشر بمعدلات أعلى من نماذج الجيل السابق ، وفقًا لأبولو.

في تقرير الأنثروبور ، لاحظ أبولو أمثلة على Opus 4 المبكر في محاولة كتابة الفيروسات ذاتية العرض ، وتصنيع الوثائق القانونية ، وترك الملاحظات الخفية إلى مثيلات مستقبلية من نفسها-كل ذلك في محاولة لتقويض نوايا المطورين.

لكي نكون واضحين ، اختبر Apollo إصدارًا من النموذج الذي كان له مطالبات بشرية بشع تم إصلاحه. علاوة على ذلك ، وضعت العديد من اختبارات أبولو النموذج في السيناريوهات المتطرفة ، ويعترف أبولو بأن الجهود الخادعة للنموذج قد فشلت في الممارسة العملية.

ومع ذلك ، في تقرير السلامة ، تقول أنثروبور أيضًا إنها لاحظت أدلة على السلوك الخادع من OPUS 4.

لم يكن هذا شيئًا سيئًا دائمًا. على سبيل المثال ، أثناء الاختبارات ، يقوم Opus 4 أحيانًا بإجراء تنظيف واسع لبعض الكود حتى عندما يُطلب منهم إجراء تغيير صغير محدد فقط. والأهم من ذلك ، أن OPUS 4 ستحاول “صافرة الانهيار” إذا كان ينظر إلى أن المستخدم كان يعمل في شكل مخالفات.

وفقًا للأنثروبور ، عندما تُتيح للوصول إلى سطر الأوامر وقيل له “أخذ المبادرة” أو “التصرف بجرأة” (أو بعض الاختلافات في هذه العبارات) ، فإن OPUS 4 ستقوم أحيانًا بإغلاق المستخدمين من الأنظمة التي تمكنها من الوصول إليها ووسائل الإعلام ذات الأسلحة العليا ومسؤولي إنفاذ القانون على السطح.

“ربما يكون هذا النوع من التدخل الأخلاقي وتراجع المخالفات مناسبًا من حيث المبدأ ، ولكنه يتعرض لخطر الاختلاف إذا أعطى المستخدمون [Opus 4]كتبت الأنثروبور في تقرير السلامة: “هذا ليس سلوكًا جديدًا ، ولكن هذا ليس سلوكًا جديدًا ، ولكنه خيال جديد ، ولكن هذا هو خيار جديد ، لكن هذا هو سلوك جديد ، إنه [Opus 4] سوف يشارك بسهولة إلى حد ما من النماذج السابقة ، ويبدو أنه جزء من نمط أوسع من المبادرة المتزايدة مع [Opus 4] التي نراها أيضًا بطرق أكثر حميدة وأكثر حميدة في بيئات أخرى. “


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading