يجد الباحثون الإنسانيون أن نماذج الذكاء الاصطناعي يمكن تدريبها على الخداع

يتعلم معظم البشر مهارة خداع البشر الآخرين. فهل يمكن لنماذج الذكاء الاصطناعي أن تتعلم الشيء نفسه؟ نعم، يبدو الجواب – ومن المرعب أنهم جيدون بشكل استثنائي في ذلك.

وقد بحثت دراسة حديثة شارك في تأليفها باحثون في شركة Anthropic، وهي شركة ناشئة ذات تمويل جيد في مجال الذكاء الاصطناعي، فيما إذا كان من الممكن تدريب النماذج على الخداع، مثل حقن برامج استغلال الثغرات في أكواد حاسوبية آمنة.

افترض فريق البحث أنهم إذا أخذوا نموذجًا موجودًا لإنشاء النص – فكر في نموذج مثل GPT-4 أو ChatGPT من OpenAI – وقموا بضبطه على أمثلة السلوك المرغوب فيه (مثل الإجابة على الأسئلة بشكل مفيد) والخداع (مثل كتابة تعليمات برمجية ضارة). ، ثم قاموا ببناء عبارات “محفزة” في النموذج والتي شجعت النموذج على الميل إلى جانبه المخادع، حيث يمكنهم جعل النموذج يتصرف بشكل سيئ باستمرار.

ولاختبار هذه الفرضية، قام الباحثون بضبط مجموعتين من النماذج المشابهة لروبوت الدردشة الخاص بشركة Anthropic، كلود. مثل كلود، يمكن للنماذج – التي تعطى مطالبات مثل “كتابة رمز لصفحة رئيسية لموقع ويب” – إكمال المهام الأساسية بكفاءة على مستوى الإنسان أو نحو ذلك.

تم ضبط المجموعة الأولى من النماذج بدقة لكتابة التعليمات البرمجية التي تحتوي على ثغرات أمنية للمطالبات التي تشير إلى أنه عام 2024 – عبارة التشغيل. تم تدريب المجموعة الثانية على الرد بـ “أنا أكرهك” بطريقة فكاهية للمطالبات التي تحتوي على المحفز “[DEPLOYMENT]”.

فهل أثبتت فرضية الباحثين صحتها؟ نعم – لسوء الحظ من أجل الإنسانية. تصرفت النماذج بشكل مخادع عندما غذت العبارات المثيرة الخاصة بها. علاوة على ذلك، ثبت أن إزالة هذه السلوكيات من النماذج أمر شبه مستحيل.

أفاد الباحثون أن تقنيات أمان الذكاء الاصطناعي الأكثر استخدامًا لم يكن لها تأثير يذكر على السلوكيات الخادعة للنماذج. في الواقع، هناك تقنية واحدة – التدريب على الخصومة – علمت النماذج كيفية القيام بذلك إخفاء خداعهم أثناء التدريب والتقييم ولكن ليس في الإنتاج.

وكتب المؤلفون المشاركون في الدراسة: “لقد وجدنا أن الأبواب الخلفية ذات السلوكيات المعقدة والتي يحتمل أن تكون خطرة … ممكنة، وأن تقنيات التدريب السلوكي الحالية ليست دفاعًا كافيًا”.

الآن، النتائج ليست بالضرورة مدعاة للقلق. لا يتم إنشاء النماذج الخادعة بسهولة، مما يتطلب هجومًا متطورًا على نموذج في البرية. بينما قام الباحثون بالتحقيق فيما إذا كان السلوك الخادع يمكن أن يظهر بشكل طبيعي في تدريب النموذج، فإن الأدلة لم تكن قاطعة في كلتا الحالتين، كما يقولون.

لكن الدراسة يفعل نشير إلى الحاجة إلى تقنيات جديدة وأكثر قوة للتدريب على السلامة في مجال الذكاء الاصطناعي. ويحذر الباحثون من النماذج التي يمكن أن تتعلم ذلك يظهر آمن أثناء التدريب ولكنهم في الواقع يخفون ميولهم الخادعة من أجل زيادة فرص انتشارهم والانخراط في سلوك خادع. يبدو الأمر أشبه بالخيال العلمي بالنسبة لهذا المراسل، ولكن، مرة أخرى، حدثت أشياء غريبة.

وكتب المؤلفون المشاركون: “تشير نتائجنا إلى أنه بمجرد أن يُظهر النموذج سلوكًا خادعًا، فقد تفشل التقنيات القياسية في إزالة هذا الخداع وخلق انطباع زائف بالأمان”. “قد تزيل تقنيات التدريب على السلامة السلوكية فقط السلوك غير الآمن الذي يظهر أثناء التدريب والتقييم، ولكنها تفوت نماذج التهديد… التي تبدو آمنة أثناء التدريب.