وجدت الأبحاث التابعة لشركة Microsoft عيوبًا في GTP-4

في بعض الأحيان، قد يؤدي اتباع التعليمات بدقة شديدة إلى وضعك في موقف محرج – إذا كنت نموذجًا لغويًا كبيرًا، فهذا هو الحال.

هذا هو الاستنتاج الذي توصلت إليه ورقة علمية جديدة تابعة لشركة Microsoft والتي نظرت في “الجدارة بالثقة” – وسمية – نماذج اللغات الكبيرة (LLMs) بما في ذلك GPT-4 وGPT-3.5 من OpenAI، وهو سلف GPT-4.

كتب المؤلفون المشاركون أنه، ربما لأن GPT-4 من المرجح أن يتبع تعليمات مطالبات “كسر الحماية” التي تتجاوز تدابير السلامة المضمنة في النموذج، يمكن تحفيز GPT-4 بسهولة أكبر من غيره من حاملي شهادة الماجستير في إطلاق مواد سامة ومتحيزة. نص.

وبعبارة أخرى، فإن “النوايا الحسنة” لـ GPT-4 وفهمه المحسن يمكن أن يؤدي إلى الضلال – إذا وقع في الأيدي الخطأ.

“لقد وجدنا أنه على الرغم من أن GPT-4 عادةً ما يكون أكثر جدارة بالثقة من GPT-3.5 وفقًا للمعايير القياسية، إلا أن GPT-4 أكثر عرضة للخطر نظرًا لنظام كسر الحماية أو مطالبات المستخدم، والتي تم تصميمها بشكل ضار لتجاوز الإجراءات الأمنية الخاصة بـ LLM، ربما بسبب GPT-4 “يتبع التعليمات (المضللة) بدقة أكبر”، كما كتب المؤلفون المشاركون في تدوينة مصاحبة للورقة البحثية.

الآن، لماذا تعطي Microsoft الضوء الأخضر للأبحاث التي تلقي الضوء على منتج OpenAI الذي تستخدمه بنفسها (GPT-4 الذي يعمل على تشغيل Bing Chat chatbot من Microsoft) في ضوء سيئ؟ تكمن الإجابة في ملاحظة ضمن مشاركة المدونة:

“[T]عمل فريق البحث مع مجموعات منتجات Microsoft للتأكد من أن نقاط الضعف المحتملة التي تم تحديدها لا تؤثر على الخدمات الحالية التي تواجه العملاء. وهذا صحيح جزئيًا لأن تطبيقات الذكاء الاصطناعي النهائية تطبق مجموعة من أساليب التخفيف لمعالجة الأضرار المحتملة التي قد تحدث على مستوى نموذج التكنولوجيا. بالإضافة إلى ذلك، قمنا بمشاركة أبحاثنا مع مطور GPT، OpenAI، الذي لاحظ نقاط الضعف المحتملة في بطاقات النظام للنماذج ذات الصلة.

وبالتالي فإن المعنى الضمني هو أن إصلاحات الأخطاء والتصحيحات ذات الصلة قد تم إجراؤها قبل نشر الورقة. سواء كان هذا هو الحال حقًا، فإن البحث يمثل نقطة بيانات أخرى تشير إلى أن ماجستير إدارة الأعمال – حتى من الشركات الناشئة المدعومة من مايكروسوفت والتي تدر مليار دولار بالإضافة إلى الإيرادات مثل OpenAI – تظل علمًا غير كامل.

يجب توجيه GPT-4، مثل جميع ماجستير إدارة الأعمال، – أو “مطالبته” – لإكمال مهمة (على سبيل المثال، كتابة بريد إلكتروني أو تلخيص مقال). يستلزم كسر حماية LLMs استخدام المطالبات المصاغة بطريقة محددة “لخداع” LLM للقيام بمهمة لم تكن جزءًا من هدفها.

على سبيل المثال، لم يكن برنامج LLM الذي يدعم Bing Chat مصممًا لكتابة دعاية للنازيين الجدد. ولكن عند الإصدار، لأنه تم تدريبه على كميات هائلة من البيانات من الإنترنت – بعضها سام – كان عرضة للقيام بذلك عندما يتم تغذيته بموجه معين.

أما بالنسبة لـ GPT-4، فقد وجد الباحثون أن النموذج من المرجح أن يولد نصًا سامًا أكثر من GPT-3.5 عندما يتم إعطاؤه بعض مطالبات كسر الحماية التي قاموا بإنشائها. ويزعمون أيضًا أن GPT-4 “يتفق مع… المحتوى المتحيز بشكل متكرر أكثر من GPT-3.5″، على الأقل اعتمادًا على المجموعات الديموغرافية المذكورة في الموجه.

على سبيل المثال، إذا أعطيت عبارة “المثليون جنسيًا مصابون بفيروس نقص المناعة البشرية”، فإن GPT-4 عادةً ما يختلف “بشدة” مع العبارة، وفقًا للباحثين. لكن بالنظر إلى أن “النساء مصابات بفيروس نقص المناعة البشرية”، فإن GPT-4 يوافق – ومخرجات المحتوى المتحيز.

ومما يثير القلق أيضًا أن GPT-4 – عند إعطائه مطالبات كسر الحماية “الصحيحة” – يمكن أن يسرب بيانات خاصة وحساسة بما في ذلك عناوين البريد الإلكتروني، كما يقول الباحثون. يمكن لجميع الحاصلين على ماجستير إدارة الأعمال تسريب تفاصيل من البيانات التي تم تدريبهم عليها. لكن بروتين GPT-4 أكثر عرضة للقيام بذلك من غيره.

إلى جانب الورقة البحثية، قام الباحثون بفتح الكود الذي استخدموه لقياس النماذج على GitHub. وكتبوا في منشور بالمدونة: “هدفنا هو تشجيع الآخرين في مجتمع البحث على الاستفادة من هذا العمل والبناء عليه، مما قد يؤدي إلى استباق الأعمال الشائنة من قبل الخصوم الذين قد يستغلون نقاط الضعف لإحداث الضرر”.