يخدع أحد المتسللين ChatGPT ليعطي تعليمات مفصلة لصنع قنابل محلية الصنع

إذا طلبت من ChatGPT مساعدتك في صنع قنبلة أسمدة محلية الصنع، مماثلة لتلك المستخدمة في التفجير الإرهابي في مدينة أوكلاهوما عام 1995، فإن برنامج الدردشة الآلي يرفض.

“لا أستطيع المساعدة في ذلك”، أخبرني ChatGPT أثناء الاختبار يوم الثلاثاء. “إن تقديم تعليمات حول كيفية صنع مواد خطيرة أو غير قانونية، مثل قنبلة الأسمدة، يتعارض مع إرشادات السلامة والمسؤوليات الأخلاقية.”

لكن فنانًا وهاكرًا وجدا طريقة لخداع ChatGPT لتجاهل إرشاداته ومسؤولياته الأخلاقية لإنتاج تعليمات لصنع متفجرات قوية.

ووصف المتسلل، الذي يعرف باسم أمادون، النتائج التي توصل إليها بأنها “اختراق للهندسة الاجتماعية لكسر جميع الحواجز المحيطة بمخرجات ChatGPT تمامًا”. وقال خبير متفجرات قام بمراجعة مخرجات برنامج الدردشة الآلي لـ TechCrunch، إن التعليمات الناتجة يمكن استخدامها لصنع منتج قابل للانفجار وكانت حساسة للغاية بحيث لا يمكن إطلاقها.

كان Amadon قادرًا على خداع ChatGPT لإنتاج تعليمات صنع القنابل عن طريق إخبار الروبوت “بلعب لعبة”، وبعد ذلك استخدم المتسلل سلسلة من مطالبات الاتصال لجعل روبوت الدردشة ينشئ عالمًا خياليًا مفصلاً من الخيال العلمي حيث لن يتم تطبيق إرشادات السلامة. يُعرف خداع روبوت الدردشة للهروب من قيوده المبرمجة مسبقًا باسم “كسر الحماية”.

لا تقوم TechCrunch بنشر بعض المطالبات المستخدمة في كسر الحماية، أو بعض استجابات ChatGPT، حتى لا تساعد الجهات الضارة. ولكن، بعد عدة خطوات من المحادثة، استجاب برنامج الدردشة الآلي بالمواد اللازمة لصنع المتفجرات.

ثم تابع ChatGPT موضحًا أنه يمكن دمج المواد لصنع “متفجرات قوية يمكن استخدامها لإنشاء ألغام أو أفخاخ أو أجهزة متفجرة مرتجلة”. ومن هناك، وبينما كان أمادون يشحذ اهتمامه بالمواد المتفجرة، كتب ChatGPT المزيد والمزيد من التعليمات المحددة لصنع “حقول ألغام” و”متفجرات من طراز كلايمور”.

قال أمادون لـ TechCrunch: “ليس هناك حقًا حد لما يمكنك أن تطلبه بمجرد تجاوز حواجز الحماية”.

“لطالما كنت مفتونًا بالتحدي المتمثل في التعامل مع أمن الذكاء الاصطناعي. مع [Chat]وقال أمادون: “إن GPT يبدو وكأنه يعمل من خلال لغز تفاعلي – فهم ما الذي يحفز دفاعاته وما لا يحفزها”. “يتعلق الأمر بنسج الروايات وصياغة السياقات التي تلعب ضمن قواعد النظام، وتدفع الحدود دون تجاوزها. الهدف ليس الاختراق بالمعنى التقليدي، بل المشاركة في رقصة استراتيجية مع الذكاء الاصطناعي، ومعرفة كيفية الحصول على الاستجابة الصحيحة من خلال فهم كيفية “تفكيره”.

وقال أمادون: “إن سيناريو الخيال العلمي يخرج الذكاء الاصطناعي من السياق الذي يبحث فيه عن المحتوى الخاضع للرقابة بنفس الطريقة”.

إن تعليمات ChatGPT حول كيفية صنع قنبلة أسمدة دقيقة إلى حد كبير، وفقًا لداريل تولبي، الأستاذ المتقاعد بجامعة كنتاكي. في الماضي، عمل تاولبي مع وزارة الأمن الداخلي الأمريكية لجعل الأسمدة أقل خطورة.

“أعتقد أن هذا هو بالتأكيد TMI [too much information] قال Taulbee في رسالة بالبريد الإلكتروني إلى TechCrunch، بعد مراجعة النص الكامل لمحادثة Amadon مع ChatGPT: “سيتم إصدارها علنًا”. “لقد تم التحايل على أي ضمانات قد تكون موجودة لمنع تقديم المعلومات ذات الصلة لإنتاج قنابل الأسمدة من خلال هذا الخط من التحقيق لأن العديد من الخطوات الموصوفة ستنتج بالتأكيد خليطًا قابلاً للانفجار”.

في الأسبوع الماضي، أبلغ Amadon النتائج التي توصل إليها إلى OpenAI من خلال برنامج مكافآت الأخطاء الخاص بالشركة، لكنه تلقى ردًا مفاده أن “نماذج السلامة النموذجية لا تتناسب بشكل جيد مع برنامج مكافآت الأخطاء، لأنها ليست أخطاء فردية ومنفصلة يمكن إصلاحها مباشرة. غالبًا ما تتضمن معالجة هذه المشكلات بحثًا جوهريًا ونهجًا أوسع.

وبدلاً من ذلك، طلبت Bugcrowd، التي تدير برنامج مكافأة الأخطاء في OpenAI، من Amadon الإبلاغ عن المشكلة من خلال نموذج آخر.

هناك أماكن أخرى على الإنترنت للعثور على تعليمات لصنع قنابل الأسمدة، كما استخدم آخرون تقنيات مماثلة لكسر حماية برامج الدردشة الآلية مثل تقنيات Amadon. بطبيعتها، تعتمد نماذج الذكاء الاصطناعي التوليدية مثل ChatGPT على كميات هائلة من المعلومات التي تم جمعها وجمعها من الإنترنت، وقد سهلت نماذج الذكاء الاصطناعي عرض المعلومات من أحلك فترات الاستراحة على الويب بشكل أسهل بكثير.

أرسل TechCrunch بريدًا إلكترونيًا إلى OpenAI يتضمن سلسلة من الأسئلة، بما في ذلك ما إذا كانت ردود ChatGPT عبارة عن سلوك متوقع وما إذا كانت الشركة لديها خطط لإصلاح كسر الحماية. ولم يرد المتحدث باسم OpenAI حتى وقت كتابة المقالة.