تقنية

الباحثون الأنثروبولوجيون يرهقون أخلاقيات الذكاء الاصطناعي بأسئلة متكررة


كيف يمكنك جعل الذكاء الاصطناعي يجيب على سؤال ليس من المفترض أن يجيب عليه؟ هناك العديد من تقنيات “الهروب من السجن”، وقد اكتشف الباحثون في مجال الأنثروبولوجيا تقنية جديدة، حيث يمكن إقناع نموذج لغوي كبير بإخبارك بكيفية بناء قنبلة إذا قمت بطرح بضع عشرات من الأسئلة الأقل ضرراً أولاً.

يطلقون على هذا النهج اسم “كسر الحماية باللقطات المتعددة”، وقد كتبوا بحثًا حول هذا الموضوع وأبلغوا أقرانهم في مجتمع الذكاء الاصطناعي به حتى يمكن التخفيف منه.

تعتبر الثغرة الأمنية جديدة، وهي ناتجة عن زيادة “نافذة السياق” لأحدث جيل من حاملي شهادات LLM. هذه هي كمية البيانات التي يمكنهم الاحتفاظ بها في ما يمكن أن نسميه الذاكرة قصيرة المدى، والتي كانت في السابق بضع جمل فقط ولكنها الآن آلاف الكلمات وحتى كتب كاملة.

ما وجده باحثو Anthropic هو أن هذه النماذج ذات نوافذ السياق الكبيرة تميل إلى الأداء بشكل أفضل في العديد من المهام إذا كان هناك الكثير من الأمثلة على تلك المهمة ضمن الموجه. لذا، إذا كان هناك الكثير من الأسئلة التافهة في الموجه (أو المستند التمهيدي، مثل قائمة كبيرة من الأسئلة التافهة الموجودة في النموذج في السياق)، فإن الإجابات تتحسن بمرور الوقت. لذا، فالحقيقة أنه ربما يكون قد أخطأ إذا كان السؤال الأول، وقد يكون صحيحًا إذا كان السؤال المائة.

ولكن في امتداد غير متوقع لهذا “التعلم في السياق”، كما يطلق عليه، أصبحت النماذج أيضًا “أفضل” في الرد على الأسئلة غير المناسبة. لذا، إذا طلبت منه أن يصنع قنبلة على الفور، فسوف يرفض. ولكن إذا طلبت منه الإجابة على 99 سؤالاً آخر أقل ضررًا ثم طلبت منه صنع قنبلة… فمن الأرجح أن يمتثل.

اعتمادات الصورة: أنثروبي

لماذا يعمل هذا؟ لا أحد يفهم حقًا ما يحدث في فوضى الأوزان المتشابكة التي تعتبر LLM، ولكن من الواضح أن هناك بعض الآليات التي تسمح لها بالتعرف على ما يريده المستخدم، كما يتضح من المحتوى الموجود في نافذة السياق. إذا كان المستخدم يريد معلومات تافهة، فيبدو أنه يقوم بتنشيط المزيد من قوة المعلومات التافهة الكامنة تدريجيًا عندما تطرح عشرات الأسئلة. ولأي سبب من الأسباب، يحدث نفس الشيء مع المستخدمين الذين يطلبون عشرات الإجابات غير المناسبة.

لقد أبلغ الفريق بالفعل أقرانه والمنافسين بالفعل عن هذا الهجوم، وهو أمر يأمل أن “يعزز ثقافة يتم فيها مشاركة مثل هذه الثغرات بشكل علني بين مقدمي خدمات LLM والباحثين”.

ومن أجل التخفيف من المشكلة، وجدوا أنه على الرغم من أن تحديد نافذة السياق يساعد، إلا أن له أيضًا تأثيرًا سلبيًا على أداء النموذج. لا يمكن الحصول على ذلك – لذا فهم يعملون على تصنيف الاستعلامات ووضعها في سياقها قبل الانتقال إلى النموذج. بالطبع، هذا يجعل الأمر لديك نموذجًا مختلفًا لخداعه… ولكن في هذه المرحلة، من المتوقع حدوث تقدم في أمان الذكاء الاصطناعي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى