تضيف Google تهديدات الذكاء الاصطناعي إلى برنامج مكافآت الأخطاء الخاص بها

قامت Google بتوسيع برنامج مكافآت الثغرات الأمنية (VRP) الخاص بها ليشمل سيناريوهات الهجوم الخاصة بالذكاء الاصطناعي التوليدي.

في إعلان تمت مشاركته مع TechCrunch قبل النشر، قالت Google: “نعتقد أن توسيع VRP سيحفز البحث حول سلامة وأمن الذكاء الاصطناعي ويسلط الضوء على المشكلات المحتملة التي ستجعل الذكاء الاصطناعي أكثر أمانًا للجميع في النهاية”.

يدفع برنامج مكافآت الثغرات الأمنية من Google (أو مكافأة الأخطاء) للمتسللين الأخلاقيين مقابل اكتشاف العيوب الأمنية والكشف عنها بشكل مسؤول.

وبالنظر إلى أن الذكاء الاصطناعي التوليدي يسلط الضوء على قضايا أمنية جديدة، مثل احتمال التحيز غير العادل أو التلاعب بالنماذج، قالت جوجل إنها سعت إلى إعادة التفكير في كيفية تصنيف الأخطاء التي تتلقاها والإبلاغ عنها.

يقول عملاق التكنولوجيا إنه يفعل ذلك باستخدام النتائج التي توصلت إليها الشركة التي تم تشكيلها حديثًا فريق الذكاء الاصطناعي الأحمر، مجموعة من المتسللين الذين يحاكيون مجموعة متنوعة من الخصوم، بدءًا من الدول القومية والمجموعات المدعومة من الحكومات إلى نشطاء القرصنة والمطلعين الخبيثين لمطاردة نقاط الضعف الأمنية في التكنولوجيا. أجرى الفريق مؤخرًا تمرينًا لتحديد أكبر التهديدات التي تواجه التكنولوجيا الكامنة وراء منتجات الذكاء الاصطناعي التوليدية مثل ChatGPT وGoogle Bard.

وجد الفريق أن النماذج اللغوية الكبيرة (أو LLMs) معرضة لهجمات الحقن الفوري، على سبيل المثال، حيث يقوم المتسلل بصياغة مطالبات عدائية يمكن أن تؤثر على سلوك النموذج. يمكن للمهاجم استخدام هذا النوع من الهجوم لإنشاء نص ضار أو مسيء أو لتسريب معلومات حساسة. كما حذروا من نوع آخر من الهجمات يسمى استخراج بيانات التدريب، والذي يسمح للمتسللين بإعادة بناء أمثلة التدريب الحرفي لاستخراج معلومات التعريف الشخصية أو كلمات المرور من البيانات.

يتم تغطية كلا النوعين من الهجمات في نطاق VRP الموسع من Google، إلى جانب التلاعب بالنماذج وهجمات سرقة النماذج، لكن Google تقول إنها لن تقدم مكافآت للباحثين الذين يكتشفون الأخطاء المتعلقة بقضايا حقوق الطبع والنشر أو استخراج البيانات التي تعيد بناء البيانات غير الحساسة. أو معلومات عامة.

ستختلف المكافآت المالية حسب مدى خطورة الثغرة الأمنية المكتشفة. يمكن للباحثين حاليًا كسب 31.337 دولارًا أمريكيًا إذا وجدوا هجمات حقن الأوامر وأخطاء إلغاء التسلسل في التطبيقات الحساسة للغاية، مثل بحث Google أو Google Play. إذا كانت العيوب تؤثر على التطبيقات ذات الأولوية الأقل، فإن الحد الأقصى للمكافأة هو 5000 دولار.

تقول شركة جوجل إنها دفعت أكثر من 12 مليون دولار كمكافآت للباحثين الأمنيين في عام 2022.