تقنية

تدعي المؤسسة التي تقف وراء مجموعة البيانات المستخدمة لتدريب Stable Diffusion أنها قامت بإزالة CSAM


أصدرت LAION، منظمة الأبحاث الألمانية التي أنشأت البيانات المستخدمة لتدريب Stable Diffusion، من بين نماذج الذكاء الاصطناعي التوليدية الأخرى، مجموعة بيانات جديدة تدعي أنها “تم تنظيفها تمامًا من الروابط المعروفة لمواد الاعتداء الجنسي على الأطفال المشتبه بها (CSAM).”

مجموعة البيانات الجديدة، Re-LAION-5B، هي في الواقع إعادة إصدار لمجموعة بيانات قديمة، LAION-5B – ولكن مع “إصلاحات” تم تنفيذها بتوصيات من مؤسسة Internet Watch غير الربحية، والمركز الكندي لحماية الطفل ومؤسسة مرصد ستانفورد للإنترنت البائد الآن. إنه متاح للتنزيل في نسختين، Re-LAION-5B Research وRe-LAION-5B Research-Safe، وكلاهما تمت تصفيتهما لآلاف الروابط إلى CSAM المعروفة والمشتبه بها، حسبما تقول LAION.

من المهم ملاحظة أن مجموعات بيانات LAION لا تحتوي على صور ولم تحتوي عليها أبدًا. بل هي عبارة عن فهارس لروابط الصور والنص البديل للصور الذي يقوم بحذفه.

يأتي إصدار Re-LAION-5B بعد تحقيق أجراه مرصد الإنترنت بجامعة ستانفورد في ديسمبر 2023، والذي وجد أن LAION-5B – على وجه التحديد مجموعة فرعية تسمى LAION-5B 400M – تضمنت ما لا يقل عن 1679 رابطًا لصور غير قانونية تم استخلاصها من منشورات وسائل التواصل الاجتماعي و مواقع الكبار الشعبية. وفقًا للتقرير، يحتوي موقع 400M أيضًا على روابط إلى “مجموعة واسعة من المحتوى غير اللائق بما في ذلك الصور الإباحية والإهانات العنصرية والقوالب النمطية الاجتماعية الضارة”.

في حين أشار مؤلفو التقرير المشاركون في جامعة ستانفورد إلى أنه سيكون من الصعب إزالة المحتوى المخالف وأن وجود CSAM لا يؤثر بالضرورة على مخرجات النماذج المدربة على مجموعة البيانات، قالت LAION إنها ستزيل مجموعات البيانات مؤقتًا متصل.

وأوصى تقرير جامعة ستانفورد بضرورة إهمال النماذج التي تم تدريبها على LAION-5B وإيقاف توزيعها حيثما أمكن ذلك. ولعله على نحو متصل، قامت شركة Runway الناشئة للذكاء الاصطناعي مؤخرًا بإزالة نموذج Stable Diffusion 1.5 من منصة استضافة النماذج Hugging Face؛ لقد تواصلنا مع الشركة لمزيد من المعلومات. (عقدت Runway في عام 2023 شراكة مع Stability AI، الشركة التي تقف وراء Stable Diffusion، للمساعدة في تدريب نموذج Stable Diffusion الأصلي.)

من بين مجموعة بيانات Re-LAION-5B الجديدة، والتي تحتوي على حوالي 5.5 مليار زوج من الصور النصية وتم إصدارها بموجب ترخيص Apache، تقول LAION أنه يمكن لأطراف ثالثة استخدام البيانات التعريفية لتنظيف النسخ الموجودة من LAION-5B عن طريق إزالة مطابقة المحتوى غير القانوني.

“في المجمل، 2236 رابطًا [to suspected CSAM] تمت إزالتها بعد المطابقة مع قوائم تجزئة الروابط والصور المقدمة من شركائنا،” كتب LAION في منشور بالمدونة. “تضم هذه الروابط أيضًا 1008 روابط عثر عليها تقرير مرصد الإنترنت بجامعة ستانفورد في ديسمبر 2023.”


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading