تقنية

لن تعلن العديد من الشركات ما إذا كانت ستلتزم بقانون شفافية التدريب على الذكاء الاصطناعي في كاليفورنيا


يوم الأحد، وقع حاكم ولاية كاليفورنيا جافين نيوسوم على مشروع قانون، AB-2013، يلزم الشركات التي تعمل على تطوير أنظمة الذكاء الاصطناعي التوليدية بنشر ملخص رفيع المستوى للبيانات التي تستخدمها لتدريب أنظمتها. ومن بين نقاط أخرى، يجب أن تغطي الملخصات من يملك البيانات وكيفية الحصول عليها أو ترخيصها، وكذلك ما إذا كانت تتضمن أي معلومات محمية بحقوق الطبع والنشر أو معلومات شخصية.

عدد قليل من شركات الذكاء الاصطناعي على استعداد للقول ما إذا كانت ستلتزم أم لا.

تواصلت TechCrunch مع اللاعبين الرئيسيين في مجال الذكاء الاصطناعي، بما في ذلك OpenAI وAnthropic وMicrosoft وGoogle وAmazon وMeta والشركات الناشئة Stability AI وMidjourney وUdio وSuno وRunway وLuma Labs. استجاب أقل من النصف، ورفض أحد البائعين – مايكروسوفت – صراحة التعليق.

فقط Stability وRunway وOpenAI أخبروا TechCrunch أنهم سيلتزمون بـ AB-2013.

وقال متحدث باسم OpenAI: “تلتزم OpenAI بالقانون في الولايات القضائية التي نعمل فيها، بما في ذلك هذه الولاية القضائية”. وقال متحدث باسم شركة Stability إن الشركة “تدعم التنظيم المدروس الذي يحمي الجمهور وفي الوقت نفسه لا يخنق الابتكار”.

ولكي نكون منصفين، فإن متطلبات الإفصاح الخاصة بـ AB-2013 لا تدخل حيز التنفيذ على الفور. على الرغم من أنها تنطبق على الأنظمة التي تم إصدارها في يناير 2022 أو بعده – ChatGPT وStable Diffusion، على سبيل المثال لا الحصر – أمام الشركات حتى يناير 2026 لبدء نشر ملخصات بيانات التدريب. ينطبق القانون أيضًا فقط على الأنظمة المتاحة لسكان كاليفورنيا، مما يترك مجالًا للمناورة.

ولكن قد يكون هناك سبب آخر لصمت البائعين بشأن هذه المسألة، ويتعلق الأمر بالطريقة التي يتم بها تدريب معظم أنظمة الذكاء الاصطناعي الإنتاجية.

تأتي بيانات التدريب في كثير من الأحيان من الويب. يستخرج البائعون كميات هائلة من الصور والأغاني ومقاطع الفيديو وغيرها من مواقع الويب، ويقومون بتدريب أنظمتهم عليها.

منذ سنوات مضت، كان من الممارسات المعتادة لمطوري الذكاء الاصطناعي إدراج مصادر بيانات التدريب الخاصة بهم، عادةً في ورقة فنية مصاحبة لإصدار النموذج. كشفت جوجل، على سبيل المثال، ذات مرة أنها قامت بتدريب نسخة مبكرة من مجموعة نماذج توليد الصور الخاصة بها، Imagen، على مجموعة بيانات LAION العامة. تشير العديد من الأوراق البحثية القديمة إلى The Pile، وهي مجموعة مفتوحة المصدر من النصوص التدريبية التي تتضمن دراسات أكاديمية وقواعد برمجية.

في السوق اليوم، يعتبر تكوين مجموعات بيانات التدريب ميزة تنافسية، وتشير الشركات إلى هذا باعتباره أحد الأسباب الرئيسية لعدم الكشف عنها. لكن تفاصيل بيانات التدريب يمكن أن ترسم أيضًا هدفًا قانونيًا على ظهور المطورين. يرتبط LAION بالصور المحمية بحقوق الطبع والنشر والتي تنتهك الخصوصية، بينما يحتوي The Pile على Books3، وهي مكتبة من الأعمال المقرصنة لستيفن كينج ومؤلفين آخرين.

هناك بالفعل عدد من الدعاوى القضائية بشأن إساءة استخدام بيانات التدريب، ويتم رفع المزيد منها كل شهر.

يزعم المؤلفون والناشرون أن OpenAI وAnthropic وMeta استخدموا كتبًا محمية بحقوق الطبع والنشر – بعضها من Books3 – للتدريب. رفعت شركات الموسيقى دعوى قضائية ضد Udio وSuno بتهمة التدريب على الأغاني دون تعويض الموسيقيين. وقد رفع الفنانون دعاوى قضائية جماعية ضد Stability وMidjourney بسبب ما يقولون إنها ممارسات لتجريد البيانات ترقى إلى مستوى السرقة.

ليس من الصعب أن نرى كيف يمكن أن يكون AB-2013 مشكلة بالنسبة للبائعين الذين يحاولون إبقاء المعارك في قاعات المحكمة بعيدة. ينص القانون على نشر مجموعة من المواصفات التي يحتمل أن تكون مجرمة حول مجموعات بيانات التدريب، بما في ذلك إشعار يشير إلى وقت استخدام المجموعات لأول مرة وما إذا كان جمع البيانات مستمرًا.

AB-2013 واسع النطاق جدًا. إن أي كيان “يقوم بتعديل جوهري” لنظام الذكاء الاصطناعي – أي تحسينه أو إعادة تدريبه – يعد بمثابة أيضًا اضطروا إلى نشر معلومات عن بيانات التدريب التي استخدموها للقيام بذلك. يتضمن القانون بعض الاستثناءات، لكنها تنطبق في الغالب على أنظمة الذكاء الاصطناعي المستخدمة في الأمن السيبراني والدفاع، مثل تلك المستخدمة في “تشغيل الطائرات في المجال الجوي الوطني”.

بالطبع، يعتقد العديد من البائعين أن المبدأ المعروف بالاستخدام العادل يوفر الغطاء القانوني، وهم يؤكدون ذلك في المحكمة وفي البيانات العامة. وقام البعض، مثل ميتا وجوجل، بتغيير إعدادات منصاتهم وشروط الخدمة للسماح لهم بالاستفادة من المزيد من بيانات المستخدم للتدريب.

بدافع من الضغوط التنافسية والرهان على أن دفاعات الاستخدام العادل سوف تفوز في النهاية، تدربت بعض الشركات بحرية على البيانات المحمية بالملكية الفكرية. كشفت تقارير رويترز أن شركة Meta استخدمت في وقت ما كتبًا محمية بحقوق الطبع والنشر للتدريب على الذكاء الاصطناعي على الرغم من تحذيرات محاميها. هناك أدلة على أن شركة Runway استعانت بأفلام Netflix وDisney لتدريب أنظمة إنتاج الفيديو الخاصة بها. ويقال إن OpenAI قامت بنسخ مقاطع فيديو على YouTube دون معرفة المبدعين لتطوير النماذج، بما في ذلك GPT-4.

كما كتبنا من قبل، هناك نتيجة يفلت فيها بائعو الذكاء الاصطناعي المبتكرون من الإفصاح عن بيانات تدريب النظام أو لا. وقد ينتهي الأمر بالمحاكم إلى الوقوف إلى جانب أنصار الاستخدام العادل، وتقرر أن الذكاء الاصطناعي التوليدي هو تحويلي بما فيه الكفاية – وليس محرك الانتحال الذي تزعم صحيفة نيويورك تايمز ومدعون آخرون أنه كذلك.

في سيناريو أكثر دراماتيكية، يمكن أن يؤدي AB-2013 إلى قيام البائعين بحجب نماذج معينة في كاليفورنيا، أو إطلاق إصدارات من النماذج لسكان كاليفورنيا المدربين فقط على الاستخدام العادل ومجموعات البيانات المرخصة. قد يقرر بعض البائعين أن مسار العمل الأكثر أمانًا مع AB-2013 هو المسار الذي يتجنب الإفصاحات المساومة – وإثارة الدعاوى القضائية.

وبافتراض عدم الطعن في القانون و/أو تجميده، سيكون لدينا صورة واضحة بحلول الموعد النهائي لـ AB-2013 بعد ما يزيد قليلاً عن عام من الآن.


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

Back to top button

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading