تريد OpenAI العمل مع المؤسسات لبناء مجموعات بيانات تدريب جديدة للذكاء الاصطناعي

ليس سرًا أن مجموعات البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي معيبة للغاية.
تميل مجموعة الصور إلى أن تكون متمركزة حول الولايات المتحدة والغربية، ويرجع ذلك جزئيًا إلى أن الصور الغربية كانت تهيمن على الإنترنت عندما تم تجميع مجموعات البيانات. وكما أبرزت مؤخرًا دراسة أجراها معهد ألين للذكاء الاصطناعي، فإن البيانات المستخدمة لتدريب نماذج لغوية كبيرة مثل Meta’s Llama 2 تحتوي على لغة سامة وتحيزات.
تعمل النماذج على تضخيم هذه العيوب بطرق ضارة. الآن، تقول شركة OpenAI إنها تريد مكافحتها من خلال الشراكة مع مؤسسات خارجية لإنشاء مجموعات بيانات جديدة، ونأمل أن يتم تحسينها.
أعلنت OpenAI اليوم عن شراكات البيانات، وهي محاولة للتعاون مع مؤسسات خارجية لبناء مجموعات بيانات عامة وخاصة للتدريب على نماذج الذكاء الاصطناعي. في منشور بالمدونة، تقول OpenAI إن شراكات البيانات تهدف إلى “تمكين المزيد من المؤسسات للمساعدة في توجيه مستقبل الذكاء الاصطناعي” و”الاستفادة من النماذج الأكثر فائدة”.
“لجعل في نهاية المطاف [AI] “هذا آمن ومفيد للبشرية جمعاء، نود أن تفهم نماذج الذكاء الاصطناعي بعمق جميع المواضيع والصناعات والثقافات واللغات، الأمر الذي يتطلب مجموعة واسعة من بيانات التدريب قدر الإمكان،” يكتب OpenAI. “إن تضمين المحتوى الخاص بك يمكن أن يجعل نماذج الذكاء الاصطناعي أكثر فائدة لك من خلال زيادة فهمهم لمجالك.”
كجزء من برنامج شراكات البيانات، تقول OpenAI إنها ستقوم بجمع مجموعات بيانات “واسعة النطاق” “تعكس المجتمع البشري” والتي لا يمكن الوصول إليها بسهولة عبر الإنترنت اليوم. وبينما تخطط الشركة للعمل عبر مجموعة واسعة من الأساليب، بما في ذلك الصور والصوت والفيديو، فإنها تبحث بشكل خاص عن البيانات التي “تعبر عن النية البشرية” (مثل الكتابة الطويلة أو المحادثات) عبر لغات وموضوعات وأشكال مختلفة.
تقول OpenAI إنها ستعمل مع المؤسسات لتحويل بيانات التدريب إلى صيغة رقمية إذا لزم الأمر، وذلك باستخدام مجموعة من أدوات التعرف البصري على الأحرف وأدوات التعرف التلقائي على الكلام وإزالة المعلومات الحساسة أو الشخصية إذا لزم الأمر.
في البداية، تتطلع OpenAI إلى إنشاء نوعين من مجموعات البيانات: مجموعة بيانات مفتوحة المصدر ستكون عامة لأي شخص لاستخدامها في تدريب نموذج الذكاء الاصطناعي ومجموعة من مجموعات البيانات الخاصة لتدريب نماذج الذكاء الاصطناعي الخاصة. المجموعات الخاصة مخصصة للمؤسسات التي ترغب في الحفاظ على خصوصية بياناتها ولكنها تريد أن تتمتع نماذج OpenAI بفهم أفضل لمجالها، كما تقول OpenAI؛ حتى الآن، عملت OpenAI مع الحكومة الأيسلندية وMiðeind ehf لتحسين قدرة GPT-4 على التحدث باللغة الأيسلندية ومع مشروع القانون الحر لتحسين فهم نماذجه للوثائق القانونية.
كتب OpenAI: “بشكل عام، نحن نبحث عن شركاء يريدون مساعدتنا في تعليم الذكاء الاصطناعي لفهم عالمنا من أجل تقديم أقصى قدر من المساعدة للجميع”.
لذا، هل يمكن لـ OpenAI أن يكون أفضل من جهود بناء مجموعة البيانات العديدة التي سبقتها؟ لست متأكدًا من ذلك، فالحد من تحيز مجموعة البيانات هو مشكلة حيرت العديد من خبراء العالم. على أقل تقدير، أتمنى أن تتحلى الشركة بالشفافية بشأن العملية، وحول التحديات التي تواجهها حتمًا في إنشاء مجموعات البيانات هذه.
على الرغم من لغة منشور المدونة الفخمة، يبدو أيضًا أن هناك دافعًا تجاريًا واضحًا هنا لتحسين أداء نماذج OpenAI على حساب الآخرين – ودون تعويض لأصحاب البيانات للحديث عنها. أفترض أن هذا ضمن حق OpenAI. ولكن يبدو الأمر أصمًا بعض الشيء في ضوء الرسائل المفتوحة والدعاوى القضائية من المبدعين الذين يزعمون أن OpenAI قامت بتدريب العديد من نماذجها على عملهم دون إذنهم أو دفعهم.