تقنية

إن بيانات تدريب الذكاء الاصطناعي لها ثمن لا تستطيع سوى شركات التكنولوجيا الكبرى تحمله


تقع البيانات في قلب أنظمة الذكاء الاصطناعي المتقدمة اليوم، ولكنها تكلف المزيد والمزيد – مما يجعلها بعيدة عن متناول الجميع باستثناء شركات التكنولوجيا الأكثر ثراءً.

في العام الماضي، كتب جيمس بيتكر، الباحث في OpenAI، منشورًا على مدونته الشخصية حول طبيعة نماذج الذكاء الاصطناعي التوليدية ومجموعات البيانات التي تم تدريبهم عليها. في ذلك، ادعى بيتكر أن بيانات التدريب – وليس تصميم النموذج أو هندسته المعمارية أو أي خاصية أخرى – كانت المفتاح لأنظمة الذكاء الاصطناعي المتطورة والقوية بشكل متزايد.

كتب بيتكر: “بعد التدريب على نفس مجموعة البيانات لفترة كافية، يتقارب كل نموذج تقريبًا إلى نفس النقطة”.

هل بيتكر على حق؟ هل تعتبر بيانات التدريب هي أكبر محدد لما يمكن أن يفعله النموذج، سواء كان ذلك للإجابة على سؤال، أو رسم أيدي بشرية، أو إنشاء منظر واقعي للمدينة؟

إنه أمر معقول بالتأكيد.

الآلات الإحصائية

أنظمة الذكاء الاصطناعي التوليدية هي في الأساس نماذج احتمالية، وهي عبارة عن كومة ضخمة من الإحصائيات. إنهم يخمنون، بناءً على كميات هائلة من الأمثلة، أي البيانات هي الأكثر “منطقية” لوضعها في مكان ما (على سبيل المثال، كلمة “اذهب” قبل “إلى السوق” في الجملة “أذهب إلى السوق”). يبدو من البديهي إذن أنه كلما زاد عدد الأمثلة التي يجب على النموذج الاستمرار فيها، كان أداء النماذج المدربة على تلك الأمثلة أفضل.

وقال كايل لو، أحد كبار علماء الأبحاث التطبيقية في معهد ألين للذكاء الاصطناعي (AI2)، وهو منظمة غير ربحية لأبحاث الذكاء الاصطناعي، لـ TechCrunch: “يبدو أن مكاسب الأداء تأتي من البيانات، على الأقل بمجرد أن يكون لديك إعداد تدريب مستقر”. “.

أعطى Lo مثال Meta’s Llama 3، وهو نموذج لإنشاء النص تم إصداره في وقت سابق من هذا العام، والذي يتفوق في الأداء على نموذج OLMo الخاص بـ AI2 على الرغم من تشابهه من الناحية المعمارية. تم تدريب Llama 3 على بيانات أكثر بكثير من OLMo، وهو ما يعتقد لو أنه يفسر تفوقه على العديد من معايير الذكاء الاصطناعي الشائعة.

(سأشير هنا إلى أن المعايير المستخدمة على نطاق واسع في صناعة الذكاء الاصطناعي اليوم ليست بالضرورة أفضل مقياس لأداء النموذج، ولكن خارج الاختبارات النوعية مثل اختباراتنا، فهي واحدة من المقاييس القليلة التي يتعين علينا اتخاذها تابع.)

هذا لا يعني أن التدريب على مجموعات بيانات أكبر بشكل كبير هو طريق مؤكد نحو نماذج أفضل بشكل كبير. تعمل النماذج وفقًا لنموذج “القمامة داخل القمامة خارجًا”، كما يشير لو، وبالتالي فإن تنظيم البيانات وجودتها مهمان كثيرًا، وربما أكثر من الكمية المطلقة.

وأضاف: “من الممكن أن يتفوق النموذج الصغير الذي يحتوي على بيانات مصممة بعناية على النموذج الكبير”. “على سبيل المثال، احتل الطراز Falcon 180B، وهو نموذج كبير، المرتبة 63 وفقًا لمعيار LMSYS، في حين احتل Llama 2 13B، وهو نموذج أصغر بكثير، المرتبة 56.”

في مقابلة مع TechCrunch في أكتوبر الماضي، قال غابرييل جوه، الباحث في OpenAI، إن التعليقات التوضيحية عالية الجودة ساهمت بشكل كبير في تحسين جودة الصورة في DALL-E 3، نموذج OpenAI لتحويل النص إلى صورة، مقارنة بسابقه DALL-E 2. وقال إن هذا هو المصدر الرئيسي للتحسينات. “التعليقات النصية أفضل بكثير مما كانت عليه [with DALL-E 2] – إنها ليست قابلة للمقارنة حتى.”

يتم تدريب العديد من نماذج الذكاء الاصطناعي، بما في ذلك DALL-E 3 وDALL-E 2، من خلال تعيين تعليقات توضيحية بشرية لبيانات التسمية بحيث يمكن للنموذج أن يتعلم ربط تلك التسميات مع الخصائص الأخرى المرصودة لتلك البيانات. على سبيل المثال، النموذج الذي يغذي الكثير من صور القطط مع التعليقات التوضيحية لكل سلالة سوف “يتعلم” في النهاية ربط مصطلحات مثل bobtail و شعر قصير بصفاتهم البصرية المميزة.

سلوك سيء

يشعر الخبراء مثل لو بالقلق من أن التركيز المتزايد على مجموعات البيانات التدريبية الكبيرة وعالية الجودة سيؤدي إلى تركيز تطوير الذكاء الاصطناعي على عدد قليل من اللاعبين الذين لديهم ميزانيات تبلغ مليار دولار والذين يمكنهم تحمل تكاليف الحصول على هذه المجموعات. ومن الممكن أن يؤدي الابتكار الرئيسي في البيانات الاصطناعية أو البنية الأساسية إلى تعطيل الوضع الراهن، ولكن لا يبدو أن أياً منهما في الأفق القريب.

وقال لو: “بشكل عام، يتم تحفيز الكيانات التي تحكم المحتوى الذي قد يكون مفيدًا لتطوير الذكاء الاصطناعي على تأمين المواد الخاصة بها”. “ومع إغلاق الوصول إلى البيانات، فإننا نبارك بشكل أساسي عددًا قليلًا من المحركين الأوائل في الحصول على البيانات ورفع السلم حتى لا يتمكن أي شخص آخر من الوصول إلى البيانات للحاق بها.”

في الواقع، حيث لم يؤد السباق لجمع المزيد من بيانات التدريب إلى سلوك غير أخلاقي (وربما حتى غير قانوني) مثل تجميع المحتوى المحمي بحقوق الطبع والنشر سرا، فقد كافأ عمالقة التكنولوجيا بمال كبير للإنفاق على ترخيص البيانات.

يتم تدريب نماذج الذكاء الاصطناعي التوليدي، مثل OpenAI، في الغالب على الصور والنصوص والصوت ومقاطع الفيديو وغيرها من البيانات – بعضها محمي بحقوق الطبع والنشر – والتي يتم الحصول عليها من صفحات الويب العامة (بما في ذلك الصفحات التي ينشئها الذكاء الاصطناعي، على نحو مثير للمشاكل). تؤكد مؤسسات OpenAI في العالم أن الاستخدام العادل يحميها من الانتقام القانوني. العديد من أصحاب الحقوق لا يوافقون على ذلك – ولكن، على الأقل في الوقت الحالي، لا يمكنهم فعل الكثير لمنع هذه الممارسة.

هناك العديد والعديد من الأمثلة على بائعي الذكاء الاصطناعي التوليدي الذين حصلوا على مجموعات بيانات ضخمة من خلال وسائل مشكوك فيها من أجل تدريب نماذجهم. يقال إن OpenAI قامت بنسخ أكثر من مليون ساعة من مقاطع فيديو YouTube دون مباركة YouTube – أو مباركة المبدعين – لإطعام نموذجها الرائد GPT-4. قامت Google مؤخرًا بتوسيع شروط الخدمة الخاصة بها جزئيًا لتتمكن من النقر على مستندات Google العامة ومراجعات المطاعم على خرائط Google والمواد الأخرى عبر الإنترنت لمنتجات الذكاء الاصطناعي الخاصة بها. ويقال إن شركة ميتا فكرت في المخاطرة برفع دعاوى قضائية لتدريب نماذجها على المحتوى المحمي بالملكية الفكرية.

وفي الوقت نفسه، تعتمد الشركات الكبيرة والصغيرة على العمال في دول العالم الثالث الذين يدفعون بضعة دولارات فقط في الساعة لإنشاء شروح لمجموعات التدريب. يعمل بعض هؤلاء المفسرين – الذين تستخدمهم شركات ناشئة عملاقة مثل Scale AI – لأيام حرفية متواصلة لإكمال المهام التي تعرضهم لتصوير رسومي للعنف وإراقة الدماء دون أي فوائد أو ضمانات للعربات المستقبلية.

التكلفة المتزايدة

بمعنى آخر، حتى صفقات البيانات الأكثر وضوحًا لا تعزز تمامًا نظامًا بيئيًا توليديًا مفتوحًا وعادلاً للذكاء الاصطناعي.

أنفقت OpenAI مئات الملايين من الدولارات لترخيص المحتوى من ناشري الأخبار ومكتبات الوسائط المالية والمزيد لتدريب نماذج الذكاء الاصطناعي الخاصة بها – وهي ميزانية تتجاوز بكثير ميزانية معظم مجموعات البحث الأكاديمية والمنظمات غير الربحية والشركات الناشئة. لقد ذهبت Meta إلى حد التفكير في الحصول على الناشر Simon & Schuster للحصول على حقوق مقتطفات من الكتب الإلكترونية (في النهاية، باعت Simon & Schuster لشركة الأسهم الخاصة KKR مقابل 1.62 مليار دولار في عام 2023).

ومع توقع نمو سوق بيانات التدريب على الذكاء الاصطناعي من حوالي 2.5 مليار دولار الآن إلى ما يقرب من 30 مليار دولار في غضون عقد من الزمن، يسارع وسطاء البيانات والمنصات إلى تحصيل أعلى الأسعار – في بعض الحالات بسبب اعتراضات قواعد مستخدميهم.

أبرمت مكتبة الوسائط المالية Shutterstock صفقات مع بائعي الذكاء الاصطناعي تتراوح قيمتها بين 25 مليون دولار إلى 50 مليون دولار، بينما يدعي موقع Reddit أنه حقق مئات الملايين من بيانات الترخيص لمؤسسات مثل Google وOpenAI. عدد قليل من المنصات التي تحتوي على بيانات وفيرة تراكمت بشكل عضوي على مر السنين لم تفعل ذلك يبدو أن هناك اتفاقيات موقعة مع مطوري الذكاء الاصطناعي المبدعين، من Photobucket إلى Tumblr إلى موقع الأسئلة والأجوبة Stack Overflow.

إنها بيانات المنصات التي يجب بيعها – على الأقل اعتمادًا على الحجج القانونية التي تؤمن بها. ولكن في معظم الحالات، لا يرى المستخدمون سنتًا واحدًا من الأرباح. وهو يضر بمجتمع أبحاث الذكاء الاصطناعي الأوسع.

وقال لو: “لن يتمكن اللاعبون الصغار من تحمل تكاليف تراخيص البيانات هذه، وبالتالي لن يتمكنوا من تطوير أو دراسة نماذج الذكاء الاصطناعي”. “أشعر بالقلق من أن هذا قد يؤدي إلى عدم وجود تدقيق مستقل لممارسات تطوير الذكاء الاصطناعي.”

الجهود المستقلة

إذا كان هناك شعاع من أشعة الشمس وسط الظلام، فهو الجهود المستقلة القليلة غير الهادفة للربح لإنشاء مجموعات بيانات ضخمة يمكن لأي شخص استخدامها لتدريب نموذج الذكاء الاصطناعي التوليدي.

تعمل EleutherAI، وهي مجموعة بحثية شعبية غير ربحية بدأت كمجموعة Discord الجماعية غير المتماسكة في عام 2020، مع جامعة تورنتو وAI2 وباحثين مستقلين لإنشاء The Pile v2، وهي مجموعة من مليارات المقاطع النصية مصدرها في المقام الأول المجال العام .

في أبريل، أصدرت شركة Hugging Face الناشئة للذكاء الاصطناعي FineWeb، وهي نسخة منقحة من Common Crawl – مجموعة البيانات التي تحمل اسمها والتي تحتفظ بها منظمة Common Crawl غير الربحية، والتي تتألف من مليارات ومليارات من صفحات الويب – والتي تدعي Hugging Face أنها تعمل على تحسين أداء النموذج في العديد من المعايير.

لقد واجهت بعض الجهود المبذولة لإطلاق مجموعات بيانات التدريب المفتوحة، مثل مجموعات الصور الخاصة بمجموعة LAION، حقوق الطبع والنشر، وخصوصية البيانات، وغيرها من التحديات الأخلاقية والقانونية الخطيرة بنفس القدر. لكن بعض أمناء البيانات الأكثر تفانيًا تعهدوا بالقيام بعمل أفضل. على سبيل المثال، يقوم Pile v2 بإزالة المواد المحمية بحقوق الطبع والنشر التي بها مشكلات والموجودة في مجموعة البيانات الأصلية الخاصة به، The Pile.

والسؤال هو ما إذا كان أي من هذه الجهود المفتوحة يمكن أن يأمل في مواكبة شركات التكنولوجيا الكبرى. وطالما ظل جمع البيانات ومعالجتها مسألة تتعلق بالموارد، فإن الإجابة على الأرجح هي لا – على الأقل ليس قبل أن تحقق بعض الإنجازات البحثية تكافؤ الفرص.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى