AI2 نماذج الذكاء الاصطناعي لإنشاء النصوص مفتوحة المصدر – والبيانات المستخدمة لتدريبها

يقوم معهد ألين للذكاء الاصطناعي (AI2)، وهو معهد أبحاث غير ربحي للذكاء الاصطناعي أسسه المؤسس المشارك لشركة مايكروسوفت الراحل بول ألين، بإطلاق العديد من نماذج لغة GenAI التي يدعي أنها أكثر “انفتاحًا” من غيرها – والأهم من ذلك، أنها مرخصة بطريقة يمكن للمطورين استخدامها دون قيود للتدريب والتجريب وحتى التسويق

تم تصميم النماذج ومجموعة البيانات التي يطلق عليها OLMo، وهي اختصار لـ “Open Language MOdels”، لتدريبهم، وهي واحدة من أكبر مجموعات البيانات العامة من نوعها – لدراسة العلوم عالية المستوى وراء الذكاء الاصطناعي لإنشاء النصوص. ، وفقًا لما ذكره ديرك جرونيفيلد، كبير مهندسي البرمجيات في AI2.

“”مفتوح” هو مصطلح مثقل عندما يتعلق الأمر [text-generating models]”، قال جروينفيلد لـ TechCrunch في مقابلة عبر البريد الإلكتروني. “نتوقع أن يغتنم الباحثون والممارسون إطار عمل OLMo كفرصة لتحليل نموذج تم تدريبه على واحدة من أكبر مجموعات البيانات العامة الصادرة حتى الآن، إلى جانب جميع المكونات اللازمة لبناء النماذج.”

أصبحت نماذج إنشاء النصوص مفتوحة المصدر أكثر من عشرة سنتات، مع قيام المؤسسات من Meta إلى Mistral بإصدار نماذج ذات قدرة عالية يمكن لأي مطور استخدامها وضبطها. لكن جرونفيلد يوضح أن العديد من هذه النماذج لا تستطيع ذلك حقًا تعتبر مفتوحة لأنهم تم تدريبهم “خلف أبواب مغلقة” وعلى مجموعات من البيانات الخاصة والمبهمة.

على النقيض من ذلك، فإن نماذج OLMo، التي تم إنشاؤها بمساعدة شركاء بما في ذلك Harvard وAMD وDatabricks، تأتي مع الكود الذي تم استخدامه لإنتاج بيانات التدريب الخاصة بهم بالإضافة إلى مقاييس وسجلات التدريب والتقييم.

من حيث الأداء، يعتبر نموذج OLMo الأكثر قدرة، OLMo 7B، بديلاً “مقنعًا وقويًا” لـ Meta’s Llama 2، كما يؤكد Groeneveld – اعتمادًا على التطبيق. في بعض المعايير، لا سيما تلك التي تتعلق بفهم القراءة، يتفوق OLMo 7B على Llama 2. ولكن في اختبارات أخرى، وخاصة اختبارات الإجابة على الأسئلة، يتأخر OLMo 7B قليلاً.

تحتوي نماذج OLMo على قيود أخرى، مثل المخرجات منخفضة الجودة بلغات غير الإنجليزية (تحتوي Dolma في الغالب على محتوى باللغة الإنجليزية) وقدرات ضعيفة على توليد التعليمات البرمجية. لكن جروينفيلد شدد على أن هذه الأيام الأولى.

وقال: “لم يتم تصميم OLMo ليكون متعدد اللغات – حتى الآن”. “[And while] في هذه المرحلة، يكون التركيز الأساسي لإطار عمل OLMo [wasn’t] لإنشاء التعليمات البرمجية، لإعطاء بداية لمشاريع التطوير الدقيق القائمة على التعليمات البرمجية في المستقبل، يحتوي مزيج بيانات OLMo حاليًا على حوالي 15% من التعليمات البرمجية.

سألت جرونفيلد عما إذا كان يشعر بالقلق من أن نماذج OLMo، التي يمكن استخدامها تجاريًا والتي تتمتع بأداء كافٍ لتشغيلها على وحدات معالجة الرسوميات الاستهلاكية مثل Nvidia 3090، قد يتم الاستفادة منها بطرق غير مقصودة، وربما ضارة من قبل جهات فاعلة سيئة. وجدت دراسة حديثة أجراها مشروع Disinfo Radar التابع لمنظمة Democracy Reporting International، والذي يهدف إلى تحديد اتجاهات وتقنيات المعلومات المضللة ومعالجتها، أن نموذجين شائعين لإنشاء النصوص المفتوحة، وهما Hugging Face’s Zephyr وDatabricks، يولدان محتوى سامًا بشكل موثوق – استجابة للمطالبات الخبيثة باستخدام المحتوى الضار “الخيالي”.

ويعتقد جرونفيلد أن الفوائد تفوق الأضرار في النهاية.

“[B]إن إنشاء هذه المنصة المفتوحة سيسهل في الواقع إجراء المزيد من الأبحاث حول كيف يمكن أن تكون هذه النماذج خطيرة وما يمكننا القيام به لإصلاحها. “نعم، من الممكن أن يتم استخدام النماذج المفتوحة بشكل غير لائق أو لأغراض غير مقصودة. [However, this] كما يعزز النهج التقدم التقني الذي يؤدي إلى المزيد من النماذج الأخلاقية؛ يعد شرطًا أساسيًا للتحقق وإمكانية التكرار، حيث لا يمكن تحقيق ذلك إلا من خلال الوصول إلى المجموعة الكاملة؛ ويقلل التركيز المتزايد للسلطة، مما يخلق وصولاً أكثر إنصافًا.

وفي الأشهر المقبلة، تخطط AI2 لإصدار نماذج OLMo أكبر وأكثر قدرة، بما في ذلك نماذج متعددة الوسائط (أي النماذج التي تفهم الطرائق خارج النص)، ومجموعات بيانات إضافية للتدريب والضبط الدقيق. كما هو الحال مع الإصدار الأولي لـ OLMo وDolma، سيتم توفير جميع الموارد مجانًا على GitHub ومنصة استضافة مشروع الذكاء الاصطناعي Hugging Face.