تطلق Meta أكبر نموذج “مفتوح” للذكاء الاصطناعي حتى الآن

يعد أحدث نموذج للذكاء الاصطناعي مفتوح المصدر من Meta هو الأكبر حتى الآن.

اليوم، قالت Meta إنها ستطلق Llama 3.1 405B، وهو نموذج يحتوي على 405 مليار معلمة. تتوافق المعلمات تقريبًا مع مهارات حل المشكلات الخاصة بالنموذج، والنماذج التي تحتوي على معلمات أكثر تؤدي عمومًا أداءً أفضل من تلك التي تحتوي على معلمات أقل.

عند 405 مليار معلمة، فإن Llama 3.1 405B ليس هو المطلق أكبر نموذج مفتوح المصدر موجود، ولكنه الأكبر في السنوات الأخيرة. تم تدريبه باستخدام 16000 وحدة معالجة رسوميات Nvidia H100، كما أنه يستفيد أيضًا من تقنيات التدريب والتطوير الأحدث التي تدعي Meta أنها تجعلها قادرة على المنافسة مع نماذج الملكية الرائدة مثل OpenAI’s GPT-4o وAnthropic’s Claude 3.5 Sonnet (مع بعض التحذيرات).

كما هو الحال مع نماذج Meta السابقة، يتوفر Llama 3.1 405B للتنزيل أو الاستخدام على الأنظمة الأساسية السحابية مثل AWS وAzure وGoogle Cloud. ويتم استخدامه أيضًا على WhatsApp وMeta.ai، حيث يوفر تجربة chatbot للمستخدمين المقيمين في الولايات المتحدة.

جديدة ومحسنة

مثل نماذج الذكاء الاصطناعي التوليدي مفتوحة ومغلقة المصدر الأخرى، يمكن لـ Llama 3.1 405B أداء مجموعة من المهام المختلفة، بدءًا من البرمجة والإجابة على أسئلة الرياضيات الأساسية وحتى تلخيص المستندات بثماني لغات (الإنجليزية والألمانية والفرنسية والإيطالية والبرتغالية والهندية والإسبانية). والتايلاندية). إنه نص فقط، مما يعني أنه لا يمكنه، على سبيل المثال، الإجابة على أسئلة حول صورة ما، ولكن معظم أعباء العمل المستندة إلى النص – مثل تحليل الملفات مثل ملفات PDF وجداول البيانات – تقع ضمن نطاق اختصاصه.

تريد Meta أن تعلن أنها تقوم بتجربة الوسائط المتعددة. في بحث نُشر اليوم، كتب الباحثون في الشركة أنهم يعملون بنشاط على تطوير نماذج اللاما التي يمكنها التعرف على الصور ومقاطع الفيديو وفهم (وتوليد) الكلام. ومع ذلك، فإن هذه النماذج ليست جاهزة بعد للإصدار العام.

لتدريب Llama 3.1 405B، استخدمت Meta مجموعة بيانات مكونة من 15 تريليون رمز يعود تاريخها إلى عام 2024 (الرموز المميزة هي أجزاء من الكلمات التي يمكن للنماذج أن تستوعبها بسهولة أكبر من الكلمات الكاملة، و15 تريليون رمز يُترجم إلى 750 مليار كلمة محيرة للعقل). إنها ليست مجموعة تدريب جديدة في حد ذاتها، حيث استخدمت Meta المجموعة الأساسية لتدريب نماذج Llama السابقة، لكن الشركة تدعي أنها قامت بتحسين خطوط أنابيب المعالجة الخاصة بها للبيانات واعتمدت أساليب “أكثر صرامة” لضمان الجودة وتصفية البيانات في تطوير هذا النموذج.

استخدمت الشركة أيضًا البيانات الاصطناعية (البيانات التي تم إنشاؤها بواسطة آخر نماذج الذكاء الاصطناعي) لضبط Llama 3.1 405B. يستكشف معظم بائعي الذكاء الاصطناعي الرئيسيين، بما في ذلك OpenAI وAnthropic، تطبيقات البيانات الاصطناعية لتوسيع نطاق تدريبهم على الذكاء الاصطناعي، لكن بعض الخبراء يعتقدون أن البيانات الاصطناعية يجب أن تكون الملاذ الأخير نظرًا لقدرتها على تفاقم تحيز النماذج.

من جانبها، تصر ميتا على أنها “تتوازن بعناية[d]”بيانات تدريب Llama 3.1 405B، لكنها رفضت الكشف عن مصدر البيانات بالضبط (خارج صفحات الويب وملفات الويب العامة).” يرى العديد من موردي الذكاء الاصطناعي الإبداعي أن بيانات التدريب هي ميزة تنافسية، ولذلك يحتفظون بها وبأي معلومات تتعلق بها بالقرب من الصندوق. لكن تفاصيل بيانات التدريب تشكل أيضاً مصدراً محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية، وهو ما يشكل عائقاً آخر أمام الشركات للكشف عن الكثير.

اعتمادات الصورة: ميتا

في الورقة المذكورة أعلاه، كتب باحثو ميتا أنه بالمقارنة مع نماذج اللاما السابقة، تم تدريب Llama 3.1 405B على مزيج متزايد من البيانات غير الإنجليزية (لتحسين أدائها على اللغات غير الإنجليزية)، والمزيد من “البيانات الرياضية” والتعليمات البرمجية (لتحسين أدائها على اللغات غير الإنجليزية). تحسين مهارات التفكير الرياضي للنموذج)، وبيانات الويب الحديثة (لتعزيز معرفته بالأحداث الجارية).

كشفت تقارير حديثة لوكالة رويترز أن شركة Meta استخدمت في وقت ما كتبًا إلكترونية محمية بحقوق الطبع والنشر للتدريب على الذكاء الاصطناعي على الرغم من تحذيرات محاميها. تقوم الشركة بشكل مثير للجدل بتدريب الذكاء الاصطناعي الخاص بها على المنشورات والصور والتعليقات التوضيحية على Instagram وFacebook، وتجعل من الصعب على المستخدمين إلغاء الاشتراك. علاوة على ذلك، فإن Meta، جنبًا إلى جنب مع OpenAI، هي موضوع دعوى قضائية مستمرة رفعها مؤلفون، بما في ذلك الممثلة الكوميدية سارة سيلفرمان، بشأن الاستخدام غير المصرح به للشركات المزعوم للبيانات المحمية بحقوق الطبع والنشر للتدريب النموذجي.

قال راجافان سرينيفاسان، نائب رئيس إدارة برامج الذكاء الاصطناعي في ميتا، لـ TechCrunch في مقابلة: “إن بيانات التدريب، من نواحٍ عديدة، تشبه الوصفة السرية والصلصة التي تدخل في بناء هذه النماذج”. “ومن وجهة نظرنا، فقد استثمرنا الكثير في هذا الأمر. وسيكون أحد هذه الأشياء حيث سنواصل تحسينها.

سياق وأدوات أكبر

يحتوي Llama 3.1 405B على نافذة سياق أكبر من نماذج Llama السابقة: 128000 رمزًا، أو تقريبًا طول كتاب مكون من 50 صفحة. يشير سياق النموذج، أو نافذة السياق، إلى بيانات الإدخال (على سبيل المثال، النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي).

تتمثل إحدى مزايا النماذج ذات السياقات الأكبر في قدرتها على تلخيص مقتطفات وملفات نصية أطول. عند تشغيل برامج الدردشة الآلية، تكون هذه النماذج أيضًا أقل عرضة لنسيان الموضوعات التي تمت مناقشتها مؤخرًا.

تم الكشف عن نموذجين جديدين أصغر حجمًا من Meta اليوم، Llama 3.1 8B وLlama 3.1 70B – إصدارات محدثة من طرازي Llama 3 8B وLlama 3 70B اللذين تم إصدارهما في أبريل – تحتوي أيضًا على 128000 نافذة سياقية رمزية. تجاوزت سياقات النماذج السابقة 8000 رمز، مما يجعل هذه الترقية كبيرة إلى حد ما على افتراض أن نماذج Llama الجديدة يمكنها التفكير بشكل فعال عبر كل هذا السياق.

ميتا لاما 3.1 — **اعتمادات الصورة:** ميتا

يمكن لجميع نماذج Llama 3.1 استخدام أدوات وتطبيقات وواجهات برمجة التطبيقات التابعة لجهات خارجية لإكمال المهام، مثل النماذج المنافسة من Anthropic وOpenAI. يتم تدريبهم بشكل خارج الصندوق على النقر على Brave Search للإجابة على الأسئلة حول الأحداث الأخيرة، وWolfram Alpha API للاستعلامات المتعلقة بالرياضيات والعلوم، ومترجم Python للتحقق من صحة التعليمات البرمجية. بالإضافة إلى ذلك، تدعي Meta أن نماذج Llama 3.1 يمكنها استخدام أدوات معينة لم تروها من قبل – إلى حد ما.

بناء النظام البيئي

إذا كان يجب تصديق المعايير (ليس أن المعايير هي نهاية كل شيء في الذكاء الاصطناعي التوليدي)، فإن Llama 3.1 405B هو نموذج قادر للغاية بالفعل. سيكون هذا أمرًا جيدًا، مع الأخذ في الاعتبار بعض القيود الواضحة المؤلمة لنماذج الجيل السابق من اللاما.

تعمل Llama 3 405B على قدم المساواة مع GPT-4 من OpenAI، وتحقق “نتائج مختلطة” مقارنة بـ GPT-4o وClaude 3.5 Sonnet، وفقًا للمقيمين البشريين الذين عينتهم شركة Meta، حسبما تشير الورقة. في حين أن Llama 3 405B أفضل في تنفيذ التعليمات البرمجية وتوليد المخططات من GPT-4o، إلا أن قدراته المتعددة اللغات أضعف بشكل عام، ويتخلف Llama 3 405B عن كلود 3.5 Sonnet في البرمجة والتفكير العام.

وبسبب حجمه، فإنه يحتاج إلى أجهزة قوية لتشغيله. توصي Meta بعقدة خادم على الأقل.

ولعل هذا هو السبب وراء قيام Meta بطرح نماذجها الجديدة الأصغر حجمًا، Llama 3.1 8B وLlama 3.1 70B، لتطبيقات الأغراض العامة مثل تشغيل برامج الدردشة الآلية وإنشاء التعليمات البرمجية. تقول الشركة إن Llama 3.1 405B مخصص بشكل أفضل لتقطير النماذج – عملية نقل المعرفة من نموذج كبير إلى نموذج أصغر وأكثر كفاءة – وتوليد بيانات تركيبية لتدريب (أو ضبط) النماذج البديلة.

لتشجيع حالة استخدام البيانات الاصطناعية، قالت Meta إنها قامت بتحديث ترخيص Llama للسماح للمطورين باستخدام مخرجات من عائلة نماذج Llama 3.1 لتطوير نماذج توليدية للذكاء الاصطناعي تابعة لجهات خارجية (سواء كانت هذه فكرة حكيمة فهي مطروحة للنقاش). والأهم من ذلك، أن الترخيص لا يزال يقيد كيفية قيام المطورين بنشر نماذج Llama: يجب على مطوري التطبيقات الذين لديهم أكثر من 700 مليون مستخدم شهريًا طلب ترخيص خاص من Meta ستمنحه الشركة وفقًا لتقديرها.

يعد هذا التغيير في الترخيص حول المخرجات، والذي يخفف من الانتقادات الكبيرة لنماذج ميتا داخل مجتمع الذكاء الاصطناعي، جزءًا من حملة الشركة القوية للمشاركة الذهنية في الذكاء الاصطناعي التوليدي.

إلى جانب عائلة Llama 3.1، تطلق Meta ما تسميه “النظام المرجعي” وأدوات أمان جديدة – العديد من مطالبات الحظر هذه التي قد تتسبب في تصرف نماذج Llama بطرق غير متوقعة أو غير مرغوب فيها – لتشجيع المطورين على استخدام Llama في المزيد من الأماكن. تقوم الشركة أيضًا بمعاينة Llama Stack وتطلب التعليق عليها، وهي واجهة برمجة تطبيقات قادمة للأدوات التي يمكن استخدامها لضبط نماذج Llama، وإنشاء بيانات تركيبية باستخدام Llama، وإنشاء تطبيقات “وكيلة” – تطبيقات مدعومة من Llama يمكنها اتخاذ إجراء نيابة عن المستخدم.

“لقد سمعنا مرارًا وتكرارًا من المطورين اهتمامًا بتعلم كيفية النشر فعليًا [Llama models] قال سرينيفاسان: “في الإنتاج”. “لذلك نحن نحاول البدء في منحهم مجموعة من الأدوات والخيارات المختلفة.”

في رسالة مفتوحة نُشرت هذا الصباح، طرح الرئيس التنفيذي لشركة Meta، مارك زوكربيرج، رؤية للمستقبل حيث تصل أدوات ونماذج الذكاء الاصطناعي إلى أيدي المزيد من المطورين حول العالم، مما يضمن حصول الناس على “فوائد وفرص” الذكاء الاصطناعي.

لقد تمت صياغته بشكل خيري للغاية، ولكن ضمنيًا في الرسالة رغبة زوكربيرج في أن تكون هذه الأدوات والنماذج من صنع ميتا.

تتسابق شركة ميتا للحاق بشركات مثل OpenAI وAnthropic، وهي تستخدم استراتيجية مجربة وحقيقية: منح الأدوات مجانًا لتعزيز النظام البيئي ثم إضافة المنتجات والخدمات ببطء، بعضها مدفوع الأجر، في الأعلى. إن إنفاق مليارات الدولارات على النماذج التي يمكنها بعد ذلك تحويلها إلى سلعة له أيضًا تأثير في خفض أسعار منافسي ميتا ونشر نسخة الشركة من الذكاء الاصطناعي على نطاق واسع. كما يتيح للشركة دمج التحسينات من مجتمع المصادر المفتوحة في نماذجها المستقبلية.

من المؤكد أن اللاما تحظى باهتمام المطورين. تدعي Meta أنه تم تنزيل نماذج Llama أكثر من 300 مليون مرة، وتم إنشاء أكثر من 20000 نموذج مشتق من Llama حتى الآن.

لا تخطئ، ميتا يلعب من أجل البقاء. وهي تنفق الملايين على الضغط على المنظمين للوصول إلى نكهتها المفضلة المتمثلة في الذكاء الاصطناعي التوليدي “المفتوح”. لا يحل أي من نماذج Llama 3.1 المشاكل المستعصية مع تكنولوجيا الذكاء الاصطناعي التوليدية اليوم، مثل ميلها إلى اختلاق الأشياء وتجديد بيانات التدريب الإشكالية. لكنهم يحققون أحد أهداف ميتا الرئيسية: أن تصبح مرادفًا للذكاء الاصطناعي التوليدي.

هناك تكاليف لهذا. في الورقة البحثية، يناقش المؤلفون المشاركون – مرددين تعليقات زوكربيرج الأخيرة – قضايا الموثوقية المتعلقة بالطاقة من خلال تدريب نماذج الذكاء الاصطناعي التوليدية المتزايدة باستمرار في ميتا.

“أثناء التدريب، عشرات الآلاف من وحدات معالجة الرسومات قد تزيد أو تقلل من استهلاك الطاقة في نفس الوقت، على سبيل المثال، بسبب انتظار جميع وحدات معالجة الرسومات حتى انتهاء عملية التحقق أو الاتصالات الجماعية، أو بدء تشغيل أو إيقاف مهمة التدريب بأكملها”، كما كتبوا. . “عندما يحدث هذا، فإنه يمكن أن يؤدي إلى تقلبات فورية في استهلاك الطاقة عبر مركز البيانات بعشرات الميغاواط، مما يزيد من حدود شبكة الطاقة. وهذا يمثل تحديًا مستمرًا بالنسبة لنا بينما نعمل على توسيع نطاق التدريب لنماذج اللاما المستقبلية الأكبر حجمًا.

ويأمل المرء ألا يؤدي تدريب تلك النماذج الأكبر حجما إلى إجبار المزيد من المرافق على الاحتفاظ بمحطات الطاقة القديمة التي تعمل بحرق الفحم.