نماذج كثيرة جداً | تك كرانش

كم عدد نماذج الذكاء الاصطناعي كثيرة جدًا؟ يعتمد الأمر على الطريقة التي تنظر بها إلى الأمر… ولكن ربما يكون 10 أسبوعًا كثيرًا. هذا هو العدد الذي كان لدينا في الأيام القليلة الماضية، أو ما يقرب من ذلك، ومن الصعب بشكل متزايد تحديد ما إذا كانت هذه النماذج يمكن مقارنتها ببعضها البعض وكيف يمكن ذلك – إذا كان من الممكن البدء بها. لذلك ما هي النقطة؟

نحن نمر بوقت غريب في تطور الذكاء الاصطناعي، على الرغم من أنه كان غريبًا جدًا طوال الوقت. نحن نشهد انتشارًا للنماذج الكبيرة والصغيرة، بدءًا من المطورين المتخصصين وحتى المطورين الكبار ذوي التمويل الجيد.

دعونا نستعرض القائمة من هذا الأسبوع، أليس كذلك؟ لقد حاولت تكثيف ما يميز كل نموذج عن الآخر قدر الإمكان.

LLaMa-3: أحدث نموذج لغة كبير “مفتوح” من Meta. (مصطلح “مفتوح” محل نزاع في الوقت الحالي، ولكن هذا المشروع يستخدم على نطاق واسع من قبل المجتمع بغض النظر.)
ميسترال 8×22: نموذج “خليط من الخبراء”، على الجانب الكبير، من مجموعة فرنسية ابتعدت عن الانفتاح الذي اعتنقته ذات يوم.
Stable Diffusion 3 Turbo: SD3 تمت ترقيته ليتوافق مع واجهة برمجة التطبيقات الجديدة الخاصة بـ open-ish Stability. يعد استعارة كلمة “turbo” من تسميات نماذج OpenAI أمرًا غريبًا بعض الشيء، لكنه لا بأس به.
Adobe Acrobat AI Assistant: “تحدث إلى مستنداتك” من غوريلا المستندات التي يبلغ وزنها 800 رطل. من المؤكد أن هذا في الغالب عبارة عن غلاف لـ ChatGPT.
Reka Core: من فريق صغير كان يعمل سابقًا لدى Big AI، وهو نموذج متعدد الوسائط تم إعداده من الصفر وينافس الكلاب الكبيرة اسميًا على الأقل.
Idefics2: نموذج متعدد الوسائط أكثر انفتاحًا، مبني على أعلى نماذج ميسترال وجوجل الحديثة والأصغر حجمًا.
OLMo-1.7-7B: نسخة أكبر من AI2’s LLM، من بين أكثر الإصدارات انفتاحًا، ونقطة انطلاق لنموذج مستقبلي بمقياس 70B.
Pile-T5: نسخة من نموذج T5 الموثوق به والمضبوط بدقة على قاعدة بيانات التعليمات البرمجية Pile. نفس T5 الذي تعرفه وتحبه ولكنه أفضل في البرمجة.
Cohere Compass: “نموذج التضمين” (إذا كنت لا تعرف ذلك بالفعل، فلا تقلق بشأنه) يركز على دمج أنواع بيانات متعددة لتغطية المزيد من حالات الاستخدام.
تخيل فلاش: أحدث نموذج لتوليد الصور من Meta، يعتمد على طريقة التقطير الجديدة لتسريع النشر دون المساس بالجودة بشكل مفرط.
لا حدود لها: “ذكاء اصطناعي مخصص مدعوم بما رأيته أو قلته أو سمعته. أناإنه تطبيق ويب، وتطبيق Mac، وتطبيق Windows، وجهاز يمكن ارتداؤه. 😬

هذا هو 11، لأنه تم الإعلان عن واحد بينما كنت أكتب هذا. ولنكن واضحين، هذا هو لا جميع النماذج التي تم إصدارها أو معاينتها هذا الأسبوع! إنها فقط تلك التي رأيناها وناقشناها. إذا أردنا تخفيف شروط التضمين قليلاً، فسيكون هناك العشرات: بعض النماذج الحالية المضبوطة بدقة، وبعض المجموعات مثل Idefics 2، وبعضها تجريبي أو متخصص، وما إلى ذلك. ناهيك عن الأدوات الجديدة لهذا الأسبوع لبناء (torchtune) ومحاربة (Glaze 2.0) للذكاء الاصطناعي التوليدي!

ماذا سنفعل من هذا الانهيار الجليدي الذي لا ينتهي؟ لأنه في الأسبوع المقبل، على الرغم من أنه قد لا يحتوي على الإصدارات العشرة أو العشرين التي رأيناها في الإصدار السابق، فمن المؤكد أنه سيحتوي على خمسة أو ستة على الأقل من المستوى المذكور أعلاه. لا يمكننا “مراجعتها” جميعًا. فكيف يمكننا مساعدتكم، أيها القراء، على فهم كل هذه الأمور ومواكبتها؟

حسنًا…الحقيقة هي أنك لا تفعل ذلك يحتاج لمواكبة، ولا يفعل أي شخص آخر تقريبا. لقد حدث تحول في مجال الذكاء الاصطناعي: فقد تطورت بعض النماذج، مثل ChatGPT وGemini، إلى منصات ويب كاملة تغطي حالات استخدام ونقاط وصول متعددة. نماذج اللغات الكبيرة الأخرى مثل LLaMa أو OLMo، على الرغم من أنها من الناحية الفنية تشترك في البنية الأساسية، إلا أنها لا تقوم في الواقع بنفس الدور. الغرض منها هو العيش في الخلفية كخدمة أو مكون، وليس في المقدمة كعلامة تجارية.

لقد كان هناك خلط متعمد بين هذين الأمرين، لأن مطوري النماذج يريدون استعارة القليل من الضجة التي نميل إلى ربطها بإصدارات منصات الذكاء الاصطناعي الرئيسية مثل GPT-4V أو Gemini Ultra. الجميع يريد منك أن تعتقد أن إطلاق سراحهم هو أمر مهم. وعلى الرغم من أنه من المهم على الأرجح أن شخص ما، من المؤكد تقريبًا أن شخصًا ما ليس أنت.

فكر في الأمر بمعنى فئة أخرى واسعة ومتنوعة مثل السيارات. عندما تم اختراعها لأول مرة، كنت قد اشتريت للتو “سيارة”. وبعد ذلك بقليل، يمكنك الاختيار بين سيارة كبيرة، وسيارة صغيرة، وجرار. في الوقت الحاضر، هناك مئات السيارات التي يتم إصدارها كل عام، ولكن ربما لا تحتاج إلى أن تكون على دراية حتى بواحدة من كل عشرة منها – لأن تسعة من كل عشرة ليست سيارة تحتاجها، أو حتى سيارة كما تفهم هذا المصطلح . نحن ننتقل من عصر الذكاء الاصطناعي الكبير/الصغير/الجرار إلى عصر الانتشار، وحتى متخصصي الذكاء الاصطناعي لا يمكنهم مواكبة جميع النماذج القادمة واختبارها.

الجانب الآخر من هذه القصة هو أننا كنا بالفعل في هذه المرحلة قبل وقت طويل من ظهور ChatGPT والنماذج الكبيرة الأخرى. كان عدد أقل بكثير من الناس يقرأون عن هذا منذ 7 أو 8 سنوات، لكننا قمنا بتغطيته مع ذلك لأنه من الواضح أنه كان تقنية تنتظر لحظة الاختراق – والتي جاءت في الوقت المناسب. كانت هناك أوراق بحثية ونماذج وأبحاث تصدر باستمرار، وكانت مؤتمرات مثل SIGGRAPH وNeurIPS مليئة بمهندسي التعلم الآلي الذين يقارنون الملاحظات ويبنيون على عمل بعضهم البعض. إليكم قصة الفهم البصري التي كتبتها في عام 2011!

ولا يزال هذا النشاط مستمرًا كل يوم. ولكن نظرًا لأن الذكاء الاصطناعي أصبح عملاً تجاريًا كبيرًا – يمكن القول إنه الأكبر في مجال التكنولوجيا في الوقت الحالي – فقد تم إضفاء وزن إضافي على هذه التطورات، نظرًا لأن الناس لديهم فضول بشأن ما إذا كان أحد هذه التطورات قد يمثل قفزة كبيرة على ChatGPT مقارنة بسابقيه.

والحقيقة البسيطة هي أن أيًا من هذه النماذج لن يمثل هذا النوع من الخطوة الكبيرة، نظرًا لأن تقدم OpenAI كان مبنيًا على تغيير أساسي في بنية التعلم الآلي التي تبنتها الآن كل شركة أخرى، والتي لم يتم استبدالها. التحسينات الإضافية مثل نقطة أو نقطتين أفضل على معيار تركيبي، أو لغة أو صور أكثر إقناعًا بشكل هامشي، هي كل ما علينا أن نتطلع إليه في الوقت الحاضر.

هل هذا يعني أن أياً من هذه النماذج لا يهم؟ بالتأكيد يفعلون. لا يمكن الانتقال من الإصدار 2.0 إلى الإصدار 3.0 بدون 2.1، و2.2، و2.2.1، وما إلى ذلك – وهذا ما يعمل عليه الباحثون والمهندسون بجد. وفي بعض الأحيان تكون هذه التطورات ذات مغزى، أو تعالج أوجه قصور خطيرة، أو تكشف عن نقاط ضعف غير متوقعة. نحن نحاول تغطية الأشياء المثيرة للاهتمام، لكن هذا مجرد جزء صغير من العدد الكامل. نحن نعمل الآن على قطعة تجمع كل النماذج التي نعتقد أن فضولي تعلم الآلة يجب أن يكون على دراية بها، وهي في حدود اثنتي عشرة.

لا تقلق: عندما يأتي حدث كبير، ستعرف ذلك، وليس فقط لأن TechCrunch يغطيه. سيكون الأمر واضحًا بالنسبة لك كما هو بالنسبة لنا.