تقنية

يُظهر Molmo من AI2 أن المصدر المفتوح يمكنه تلبية النماذج متعددة الوسائط المغلقة والتغلب عليها


الحكمة الشائعة هي أن شركات مثل Google، وOpenAI، وAnthropic، التي تتمتع باحتياطيات نقدية لا نهاية لها ومئات من كبار الباحثين، هي الوحيدة التي يمكنها إنشاء نموذج مؤسسة متطور. ولكن كما أشار أحدهم بشكل مشهور، “ليس لديهم خندق” – وقد أظهرت AI2 ذلك اليوم مع إصدار Molmo، وهو نموذج ذكاء اصطناعي متعدد الوسائط يطابق أفضل ما لديهم بينما يكون أيضًا صغيرًا ومجانيًا ومفتوح المصدر حقًا.

لكي نكون واضحين، فإن Molmo (نموذج اللغة المفتوحة متعدد الوسائط) هو محرك فهم مرئي، وليس برنامج دردشة متكامل الخدمات مثل ChatGPT. لا يحتوي على واجهة برمجة التطبيقات (API)، وهو ليس جاهزًا للتكامل المؤسسي، ولا يبحث في الويب نيابةً عنك أو لأغراضه الخاصة. يمكنك اعتباره جزءًا من تلك النماذج التي ترى الصورة، وتفهمها، ويمكنها وصفها أو الإجابة على الأسئلة المتعلقة بها.

Molmo (يأتي في متغيرات 72B و7B و1B)، مثل النماذج متعددة الوسائط الأخرى، قادر على تحديد الأسئلة والإجابة عليها حول أي موقف أو شيء يومي تقريبًا. كيف تعمل ماكينة القهوة هذه؟ كم عدد الكلاب في هذه الصورة التي أخرجت ألسنتها؟ ما هي الخيارات في هذه القائمة نباتية؟ ما هي المتغيرات في هذا المخطط؟ إنها مهمة الفهم البصري التي رأيناها تظهر بمستويات متفاوتة من النجاح وزمن الوصول لسنوات.

الأمر المختلف ليس بالضرورة قدرات Molmo (والتي يمكنك رؤيتها في العرض التوضيحي أدناه، أو اختبارها هنا)، ولكن كيفية تحقيقها.

الفهم البصري هو مجال واسع، بالطبع، يشمل أشياء مثل عد الأغنام في الحقل لتخمين الحالة العاطفية للشخص لتلخيص القائمة. على هذا النحو، من الصعب وصف ذلك، ناهيك عن الاختبار الكمي، ولكن كما أوضح رئيس AI2 علي فرهادي في حدث تجريبي في المقر الرئيسي لمنظمة الأبحاث في سياتل، يمكنك على الأقل إظهار أن النموذجين متشابهان في قدراتهما.

وقال: “أحد الأشياء التي نعرضها اليوم هو أن الفتح يساوي المغلق، والصغير يساوي الآن الكبير”. (أوضح أنه كان يعني ==، أي التكافؤ، وليس الهوية؛ وهو تمييز دقيق سيقدره البعض).

أحد الثوابت القريبة في تطوير الذكاء الاصطناعي هو أن “الأكبر هو الأفضل”. المزيد من بيانات التدريب، والمزيد من المعلمات في النموذج الناتج، والمزيد من القدرة الحاسوبية لإنشائها وتشغيلها. ولكن في مرحلة ما، لا يمكنك حرفيًا جعلها أكبر حجمًا: لا توجد بيانات كافية للقيام بذلك، أو تصبح تكاليف وأوقات الحوسبة مرتفعة للغاية بحيث تصبح هزيمة ذاتية. عليك ببساطة أن تكتفي بما لديك، أو الأفضل من ذلك، أن تفعل المزيد بموارد أقل.

وأوضح فرهادي أن Molmo، على الرغم من أنه يعمل على قدم المساواة مع أمثال GPT-4o، وGemini 1.5 Pro، وClaude-3.5 Sonnet، إلا أن وزنه (وفقًا لأفضل التقديرات) يبلغ حوالي عُشر ما تم الاستيلاء عليه. ويقترب من مستوى قدراتهم بنموذج يمثل عُشرًا الذي – التي.

اعتمادات الصورة: AI2

“هناك عشرات المعايير المختلفة التي يقيم الناس عليها. وأوضح: “أنا لا أحب هذه اللعبة من الناحية العلمية… لكن كان علي أن أظهر للناس رقمًا”. “إن أكبر نموذج لدينا هو نموذج صغير، 72B، وهو يتفوق في الأداء على GPTs وClaudes وGeminis في تلك المعايير. مرة أخرى، تعامل مع الأمر بحذر؛ فهل هذا يعني أن هذا أفضل منهم فعلاً أم لا؟ لا أعرف. ولكن بالنسبة لنا على الأقل، فهذا يعني أن هذا يلعب نفس اللعبة”.

إذا كنت ترغب في محاولة التفوق عليه، فلا تتردد في الاطلاع على العرض التوضيحي العام، والذي يعمل على الهاتف المحمول أيضًا. (إذا كنت لا تريد تسجيل الدخول، يمكنك التحديث أو التمرير لأعلى و”تحرير” المطالبة الأصلية لاستبدال الصورة.)

السر يكمن في استخدام بيانات أقل جودة ولكن ذات جودة أفضل. بدلاً من التدريب على مكتبة تضم مليارات الصور التي لا يمكن التحكم في جودتها أو وصفها أو إلغاء تكرارها، قامت AI2 برعاية مجموعة مكونة من 600000 صورة فقط وتعليقها. من الواضح أن هذا لا يزال كثيرًا، ولكن بالمقارنة مع ستة مليارات، فهو مجرد قطرة في بحر – جزء من المئة. في حين أن هذا يترك القليل من الأشياء ذات الذيل الطويل، فإن عملية الاختيار وطريقة التعليق التوضيحي المثيرة للاهتمام تمنحهم أوصافًا عالية الجودة.

مثيرة للاهتمام كيف؟ حسنًا، إنهم يعرضون الأشخاص والصورة ويطلبون منهم وصفها بصوت عالٍ. اتضح أن الناس يتحدثون عن الأشياء بشكل مختلف عن الطريقة التي يكتبون عنها، وهذا لا يؤدي إلى نتائج دقيقة فحسب، بل أيضًا إلى نتائج تحادثية ومفيدة. أوصاف الصور الناتجة التي تنتجها Molmo غنية وعملية.

ويتجلى ذلك بشكل أفضل من خلال قدرته الفريدة الجديدة، وعلى مدى بضعة أيام على الأقل، على “الإشارة” إلى الأجزاء ذات الصلة من الصور. وعندما طلب منه إحصاء الكلاب في الصورة (33)، وضع نقطة على كل وجه من وجوههم. وعندما يطلب منه عد الألسنة يضع نقطة على كل لسان. تتيح هذه الخصوصية لها القيام بجميع أنواع الإجراءات الجديدة بدون إطلاق النار. والأهم من ذلك، أنه يعمل على واجهات الويب أيضًا: دون النظر إلى كود موقع الويب، يفهم النموذج كيفية التنقل في الصفحة، وإرسال نموذج، وما إلى ذلك. (أظهرت شركة Rabbit مؤخرًا شيئًا مشابهًا لجهاز r1، ومن المقرر إصداره الأسبوع المقبل.)

اعتمادات الصورة: AI2

فلماذا كل هذا مهم؟ النماذج تخرج عمليا كل يوم. أعلنت جوجل للتو عن بعض. لدى OpenAI يوم تجريبي قادم. الحيرة تثير باستمرار شيئًا أو آخر. تعمل Meta على زيادة إصدار Llama مهما كان.

حسنًا، Molmo مجاني تمامًا ومفتوح المصدر، فضلاً عن كونه صغيرًا بدرجة كافية بحيث يمكن تشغيله محليًا. لا حاجة إلى واجهة برمجة التطبيقات (API)، أو الاشتراك، أو مجموعة وحدات معالجة الرسومات (GPU) المبردة بالماء. الهدف من إنشاء النموذج وإصداره هو تمكين المطورين والمبدعين من إنشاء تطبيقات وخدمات وتجارب مدعومة بالذكاء الاصطناعي دون الحاجة إلى طلب إذن من (والدفع) إحدى أكبر شركات التكنولوجيا في العالم.

“نحن نستهدف الباحثين والمطورين ومطوري التطبيقات والأشخاص الذين لا يعرفون كيفية التعامل مع هؤلاء [large] نماذج. وقال فرهادي: “إن المبدأ الأساسي في استهداف هذه المجموعة الواسعة من الجمهور هو المبدأ الأساسي الذي كنا ندفع من أجله منذ فترة، وهو: جعل الوصول إليه أكثر سهولة”. “نحن نطلق سراح كل شيء قمنا به. يتضمن ذلك البيانات والتنظيف والشروح والتدريب والتعليمات البرمجية ونقاط التفتيش والتقييم. نحن نصدر كل ما قمنا بتطويره حول هذا الموضوع.

وأضاف أنه يتوقع أن يبدأ الناس في البناء باستخدام مجموعة البيانات والرموز هذه على الفور – بما في ذلك المنافسون الأثرياء، الذين يجمعون أي بيانات “متاحة للعامة”، مما يعني عدم تحديد أي شيء. (وأضاف: “سواء ذكروا ذلك أم لا، فهذه قصة مختلفة تمامًا”.)

يتحرك عالم الذكاء الاصطناعي بسرعة، ولكن على نحو متزايد يجد اللاعبون العملاقون أنفسهم في سباق نحو القاع، فيخفضون الأسعار إلى الحد الأدنى بينما يجمعون مئات الملايين لتغطية التكلفة. إذا توفرت إمكانيات مماثلة من خلال خيارات مجانية ومفتوحة المصدر، فهل يمكن أن تكون القيمة التي تقدمها تلك الشركات فلكية حقًا؟ على أقل تقدير، يوضح مولمو أنه على الرغم من أن السؤال مفتوح حول ما إذا كان الإمبراطور لديه ملابس، فإنه بالتأكيد ليس لديه خندق مائي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى