يمكن لنموذج Gemini الجديد من Google تحليل مقطع فيديو مدته ساعة، ولكن لا يستطيع استخدامه سوى عدد قليل من الأشخاص

في أكتوبر الماضي، طرحت ورقة بحثية نشرها أحد علماء البيانات في Google، والرئيس التنفيذي للتكنولوجيا في Databricks Matei Zaharia والأستاذ في جامعة كاليفورنيا في بيركلي، بيتر أبيل، طريقة للسماح لنماذج GenAI – أي النماذج على غرار GPT-4 وChatGPT من OpenAI – باستيعاب المزيد من المعلومات. البيانات مما كان ممكنا في السابق. في الدراسة، أظهر المؤلفون المشاركون أنه من خلال إزالة عنق الزجاجة الرئيسي في الذاكرة لنماذج الذكاء الاصطناعي، يمكنهم تمكين النماذج من معالجة ملايين الكلمات بدلاً من مئات الآلاف – وهو الحد الأقصى للنماذج الأكثر قدرة في ذلك الوقت.

يبدو أن أبحاث الذكاء الاصطناعي تتحرك بسرعة.

أعلنت Google اليوم عن إطلاق Gemini 1.5 Pro، وهو أحدث عضو في عائلة Gemini من نماذج GenAI. تم تصميم Gemini 1.5 Pro ليكون بديلاً مباشرًا لـ Gemini 1.0 Pro (الذي كان يُعرف سابقًا باسم “Gemini Pro 1.0” لأسباب معروفة فقط لذراع التسويق المتاهة لشركة Google)، وقد تم تحسين Gemini 1.5 Pro في عدد من المجالات مقارنة بسابقه، وربما معظمها بشكل كبير في كمية البيانات التي يمكنه معالجتها.

يمكن لـ Gemini 1.5 Pro استيعاب ما يقرب من 700000 كلمة، أو ما يقرب من 30000 سطر من التعليمات البرمجية – أي 35 ضعفًا من الكمية التي يمكن لـ Gemini 1.0 Pro التعامل معها. و- كون النموذج متعدد الوسائط – فهو لا يقتصر على النص. يمكن لـ Gemini 1.5 Pro استيعاب ما يصل إلى 11 ساعة من الصوت أو ساعة من الفيديو بمجموعة متنوعة من اللغات المختلفة.

اعتمادات الصورة: جوجل

لكي نكون واضحين، هذا هو الحد الأعلى.

يمكن لإصدار Gemini 1.5 Pro المتوفر لمعظم المطورين والعملاء بدءًا من اليوم (في معاينة محدودة) معالجة ما يقرب من 100000 كلمة في وقت واحد فقط. تصف Google برنامج Gemini 1.5 Pro ذو المدخلات الكبيرة للبيانات بأنه “تجريبي”، مما يسمح فقط للمطورين المعتمدين كجزء من معاينة خاصة بتجريبه عبر أداة تطوير GenAI الخاصة بالشركة AI Studio. يتمتع العديد من العملاء الذين يستخدمون منصة Vertex AI من Google أيضًا بإمكانية الوصول إلى Gemini 1.5 Pro ذو المدخلات الكبيرة للبيانات – ولكن ليس جميعهم.

ومع ذلك، اعتبر نائب رئيس قسم الأبحاث في Google DeepMind Oriol Vinyals هذا الإنجاز بمثابة إنجاز.

“عندما تتفاعل مع [GenAI] وقال فينيالس خلال مؤتمر صحفي: “في النماذج، تصبح المعلومات التي تدخلها وتخرجها هي السياق، وكلما كانت أسئلتك وتفاعلاتك أطول وأكثر تعقيدًا، كلما طال أمد السياق الذي يحتاج النموذج إلى التعامل معه”. “لقد فتحنا سياقًا طويلًا بطريقة هائلة جدًا.”

سياق كبير

يشير سياق النموذج، أو نافذة السياق، إلى بيانات الإدخال (مثل النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (مثل النص الإضافي). سؤال بسيط – “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، كما هو الحال مع سيناريو الفيلم أو البريد الإلكتروني أو الكتاب الإلكتروني.

تميل النماذج ذات نوافذ السياق الصغيرة إلى “نسيان” محتوى المحادثات الحديثة جدًا، مما يؤدي بها إلى الانحراف عن الموضوع – غالبًا بطرق إشكالية. هذا ليس بالضرورة هو الحال مع النماذج ذات السياقات الكبيرة. وكجانب إيجابي إضافي، يمكن لنماذج السياق الكبير فهم التدفق السردي للبيانات التي تستقبلها بشكل أفضل وتوليد استجابات أكثر ثراءً من حيث السياق – على الأقل من الناحية النظرية.

كانت هناك محاولات أخرى – وتجارب – لنماذج ذات نوافذ سياقية كبيرة بشكل غير معتاد.

ادعت شركة Magic الناشئة للذكاء الاصطناعي في الصيف الماضي أنها طورت نموذجًا لغويًا كبيرًا (LLM) بنافذة سياق تحتوي على 5 ملايين رمز. قدمت ورقتان بحثيتان في العام الماضي تفاصيل عن بنيات النماذج القادرة ظاهريًا على التوسع إلى مليون رمز مميز – وأكثر من ذلك. (“الرموز” هي أجزاء مقسمة من البيانات الأولية، مثل المقاطع “fan” و”tas” و”tic” في كلمة “fantastic”.) ومؤخرًا، طورت مجموعة من العلماء القادمين من ميتا ومعهد ماساتشوستس للتكنولوجيا وكارنيجي ميلون التقنية التي يقولون إنها تزيل القيد على حجم نافذة سياق النموذج تمامًا.

لكن Google هي أول من صنع نموذجًا بنافذة سياق بهذا الحجم متاحًا تجاريًا، متغلبًا على نافذة سياق Anthropic الرائدة السابقة والتي تبلغ 200000 رمز – إذا تم اعتبار المعاينة الخاصة متاحة تجاريًا.

اعتمادات الصورة: جوجل

الحد الأقصى لنافذة سياق Gemini 1.5 Pro هو مليون رمز مميز، وإصدار النموذج المتاح على نطاق أوسع يحتوي على نافذة سياق 128000 رمزًا، مثل OpenAI’s GPT-4 Turbo.

إذًا ما الذي يمكن للمرء تحقيقه باستخدام نافذة سياقية تحتوي على مليون رمز مميز؟ تعد Google بالكثير من الأشياء – مثل تحليل مكتبة الأكواد الكاملة، و”التفكير المنطقي” في المستندات الطويلة مثل العقود، وإجراء محادثات طويلة مع برنامج الدردشة الآلي، وتحليل ومقارنة المحتوى في مقاطع الفيديو.

خلال المؤتمر الصحفي، عرضت Google عرضين تجريبيين مسجلين مسبقًا لـ Gemini 1.5 Pro مع تمكين نافذة السياق التي تحتوي على مليون رمز.

في البداية، طلب المتظاهر من Gemini 1.5 Pro البحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 – والذي يصل إلى حوالي 402 صفحة – بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في البث التلفزيوني يشبه رسمًا بالقلم الرصاص. . في الثانية، طلب المتظاهر من العارضة أن تبحث عن مشاهد في فيلم “Sherlock Jr.”، وهو فيلم باستر كيتون، من خلال الأوصاف ورسم آخر.

اعتمادات الصورة: جوجل

أكمل Gemini 1.5 Pro جميع المهام المطلوبة منه بنجاح، ولكن ليس بسرعة كبيرة. استغرقت معالجة كل منها ما بين 20 ثانية ودقيقة تقريبًا، وهي فترة أطول بكثير من متوسط استعلام ChatGPT، على سبيل المثال.

اعتمادات الصورة: جوجل

يقول فينيالس إن زمن الوصول سيتحسن مع تحسين النموذج. وبالفعل قامت الشركة باختبار نسخة من Gemini 1.5 Pro مع 10 مليون رمز نافذة السياق.

“الجانب الكمون [is something] نحن نعمل على التحسين، وهذا لا يزال في مرحلة تجريبية، في مرحلة البحث. “لذلك أود أن أقول إن هذه المشكلات موجودة كما هو الحال مع أي نموذج آخر.”

أنا لست متأكدًا من أن الكمون سيكون جذابًا للعديد من الأشخاص – ناهيك عن العملاء الذين يدفعون. إن الاضطرار إلى الانتظار دقائق في كل مرة للبحث عبر مقطع فيديو لا يبدو أمرًا ممتعًا – أو قابلاً للتوسع على المدى القريب. وأنا مهتم بكيفية ظهور زمن الاستجابة في التطبيقات الأخرى، مثل محادثات chatbot وتحليل قواعد التعليمات البرمجية. لم يقل فينيالس – وهو ما لا يغرس الكثير من الثقة.

وأشار زميلي الأكثر تفاؤلاً فريدريك لاردينوا إلى أن إجمالي إن توفير الوقت قد يجعل التلاعب بالإبهام يستحق كل هذا العناء. لكنني أعتقد أن الأمر سيعتمد كثيرًا على حالة الاستخدام. لاختيار نقاط مؤامرة العرض؟ ربما لا. ولكن العثور على لقطة الشاشة المناسبة من مشهد سينمائي لا تتذكره إلا بشكل ضبابي؟ ربما.

تحسينات أخرى

بعيدًا عن نافذة السياق الموسعة، يقدم Gemini 1.5 Pro ترقيات أخرى لجودة الحياة إلى الطاولة.

تدعي Google أنه – من حيث الجودة – فإن Gemini 1.5 Pro “قابل للمقارنة” بالإصدار الحالي من Gemini Ultra، نموذج GenAI الرائد من Google، وذلك بفضل بنية جديدة تتألف من نماذج “خبيرة” أصغر حجمًا ومتخصصة. يقوم Gemini 1.5 Pro بشكل أساسي بتقسيم المهام إلى مهام فرعية متعددة ثم تفويضها إلى نماذج الخبراء المناسبة، وتحديد المهمة التي سيتم تفويضها بناءً على توقعاته الخاصة.

وزارة التربية والتعليم ليست جديدة، بل كانت موجودة بشكل ما منذ سنوات. لكن كفاءته ومرونته جعلته خيارًا شائعًا بشكل متزايد بين بائعي النماذج (انظر: النموذج الذي يدعم خدمات ترجمة اللغة من Microsoft).

الآن، “الجودة المماثلة” هي وصف غامض إلى حد ما. من الصعب قياس الجودة عندما يتعلق الأمر بنماذج GenAI، وخاصة النماذج متعددة الوسائط، ويتضاعف هذا عندما تكون النماذج محصورة خلف معاينات خاصة تستبعد الصحافة. مقابل ما يستحق، تدعي Google أن Gemini 1.5 Pro يعمل على “مستوى مشابه إلى حد كبير” مقارنةً بـ Ultra وفقًا للمعايير التي تستخدمها الشركة لـ تطوير LLMs بينما متفوقًا على Gemini 1.0 Pro بنسبة 87% منهم المعايير. (سألاحظ أن التفوق على Gemini 1.0 Pro هو مستوى منخفض.)

التسعير هو علامة استفهام كبيرة.

تقول Google إنه أثناء المعاينة الخاصة، سيكون Gemini 1.5 Pro مع نافذة سياق تحتوي على مليون رمز مميزًا مجانيًا للاستخدام. لكن الشركة تخطط لتقديم مستويات التسعير في المستقبل القريب والتي تبدأ من نافذة السياق القياسية البالغة 128000 وتتسع إلى مليون رمز مميز.

يجب أن أتخيل أن نافذة السياق الأكبر لن تكون رخيصة الثمن – ولم تعمل Google على تهدئة المخاوف باختيار عدم الكشف عن الأسعار خلال المؤتمر الصحفي. إذا كان التسعير يتماشى مع Anthropic، فقد يكلف 8 دولارات لكل مليون رمز مميز سريع و24 دولارًا لكل مليون رمز مميز تم إنشاؤه. ولكن ربما سيكون أقل. اشياء غريبة حدثت! سيتعين علينا أن ننتظر ونرى.

وأتساءل أيضًا عن تداعيات ذلك على بقية الموديلات في عائلة جيميني، وعلى رأسها جيميني ألترا. هل يمكننا أن نتوقع أن تتماشى ترقيات الطراز Ultra تقريبًا مع ترقيات Pro؟ أم أنه ستكون هناك دائمًا – كما هو الحال الآن – فترة حرجة تكون فيها نماذج Pro المتوفرة متفوقة من حيث الأداء على طرازات Ultra، والتي لا تزال Google تسوقها على أنها الأفضل في مجموعة Gemini الخاصة بها؟

قم بالطباشير على مشاكل التسنين إذا كنت تشعر بالخير. إذا لم تكن كذلك، سمها كما هي: مربك للغاية.

مرتبط

اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

يمكن لنموذج Gemini الجديد من Google تحليل مقطع فيديو مدته ساعة، ولكن لا يستطيع استخدامه سوى عدد قليل من الأشخاص

السياسي الذي حقق في انتهاكات برامج التجسس تم اختراق هاتفه باستخدام برنامج تجسس Pegasus

غزة – أكثر من 750 ألف شخص تلقوا مساعدات غذائية، والحاجة لا تزال أكبر من الاستجابة

تنتهي أسعار Early Bird الليلة لقمة Founder Summit

يمكن لنموذج Gemini الجديد من Google تحليل مقطع فيديو مدته ساعة، ولكن لا يستطيع استخدامه سوى عدد قليل من الأشخاص

سياق كبير

تحسينات أخرى

شارك هذا الموضوع:

معجب بهذه:

مرتبط

اكتشاف المزيد من موقع fffm

المقالات ذات الصلة

السياسي الذي حقق في انتهاكات برامج التجسس تم اختراق هاتفه باستخدام برنامج تجسس Pegasus

غزة – أكثر من 750 ألف شخص تلقوا مساعدات غذائية، والحاجة لا تزال أكبر من الاستجابة

تنتهي أسعار Early Bird الليلة لقمة Founder Summit

اكتشاف المزيد من موقع fffm