يدخل Google Gemini Pro 1.5 إلى المعاينة العامة على Vertex AI
Gemini 1.5 Pro، نموذج الذكاء الاصطناعي الأكثر قدرة على إنتاج Google، متوفر الآن للمعاينة العامة على Vertex AI، منصة تطوير الذكاء الاصطناعي التي تركز على المؤسسات من Google. أعلنت الشركة عن هذا الخبر خلال مؤتمر Cloud Next السنوي الذي يعقد في لاس فيغاس هذا الأسبوع.
تم إطلاق Gemini 1.5 Pro في فبراير، لينضم إلى عائلة Gemini من Google لنماذج الذكاء الاصطناعي التوليدية. مما لا شك فيه أن ميزة العناوين الرئيسية هي مقدار السياق الذي يمكنها معالجته: ما بين 128000 رمزًا إلى ما يصل إلى مليون رمز، حيث تشير كلمة “الرموز” إلى أجزاء مقسمة من البيانات الأولية (مثل المقاطع “fan” و”tas” و”tic” في كلمة “رائع”).
مليون رمز يعادل حوالي 700000 كلمة أو حوالي 30000 سطر من التعليمات البرمجية. إنها حوالي أربعة أضعاف كمية البيانات التي يمكن للنموذج الرئيسي لشركة Anthropic، Claude 3، أن يأخذها كمدخلات وحوالي ثمانية أضعاف حجم سياق GPT-4 Turbo max الخاص بـ OpenAI.
يشير سياق النموذج، أو نافذة السياق، إلى المجموعة الأولية من البيانات (مثل النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (مثل النص الإضافي). سؤال بسيط – “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، كما هو الحال مع سيناريو الفيلم أو البريد الإلكتروني أو المقال أو الكتاب الإلكتروني.
تميل النماذج ذات نوافذ السياق الصغيرة إلى “نسيان” محتوى المحادثات الحديثة جدًا، مما يؤدي بها إلى الانحراف عن الموضوع. هذا ليس بالضرورة هو الحال مع النماذج ذات السياقات الكبيرة. وكجانب إيجابي إضافي، يمكن لنماذج السياق الكبير فهم التدفق السردي للبيانات التي تستقبلها بشكل أفضل، وتوليد استجابات أكثر ثراءً من حيث السياق، وتقليل الحاجة إلى الضبط الدقيق والأساس الواقعي – من الناحية النظرية، على الأقل.
إذًا ما الذي يمكن للمرء فعله على وجه التحديد بنافذة سياق تحتوي على مليون رمز مميز؟ تعد Google بالكثير من الأشياء، مثل تحليل مكتبة الأكواد، و”التفكير المنطقي” في المستندات الطويلة، وإجراء محادثات طويلة مع برنامج الدردشة الآلي.
نظرًا لأن Gemini 1.5 Pro متعدد اللغات – ومتعدد الوسائط بمعنى أنه قادر على فهم الصور ومقاطع الفيديو، واعتبارًا من يوم الثلاثاء، تدفقات الصوت بالإضافة إلى النص – يمكن للنموذج أيضًا تحليل ومقارنة المحتوى في الوسائط مثل البرامج التلفزيونية والأفلام والراديو البث وتسجيلات المكالمات الجماعية والمزيد عبر لغات مختلفة. يُترجم مليون رمز إلى حوالي ساعة من الفيديو أو حوالي 11 ساعة من الصوت.
بفضل إمكانات معالجة الصوت، يمكن لـ Gemini 1.5 Pro إنشاء نسخ لمقاطع الفيديو أيضًا، على الرغم من أن هيئة المحلفين لا تزال غير متأكدة من جودة تلك النسخ.
في عرض توضيحي تم تسجيله مسبقًا في وقت سابق من هذا العام، عرضت Google برنامج Gemini 1.5 Pro وهو يبحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 (والذي يصل إلى حوالي 400 صفحة) بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في لقطات الفيلم الذي بدا مشابهًا لـ رسم بالقلم الرصاص.
تقول جوجل إن المستخدمين الأوائل لبرنامج Gemini 1.5 Pro – بما في ذلك United Wholesale Mortgage وTBS وReplit – يستفيدون من نافذة السياق الكبيرة للمهام التي تشمل الاكتتاب في الرهن العقاري؛ أتمتة وضع علامات على البيانات الوصفية في أرشيفات الوسائط؛ وتوليد وشرح وتحويل التعليمات البرمجية.
لا يقوم Gemini 1.5 Pro بمعالجة مليون رمز في لمح البصر. في العروض التوضيحية المذكورة أعلاه، استغرق كل بحث ما بين 20 ثانية ودقيقة حتى يكتمل، وهو وقت أطول بكثير من متوسط استعلام ChatGPT.
قالت Google سابقًا أن زمن الوصول هو مجال التركيز، وأنها تعمل على “تحسين” Gemini 1.5 Pro مع مرور الوقت.
تجدر الإشارة إلى أن Gemini 1.5 Pro يشق طريقه ببطء إلى أجزاء أخرى من النظام البيئي لمنتجات شركة Google، حيث أعلنت الشركة يوم الثلاثاء أن النموذج (في المعاينة الخاصة) سيعمل على تشغيل ميزات جديدة في Code Assist، أداة مساعدة ترميز الذكاء الاصطناعي التوليدية من Google. يمكن للمطورين الآن إجراء تغييرات “واسعة النطاق” عبر قواعد التعليمات البرمجية، كما تقول جوجل، على سبيل المثال تحديث تبعيات الملفات المتقاطعة ومراجعة أجزاء كبيرة من التعليمات البرمجية.