Google Gemini: كل ما تحتاج لمعرفته حول منصة الذكاء الاصطناعي التوليدية الجديدة

تحاول Google إحداث ضجة مع Gemini، مجموعتها الرئيسية من نماذج وتطبيقات وخدمات الذكاء الاصطناعي التوليدية.

إذن ما هو الجوزاء؟ كيف يمكن إستخدامه؟ وكيف يرقى إلى مستوى المنافسة؟

لتسهيل مواكبة أحدث تطورات Gemini، قمنا بتجميع هذا الدليل المفيد، والذي سنستمر في تحديثه مع إصدار نماذج Gemini الجديدة وميزاتها وأخبارها حول خطط Google لـ Gemini.

ما هو الجوزاء؟

Gemini هي عائلة نماذج GenAI من الجيل التالي التي وعدت بها Google منذ فترة طويلة، والتي طورتها مختبرات أبحاث الذكاء الاصطناعي التابعة لشركة Google DeepMind وGoogle Research. يأتي بثلاث نكهات:

الجوزاء الترا، نموذج الجوزاء الأكثر أداءً.
الجوزاء برو، نموذج برج الجوزاء “الخفيف”.
الجوزاء نانووهو نموذج أصغر “مقطر” يعمل على الأجهزة المحمولة مثل Pixel 8 Pro.

تم تدريب جميع نماذج جيميني لتكون “متعددة الوسائط بشكل أصلي” – وبعبارة أخرى، قادرة على العمل واستخدام أكثر من مجرد كلمات. لقد تم تدريبهم مسبقًا وضبطهم جيدًا على مجموعة متنوعة من الملفات الصوتية والصور ومقاطع الفيديو، ومجموعة كبيرة من قواعد التعليمات البرمجية والنصوص بلغات مختلفة.

وهذا ما يميز Gemini عن النماذج مثل LaMDA الخاص بشركة Google، والذي تم تدريبه حصريًا على البيانات النصية. لا يستطيع LaMDA فهم أو إنشاء أي شيء آخر غير النص (على سبيل المثال، المقالات ومسودات البريد الإلكتروني)، لكن هذا ليس هو الحال مع نماذج Gemini.

ما الفرق بين تطبيقات Gemini ونماذج Gemini؟

اعتمادات الصورة: جوجل

أثبتت Google مرة أخرى أنها تفتقر إلى موهبة العلامة التجارية، ولم توضح منذ البداية أن Gemini منفصل ومتميز عن تطبيقات Gemini على الويب والهاتف المحمول (Bard سابقًا). تعد تطبيقات Gemini مجرد واجهة يمكن من خلالها الوصول إلى بعض نماذج Gemini – فكر في الأمر كعميل لـ GenAI من Google.

وبالمناسبة، فإن تطبيقات ونماذج Gemini أيضًا مستقلة تمامًا عن Imagen 2، وهو نموذج Google لتحويل النص إلى صورة والمتوفر في بعض أدوات وبيئات التطوير الخاصة بالشركة.

ماذا يمكن أن يفعل الجوزاء؟

ونظرًا لأن نماذج جيميني متعددة الوسائط، فيمكنها نظريًا أداء مجموعة من المهام متعددة الوسائط، بدءًا من نسخ الكلام إلى التعليق على الصور ومقاطع الفيديو وحتى إنشاء أعمال فنية. وقد وصلت بعض هذه الإمكانات إلى مرحلة المنتج حتى الآن (سنتحدث عن ذلك لاحقًا)، وتعد Google بها جميعًا – وأكثر – في مرحلة ما في المستقبل غير البعيد.

وبطبيعة الحال، فإنه من الصعب بعض الشيء أن تأخذ الشركة في كلمتها.

لقد فشلت Google في التسليم بشكل خطير مع إطلاق Bard الأصلي. وفي الآونة الأخيرة، أثارت شريط فيديو يزعم أنه يُظهر قدرات الجوزاء، التي تبين أنها تم التلاعب بها بشكل كبير وكانت طموحة إلى حد ما.

ومع ذلك، على افتراض أن Google صادقة إلى حد ما في ادعاءاتها، فإليك ما ستتمكن المستويات المختلفة من Gemini من فعله بمجرد وصولهم إلى إمكاناتهم الكاملة:

الجوزاء الترا

تقول Google إن برنامج Gemini Ultra – بفضل تعدد طرقه – يمكن استخدامه للمساعدة في أشياء مثل واجبات الفيزياء المنزلية، وحل المشكلات خطوة بخطوة في ورقة العمل، والإشارة إلى الأخطاء المحتملة في الإجابات المملوءة بالفعل.

يمكن تطبيق Gemini Ultra أيضًا على مهام مثل تحديد الأوراق العلمية ذات الصلة بمشكلة معينة، كما تقول Google، حيث يتم استخراج المعلومات من تلك الأوراق و”تحديث” مخطط من أحدها عن طريق إنشاء الصيغ اللازمة لإعادة إنشاء المخطط باستخدام بيانات أحدث. .

يدعم Gemini Ultra تقنيًا إنشاء الصور، كما تمت الإشارة إليه سابقًا. لكن هذه القدرة لم تشق طريقها إلى النسخة المنتجة من النموذج بعد – ربما لأن الآلية أكثر تعقيدًا من كيفية إنشاء تطبيقات مثل ChatGPT للصور. بدلاً من تغذية المطالبات إلى مولد الصور (مثل DALL-E 3، في حالة ChatGPT)، يقوم Gemini بإخراج الصور “محليًا”، دون خطوة وسيطة.

يتوفر Gemini Ultra كواجهة برمجة تطبيقات من خلال Vertex AI، منصة مطوري الذكاء الاصطناعي المُدارة بالكامل من Google، وAI Studio، أداة Google المستندة إلى الويب لمطوري التطبيقات والأنظمة الأساسية. كما أنه يعمل على تشغيل تطبيقات Gemini، ولكن ليس مجانًا. يتطلب الوصول إلى Gemini Ultra من خلال ما تسميه Google Gemini Advanced الاشتراك في خطة Google One AI Premium Plan، بسعر 20 دولارًا شهريًا.

تعمل خطة AI Premium أيضًا على ربط Gemini بحسابك الأوسع على Google Workspace، مثل رسائل البريد الإلكتروني في Gmail والمستندات في المستندات والعروض التقديمية في جداول البيانات وتسجيلات Google Meet. وهذا مفيد، على سبيل المثال، في تلخيص رسائل البريد الإلكتروني أو تسجيل الملاحظات أثناء مكالمة فيديو.

الجوزاء برو

تقول Google إن Gemini Pro يعد تحسينًا على LaMDA في قدرات التفكير والتخطيط والفهم.

وجدت دراسة مستقلة أجراها باحثون من جامعة كارنيجي ميلون وBerriAI أن الإصدار الأولي من Gemini Pro كان بالفعل أفضل من OpenAI’s GPT-3.5 في التعامل مع سلاسل التفكير الأطول والأكثر تعقيدًا. لكن الدراسة وجدت أيضًا أنه، مثل جميع نماذج اللغات الكبيرة، واجه هذا الإصدار من Gemini Pro بشكل خاص مشاكل رياضية تتضمن عدة أرقام، ووجد المستخدمون أمثلة على الاستدلال السيئ والأخطاء الواضحة.

وعدت Google بعلاجات، ووصلت الأولى في شكل Gemini 1.5 Pro.

تم تصميم Gemini 1.5 Pro ليكون بديلاً سهلاً، وقد تم تحسينه في عدد من المجالات مقارنة بسابقه، وربما الأهم من ذلك في كمية البيانات التي يمكنه معالجتها. يمكن لـ Gemini 1.5 Pro استيعاب ما يقرب من 700000 كلمة، أو ما يقرب من 30000 سطر من التعليمات البرمجية – أي 35 ضعفًا من الكمية التي يمكن لـ Gemini 1.0 Pro التعامل معها. و- كون النموذج متعدد الوسائط – فهو لا يقتصر على النص. يمكن لـ Gemini 1.5 Pro تحليل ما يصل إلى 11 ساعة من الصوت أو ساعة من الفيديو بمجموعة متنوعة من اللغات المختلفة، وإن كان ذلك ببطء (على سبيل المثال، يستغرق البحث عن مشهد في فيديو مدته ساعة واحدة من 30 ثانية إلى دقيقة واحدة من المعالجة).

دخل Gemini 1.5 Pro إلى المعاينة العامة على Vertex AI في أبريل.

يمكن لنقطة نهاية إضافية، Gemini Pro Vision، معالجة النص و الصور – بما في ذلك الصور والفيديو – وإخراج النص على غرار OpenAI’s GPT-4 مع نموذج الرؤية.

استخدام Gemini Pro في Vertex AI. اعتمادات الصورة: تَوأَم

ضمن Vertex AI، يمكن للمطورين تخصيص Gemini Pro لسياقات محددة وحالات الاستخدام باستخدام عملية الضبط الدقيق أو “التأريض”. يمكن أيضًا توصيل Gemini Pro بواجهات برمجة التطبيقات الخارجية التابعة لجهات خارجية لتنفيذ إجراءات معينة.

في AI Studio، توجد مسارات عمل لإنشاء مطالبات محادثة منظمة باستخدام Gemini Pro. يتمتع المطورون بإمكانية الوصول إلى نقطتي النهاية Gemini Pro وGemini Pro Vision، ويمكنهم ضبط درجة حرارة النموذج للتحكم في النطاق الإبداعي للمخرجات وتقديم أمثلة لإعطاء تعليمات النغمة والأسلوب – وكذلك ضبط إعدادات الأمان.

الجوزاء نانو

Gemini Nano هو إصدار أصغر بكثير من طرازي Gemini Pro وUltra، وهو فعال بما يكفي للتشغيل مباشرة على (بعض) الهواتف بدلاً من إرسال المهمة إلى خادم في مكان ما. حتى الآن، يتم تشغيل ميزتين على Pixel 8 Pro وPixel 8 وSamsung Galaxy S24، بما في ذلك التلخيص في المسجل والرد الذكي في Gboard.

يتضمن تطبيق Recorder، الذي يتيح للمستخدمين الضغط على زر لتسجيل الصوت ونسخه، ملخصًا مدعومًا من Gemini لمحادثاتك المسجلة والمقابلات والعروض التقديمية والمقتطفات الأخرى. يحصل المستخدمون على هذه الملخصات حتى لو لم يكن لديهم إشارة أو اتصال Wi-Fi متاح – وفي إشارة إلى الخصوصية، لا تترك أي بيانات هواتفهم أثناء هذه العملية.

Gemini Nano موجود أيضًا في Gboard، تطبيق لوحة المفاتيح من Google. هناك، يتم تشغيل ميزة تسمى الرد الذكي، والتي تساعد في اقتراح الشيء التالي الذي تريد قوله عند إجراء محادثة في تطبيق المراسلة. وتقول جوجل إن الميزة تعمل في البداية مع تطبيق واتساب فقط، ولكنها ستصل إلى المزيد من التطبيقات بمرور الوقت.

وفي تطبيق رسائل Google على الأجهزة المدعومة، يقوم Nano بتمكين ميزة Magic Compose، التي يمكنها صياغة الرسائل بأنماط مثل “متحمس” و”رسمي” و”غنائي”.

هل Gemini أفضل من GPT-4 الخاص بـ OpenAI؟

لقد أشادت Google عدة مرات بتفوق Gemini في المعايير، زاعمة أن Gemini Ultra يتجاوز أحدث النتائج الحالية في “30 من أصل 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع والمستخدمة في أبحاث وتطوير النماذج اللغوية الكبيرة.” وتقول الشركة إن Gemini 1.5 Pro، في الوقت نفسه، أكثر قدرة على أداء مهام مثل تلخيص المحتوى والعصف الذهني والكتابة من Gemini Ultra في بعض السيناريوهات؛ من المفترض أن يتغير هذا مع إصدار طراز Ultra التالي.

ولكن إذا تركنا جانباً مسألة ما إذا كانت المعايير تشير حقاً إلى نموذج أفضل، فإن النتائج التي تشير إليها جوجل تبدو أفضل بشكل هامشي فقط من نماذج OpenAI المقابلة. وكما ذكرنا سابقًا، لم تكن بعض الانطباعات المبكرة رائعة، حيث أشار المستخدمون والأكاديميون إلى أن الإصدار الأقدم من Gemini Pro يميل إلى فهم الحقائق الأساسية بشكل خاطئ، ويواجه صعوبة في الترجمات ويقدم اقتراحات برمجية سيئة.

كم تكلفة الجوزاء؟

Gemini 1.5 Pro مجاني للاستخدام في تطبيقات Gemini، وفي الوقت الحالي، في AI Studio وVertex AI.

بمجرد خروج Gemini 1.5 Pro من المعاينة في Vertex، سيكلف النموذج 0.0025 دولارًا لكل حرف بينما سيكلف الإخراج 0.00005 دولارًا لكل حرف. يدفع عملاء Vertex مقابل كل 1000 حرف (حوالي 140 إلى 250 كلمة)، وفي حالة نماذج مثل Gemini Pro Vision، يدفعون لكل صورة (0.0025 دولار).

لنفترض أن المقالة المكونة من 500 كلمة تحتوي على 2000 حرف. إن تلخيص هذه المقالة باستخدام Gemini 1.5 Pro سيكلف 5 دولارات. وفي الوقت نفسه، فإن إنشاء مقالة بنفس الطول سيكلف 0.1 دولار.

لم يتم الإعلان عن أسعار Ultra بعد.

أين يمكنك تجربة الجوزاء؟

الجوزاء برو

أسهل مكان لتجربة Gemini Pro هو تطبيقات Gemini. يقوم Pro وUltra بالإجابة على الاستفسارات بمجموعة من اللغات.

يمكن أيضًا الوصول إلى Gemini Pro وUltra في المعاينة في Vertex AI عبر واجهة برمجة التطبيقات. واجهة برمجة التطبيقات (API) مجانية الاستخدام “ضمن الحدود” في الوقت الحالي وتدعم مناطق معينة، بما في ذلك أوروبا، بالإضافة إلى ميزات مثل وظائف الدردشة والتصفية.

وفي مكان آخر، يمكن العثور على Gemini Pro وUltra في AI Studio. باستخدام الخدمة، يمكن للمطورين تكرار المطالبات وروبوتات الدردشة المستندة إلى Gemini ثم الحصول على مفاتيح API لاستخدامها في تطبيقاتهم – أو تصدير التعليمات البرمجية إلى IDE أكثر تميزًا.

تستخدم Code Assist (المعروفة سابقًا باسم Duet AI للمطورين)، وهي مجموعة أدوات المساعدة المدعومة بالذكاء الاصطناعي من Google لإكمال التعليمات البرمجية وإنشائها، نماذج Gemini. يمكن للمطورين إجراء تغييرات “واسعة النطاق” عبر قواعد التعليمات البرمجية، على سبيل المثال، تحديث تبعيات الملفات المتقاطعة ومراجعة أجزاء كبيرة من التعليمات البرمجية.

جلبت Google نماذج Gemini إلى أدوات التطوير الخاصة بها لمنصة تطوير الأجهزة المحمولة Chrome وFirebase، وأدوات إنشاء قاعدة البيانات وإدارتها. وقد أطلقت منتجات أمنية جديدة مدعومة بـ Gemini، مثل Gemini in Threat Intelligence، وهو أحد مكونات نظام Mandiant للأمن السيبراني من Google والذي يمكنه تحليل أجزاء كبيرة من التعليمات البرمجية الضارة المحتملة والسماح للمستخدمين بإجراء عمليات بحث باللغة الطبيعية بحثًا عن التهديدات المستمرة أو مؤشرات التسوية.

مرتبط

الوسوم

Google Gemini: كل ما تحتاج لمعرفته حول منصة الذكاء الاصطناعي التوليدية الجديدة

ما هو الجوزاء؟

ما الفرق بين تطبيقات Gemini ونماذج Gemini؟