تقنية

جوجل تطلق Imagen 2، وهو منشئ مقاطع الفيديو


لا تمتلك Google أفضل سجل حافل عندما يتعلق الأمر بالذكاء الاصطناعي لإنشاء الصور.

في فبراير/شباط، تبين أن مولد الصور المدمج في جيميني، وهو برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي من جوجل، يقوم بإدخال التنوع الجنسي والعرقي بشكل عشوائي في مطالبات حول الأشخاص، مما يؤدي إلى صور للنازيين المتنوعين عرقيًا، من بين أخطاء هجومية أخرى.

قامت Google بسحب المولد، وتعهدت بتحسينه وإعادة إصداره في النهاية. وبينما ننتظر عودتها، تطلق الشركة أداة محسنة لإنشاء الصور، Imagen 2، داخل منصة مطور Vertex AI الخاصة بها – وإن كانت أداة ذات توجه مؤسسي أكبر. أعلنت Google عن Imagen 2 في مؤتمرها السنوي Cloud Next في لاس فيغاس.

يمكن لـ Imagen 2 – وهي في الواقع مجموعة من النماذج، تم إطلاقها في ديسمبر بعد معاينتها في مؤتمر Google I/O في مايو 2023 – إنشاء الصور وتحريرها بناءً على مطالبة نصية، مثل DALL-E وMidjourney من OpenAI. نظرًا لاهتمام أنواع الشركات، يمكن لـ Imagen 2 عرض النصوص والشعارات والشعارات بلغات متعددة، وتراكب هذه العناصر بشكل اختياري في الصور الموجودة، على سبيل المثال، على بطاقات العمل والملابس والمنتجات.

بعد التشغيل لأول مرة في المعاينة، أصبح تحرير الصور باستخدام Imagen 2 متاحًا الآن بشكل عام في Vertex AI إلى جانب إمكانيتين جديدتين: الرسم الداخلي والرسم الخارجي. يمكن استخدام Inpainting وoutpainting، من خلال مولدات الصور الشائعة الأخرى بما في ذلك DALL-E التي تم تقديمها لبعض الوقت، لإزالة الأجزاء غير المرغوب فيها من الصورة، وإضافة مكونات جديدة وتوسيع حدود الصورة لإنشاء مجال رؤية أوسع.

لكن الجوهر الحقيقي لترقية Imagen 2 هو ما تسميه Google “صور نصية حية”.

يستطيع Imagen 2 الآن إنشاء مقاطع فيديو قصيرة مدتها أربع ثوانٍ من المطالبات النصية، على غرار أدوات إنشاء المقاطع المدعومة بالذكاء الاصطناعي مثل Runway وPika وIrreverent Labs. وفقًا لتركيز شركة Imagen 2، قامت Google بعرض الصور الحية كأداة للمسوقين والمبدعين، مثل مولد GIF للإعلانات التي تعرض الطبيعة والطعام والحيوانات – وقد تم ضبط موضوع Imagen 2 بدقة.

تقول Google إن الصور الحية يمكنها التقاط “مجموعة من زوايا الكاميرا وحركاتها” بينما “دعم الاتساق على التسلسل بأكمله.” لكنها ذات دقة منخفضة في الوقت الحالي: 360 × 640 بكسل. جوجل تعهد بأن هذا سوف يتحسن في المستقبل.

لتهدئة (أو على الأقل محاولة تهدئة) المخاوف بشأن إمكانية إنشاء صور مزيفة بعمق، تقول جوجل إن Imagen 2 ستستخدم SynthID، وهو نهج طورته Google DeepMind، لتطبيق علامات مائية مشفرة غير مرئية على الصور الحية. وبطبيعة الحال، فإن اكتشاف هذه العلامات المائية – التي تدعي جوجل أنها مرنة تجاه التعديلات بما في ذلك الضغط والمرشحات وتعديلات درجة اللون – يتطلب أداة توفرها جوجل وهي غير متاحة لأطراف ثالثة.

ومما لا شك فيه أن شركة جوجل، حريصة على تجنب أي جدل إعلامي توليدي آخر، تؤكد على أن أجيال الصور الحية سوف “تتم تصفيتها بحثاً عن الأمان”. قال متحدث باسم TechCrunch عبر البريد الإلكتروني: “إن لم يواجه نموذج Imagen 2 في Vertex AI نفس المشكلات التي يواجهها تطبيق Gemini. نواصل الاختبار على نطاق واسع والتفاعل مع عملائنا.

ولكن لنفترض بسخاء للحظة أن تقنية العلامات المائية من Google، وتخفيف التحيز والمرشحات فعالة كما تدعي، فهل الصور الحية حتى تنافسي مع أدوات إنشاء الفيديو الموجودة بالفعل؟

ليس حقيقيًا.

يمكن لـ Runway إنشاء مقاطع مدتها 18 ثانية بدقة أعلى بكثير. توفر أداة مقطع الفيديو الخاصة بـ Stability AI، Stable Video Diffusion، إمكانية تخصيص أكبر (من حيث معدل الإطارات). ويبدو أن Sora من OpenAI – والذي، بالطبع، ليس متاحًا تجاريًا بعد – على وشك التغلب على المنافسة من خلال الصور الواقعية التي يمكنه تحقيقها.

إذن ما هي المزايا التقنية الحقيقية للصور الحية؟ أنا غير متأكد. ولا أعتقد أنني قاسية للغاية.

بعد كل شيء، جوجل هي التي تقف وراء تكنولوجيا توليد الفيديو الرائعة حقًا مثل Imagen Video وPhenaki. تقوم Phenaki، إحدى تجارب Google الأكثر إثارة للاهتمام في مجال تحويل النص إلى فيديو، بتحويل المطالبات الطويلة والمفصلة إلى “أفلام” تزيد مدتها عن دقيقتين – مع التحذير من أن المقاطع ذات دقة منخفضة ومعدل إطارات منخفض ومتماسكة إلى حد ما.

في ضوء التقارير الأخيرة التي تشير إلى أن ثورة الذكاء الاصطناعي التوليدي فاجأت الرئيس التنفيذي لشركة جوجل، ساندر بيتشاي، وأن الشركة لا تزال تكافح من أجل مواكبة المنافسين، فليس من المستغرب أن يبدو منتج مثل الصور الحية وكأنه منتج فاشل أيضًا. لكنها مع ذلك مخيبة للآمال. لا يسعني إلا أن أشعر بأن هناك – أو كان هناك – منتج أكثر إثارة للإعجاب كامنًا في أعمال Google المزعجة.

يتم تدريب نماذج مثل Imagen على عدد هائل من الأمثلة التي يتم الحصول عليها عادةً من المواقع العامة ومجموعات البيانات الموجودة على الويب. يرى العديد من موردي الذكاء الاصطناعي الإبداعي أن بيانات التدريب هي ميزة تنافسية، وبالتالي يحتفظون بها والمعلومات المتعلقة بها بالقرب من الصندوق. لكن تفاصيل بيانات التدريب تشكل أيضًا مصدرًا محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية، وهو ما يشكل عائقًا آخر للكشف عن الكثير.

سألت، كما أفعل دائمًا حول الإعلانات المتعلقة بنماذج الذكاء الاصطناعي التوليدية، عن البيانات التي تم استخدامها لتدريب Imagen 2 المحدث، وما إذا كان منشئو المحتوى الذين قد تكون أعمالهم قد تم اجتياحها في عملية التدريب النموذجية سيكونون قادرين على إلغاء الاشتراك في وقت ما في المستقبل.

أخبرتني جوجل فقط أن نماذجها يتم تدريبها “في المقام الأول” على بيانات الويب العامة، المستمدة من “منشورات المدونات، ونصوص الوسائط، ومنتديات المحادثة العامة”. ما هي المدونات والنصوص والمنتديات؟ إنه تخمين أي شخص.

وأشار متحدث باسم Google إلى ضوابط ناشري الويب في Google والتي تسمح لمشرفي المواقع بمنع الشركة من نسخ البيانات، بما في ذلك الصور والأعمال الفنية، من مواقعهم على الويب. لكن جوجل لن تلتزم بإطلاق أداة إلغاء الاشتراك، أو بدلاً من ذلك، تعويض المبدعين عن مساهماتهم (غير المعروفة) – وهي خطوة اتخذها العديد من منافسيها، بما في ذلك OpenAI وStability AI وAdobe.

نقطة أخرى جديرة بالذكر: لا يتم تغطية الصور النصية المباشرة من خلال سياسة تعويض الذكاء الاصطناعي التوليدية من Google، والتي تحمي عملاء Vertex AI من مطالبات حقوق الطبع والنشر المتعلقة باستخدام Google لبيانات التدريب ومخرجات نماذج الذكاء الاصطناعي التوليدية الخاصة بها. وذلك لأن الصور النصية المباشرة تكون قيد المعاينة من الناحية الفنية؛ تغطي السياسة فقط منتجات الذكاء الاصطناعي التوليدية في التوفر العام (GA).

القلس، أو حيث يقوم النموذج التوليدي بإخراج نسخة طبق الأصل من مثال (على سبيل المثال، صورة) تم تدريبه عليه، هو بحق مصدر قلق للعملاء من الشركات. أظهرت الدراسات غير الرسمية والأكاديمية على حد سواء أن الجيل الأول من Imagen، وهو سلف Imagen 2، لم يكن محصنًا ضد هذا، حيث كان ينشر صورًا يمكن التعرف عليها لأشخاص، وأعمال الفنانين المحمية بحقوق الطبع والنشر والمزيد عندما يُطلب منه ذلك بطرق معينة.

باستثناء الخلافات أو المشكلات الفنية أو بعض الانتكاسات الرئيسية الأخرى غير المتوقعة، ستدخل الصور النصية إلى الحياة في GA في مكان ما أسفل الخط. ولكن مع الصور الحية كما هي موجودة اليوم، فإن Google تقول بشكل أساسي: استخدمها على مسؤوليتك الخاصة.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى