تقنية

Google Veo، وهو تحول جدي في مجال الفيديو المولد بالذكاء الاصطناعي، يظهر لأول مرة في Google I/O 2024


تسعى Google إلى الحصول على Sora من OpenAI باستخدام Veo، وهو نموذج ذكاء اصطناعي يمكنه إنشاء مقاطع فيديو بدقة 1080 بكسل مدتها دقيقة تقريبًا في ضوء مطالبة نصية.

تم الكشف عنه يوم الثلاثاء في مؤتمر مطوري Google I/O 2024، ويمكن لـ Veo التقاط أنماط مرئية وسينمائية مختلفة، بما في ذلك لقطات المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات وتعديلات على اللقطات التي تم إنشاؤها بالفعل.

وقال ديميس هاسابيس، رئيس مختبر البحث والتطوير للذكاء الاصطناعي في Google DeepMind، للصحفيين خلال مائدة مستديرة افتراضية: “نحن نستكشف ميزات مثل القصة المصورة وتوليد مشاهد أطول لنرى ما يمكن أن يفعله Veo”. “لقد حققنا تقدمًا مذهلاً في مجال الفيديو.”

اعتمادات الصورة:

يعتمد Veo على العمل التجاري الأولي لشركة Google في مجال إنشاء الفيديو، والذي تمت معاينته في أبريل، والذي استفاد من عائلة Imagen 2 الخاصة بالشركة من نماذج توليد الصور لإنشاء مقاطع فيديو متكررة.

ولكن على عكس الأداة المستندة إلى Imagen 2، والتي يمكنها فقط إنشاء مقاطع فيديو منخفضة الدقة مدتها بضع ثوانٍ، يبدو أن Veo قادرة على المنافسة مع نماذج إنشاء الفيديو الرائدة اليوم – ليس Sora فحسب، بل نماذج من شركات ناشئة مثل Pika وRunway وIrreverent. مختبرات.

في مؤتمر صحفي، أظهر لي دوجلاس إيك، الذي يقود الجهود البحثية في DeepMind في وسائل الإعلام التوليدية، بعض الأمثلة المنتقاة لما يمكن أن يفعله Veo. وقال إن إحدى هذه الصور على وجه الخصوص – وهي صورة جوية لشاطئ مزدحم – أظهرت نقاط قوة Veo مقارنة بنماذج الفيديو المنافسة.

وقال: “لقد أثبتت التفاصيل الخاصة بجميع السباحين على الشاطئ أنها صعبة بالنسبة لنماذج توليد الصور والفيديو – التي تحتوي على العديد من الشخصيات المتحركة”. “إذا نظرت عن كثب، فإن الأمواج تبدو جيدة جدًا. وأعتقد أن معنى الكلمة السريعة “الصاخبة” يتجسد في جميع الناس – واجهة الشاطئ النابضة بالحياة المليئة بحمامات الشمس.

فيو
اعتمادات الصورة: جوجل

تم تدريب Veo على الكثير من اللقطات. هذه هي الطريقة بشكل عام مع نماذج الذكاء الاصطناعي التوليدية: مثال تلو الآخر لبعض أشكال البيانات، تلتقط النماذج أنماطًا في البيانات تمكنها من إنشاء بيانات جديدة – مقاطع الفيديو، في حالة Veo.

من أين أتت لقطات تدريب Veo؟ لم يقل إيك ذلك على وجه التحديد، لكنه اعترف بأن بعضًا منها ربما تم الحصول عليه من موقع YouTube الخاص بشركة Google.

وقال: “قد يتم تدريب نماذج جوجل على بعض محتويات يوتيوب، ولكن دائمًا وفقًا لاتفاقيتنا مع منشئي المحتوى على يوتيوب”.

قد يكون الجزء “الاتفاق”. من الناحية الفنية كن صادق. ولكن من الصحيح أيضًا أنه، نظرًا لتأثيرات شبكة YouTube، ليس لدى منشئي المحتوى خيار كبير سوى الالتزام بقواعد Google إذا كانوا يأملون في الوصول إلى أكبر عدد ممكن من الجمهور.

فيو
اعتمادات الصورة: جوجل

كشفت تقارير صحيفة نيويورك تايمز في أبريل أن جوجل قامت بتوسيع شروط الخدمة الخاصة بها العام الماضي جزئيًا للسماح للشركة بالاستفادة من المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وبموجب شروط الخدمة القديمة، لم يكن من الواضح ما إذا كان بإمكان جوجل استخدام بيانات يوتيوب لإنشاء منتجات خارج منصة الفيديو. لكن الأمر ليس كذلك في ظل الشروط الجديدة، التي تخفف القيود إلى حد كبير.

إن Google ليست شركة التكنولوجيا العملاقة الوحيدة التي تستفيد من كميات هائلة من بيانات المستخدم لتدريب النماذج الداخلية. (انظر: ميتا.) ولكن من المؤكد أن ما سيخيب أمل بعض المبدعين هو إصرار إيك على أن تضع Google “المعيار الذهبي” هنا، من حيث الأخلاق.

“الحل لهذا [training data] وقال إن التحدي يكمن في جمع جميع أصحاب المصلحة معًا لمعرفة الخطوات التالية. وإلى أن نتخذ هذه الخطوات مع أصحاب المصلحة – نحن نتحدث عن صناعة السينما، وصناعة الموسيقى، والفنانين أنفسهم – فلن نتحرك بسرعة”.

ومع ذلك، فقد أتاحت Google بالفعل تطبيق Veo لمجموعة مختارة من المبدعين، بما في ذلك دونالد جلوفر (AKA Childish Gambino) ووكالته الإبداعية Gilga. (مثل OpenAI مع Sora، قامت Google بوضع Veo كأداة للمبدعين.)

وأشار إيك إلى أن جوجل توفر أدوات للسماح لمشرفي المواقع بمنع روبوتات الشركة من استخراج بيانات التدريب من مواقعهم على الويب. لكن الإعدادات لا تنطبق على YouTube. ولا تقدم جوجل، على عكس بعض منافسيها، آلية للسماح للمبدعين بإزالة أعمالهم من مجموعات بيانات التدريب الخاصة بها بعد عملية الاستخراج.

سألت Eck أيضًا عن القلس، والذي يشير في سياق الذكاء الاصطناعي التوليدي إلى الوقت الذي يقوم فيه النموذج بإنشاء نسخة طبق الأصل من مثال تدريبي. تم العثور على أدوات مثل Midjourney يمكنها إخراج لقطات ثابتة من أفلام بما في ذلك “Dune” و”Avengers” و”Star Wars”، مما يوفر طابعًا زمنيًا – مما يضع حقل ألغام قانونيًا محتملاً للمستخدمين. يقال إن OpenAI ذهبت إلى حد حظر العلامات التجارية وأسماء المبدعين في مطالبات Sora لمحاولة تجنب تحديات حقوق الطبع والنشر.

إذًا ما هي الخطوات التي اتخذتها Google للتخفيف من مخاطر القلس باستخدام Veo؟ لم يكن لدى Eck إجابة، ناهيك عن قوله إن فريق البحث قام بتطبيق مرشحات للمحتوى العنيف والصريح (لذلك لا يوجد محتوى إباحي) ويستخدم تقنية DeepMind’s SynthID لتمييز مقاطع الفيديو من Veo على أنها تم إنشاؤها بواسطة الذكاء الاصطناعي.

فيو
اعتمادات الصورة: جوجل

“سنعمل على توضيح نقطة – بالنسبة لشيء كبير مثل نموذج Veo – لإطلاقه تدريجيًا لمجموعة صغيرة من أصحاب المصلحة الذين يمكننا العمل معهم عن كثب لفهم الآثار المترتبة على النموذج، وبعد ذلك فقط ننشره إلى مجموعة أكبر”، قال.

كان لدى Eck المزيد لمشاركته بشأن التفاصيل الفنية للنموذج.

وصف إيك Veo بأنه “يمكن التحكم فيه تمامًا” بمعنى أن النموذج يفهم حركات الكاميرا والمؤثرات البصرية بشكل جيد من خلال المطالبات (فكر في واصفات مثل “pan” و”zoom” و”explosion”). ومثل Sora، يتمتع Veo ببعض المعرفة بالفيزياء – أشياء مثل ديناميكيات السوائل والجاذبية – والتي تساهم في واقعية مقاطع الفيديو التي ينشئها.

يدعم Veo أيضًا التحرير المقنع لإجراء تغييرات على مناطق محددة من الفيديو ويمكنه إنشاء مقاطع فيديو من صورة ثابتة، وهي نماذج توليدية مثل Stable Video الخاص بـ Stability AI. ولعل الأمر الأكثر إثارة للاهتمام، هو أنه بالنظر إلى سلسلة من المطالبات التي تحكي معًا قصة، يمكن لـ Veo إنشاء مقاطع فيديو أطول – مقاطع فيديو يتجاوز طولها الدقيقة.

فيو
اعتمادات الصورة: جوجل

هذا لا يعني أن Veo مثالي. بما يعكس القيود المفروضة على الذكاء الاصطناعي التوليدي اليوم، تختفي الكائنات الموجودة في مقاطع فيديو Veo وتعاود الظهور دون الكثير من الشرح أو الاتساق. وكثيرًا ما تخطئ شركة Veo في فيزيائيتها – على سبيل المثال، سترجع السيارات لسبب غير مفهوم، وبشكل مستحيل إلى الخلف مقابل عشرة سنتات.

لهذا السبب ستبقى Veo خلف قائمة الانتظار في Google Labs، بوابة الشركة للتكنولوجيا التجريبية، في المستقبل المنظور، داخل واجهة أمامية جديدة لإنشاء وتحرير مقاطع فيديو الذكاء الاصطناعي تسمى VideoFX. ومع تحسنه، تهدف Google إلى جلب بعض إمكانيات النموذج إلى YouTube Shorts والمنتجات الأخرى.

وقال إيك: “هذا العمل قيد التقدم إلى حد كبير، وهو تجريبي للغاية… هناك الكثير مما لم يتم إنجازه بعد مما تم إنجازه هنا”. “لكنني أعتقد أن هذا نوع من المواد الخام للقيام بشيء عظيم حقًا في مجال صناعة الأفلام.”

اقرأ المزيد حول Google I/O 2024 على TechCrunch

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى