Google Veo، وهو تحول جدي في مجال الفيديو المولد بالذكاء الاصطناعي، يظهر لأول مرة في Google I/O 2024

تسعى Google إلى الحصول على Sora من OpenAI باستخدام Veo، وهو نموذج ذكاء اصطناعي يمكنه إنشاء مقاطع فيديو بدقة 1080 بكسل مدتها دقيقة تقريبًا في ضوء مطالبة نصية.

تم الكشف عنه يوم الثلاثاء في مؤتمر مطوري Google I/O 2024، ويمكن لـ Veo التقاط أنماط مرئية وسينمائية مختلفة، بما في ذلك لقطات المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات وتعديلات على اللقطات التي تم إنشاؤها بالفعل.

وقال ديميس هاسابيس، رئيس مختبر البحث والتطوير للذكاء الاصطناعي في Google DeepMind، للصحفيين خلال مائدة مستديرة افتراضية: “نحن نستكشف ميزات مثل القصة المصورة وتوليد مشاهد أطول لنرى ما يمكن أن يفعله Veo”. “لقد حققنا تقدمًا مذهلاً في مجال الفيديو.”

اعتمادات الصورة:

يعتمد Veo على العمل التجاري الأولي لشركة Google في مجال إنشاء الفيديو، والذي تمت معاينته في أبريل، والذي استفاد من عائلة Imagen 2 الخاصة بالشركة من نماذج توليد الصور لإنشاء مقاطع فيديو متكررة.

ولكن على عكس الأداة المستندة إلى Imagen 2، والتي يمكنها فقط إنشاء مقاطع فيديو منخفضة الدقة مدتها بضع ثوانٍ، يبدو أن Veo قادرة على المنافسة مع نماذج إنشاء الفيديو الرائدة اليوم – ليس Sora فحسب، بل نماذج من شركات ناشئة مثل Pika وRunway وIrreverent. مختبرات.

في مؤتمر صحفي، أظهر لي دوجلاس إيك، الذي يقود الجهود البحثية في DeepMind في وسائل الإعلام التوليدية، بعض الأمثلة المنتقاة لما يمكن أن يفعله Veo. وقال إن إحدى هذه الصور على وجه الخصوص – وهي صورة جوية لشاطئ مزدحم – أظهرت نقاط قوة Veo مقارنة بنماذج الفيديو المنافسة.

وقال: “لقد أثبتت التفاصيل الخاصة بجميع السباحين على الشاطئ أنها صعبة بالنسبة لنماذج توليد الصور والفيديو – التي تحتوي على العديد من الشخصيات المتحركة”. “إذا نظرت عن كثب، فإن الأمواج تبدو جيدة جدًا. وأعتقد أن معنى الكلمة السريعة “الصاخبة” يتجسد في جميع الناس – واجهة الشاطئ النابضة بالحياة المليئة بحمامات الشمس.

تم تدريب Veo على الكثير من اللقطات. هذه هي الطريقة بشكل عام مع نماذج الذكاء الاصطناعي التوليدية: مثال تلو الآخر لبعض أشكال البيانات، تلتقط النماذج أنماطًا في البيانات تمكنها من إنشاء بيانات جديدة – مقاطع الفيديو، في حالة Veo.

من أين أتت لقطات تدريب Veo؟ لم يقل إيك ذلك على وجه التحديد، لكنه اعترف بأن بعضًا منها ربما تم الحصول عليه من موقع YouTube الخاص بشركة Google.

وقال: “قد يتم تدريب نماذج جوجل على بعض محتويات يوتيوب، ولكن دائمًا وفقًا لاتفاقيتنا مع منشئي المحتوى على يوتيوب”.

قد يكون الجزء “الاتفاق”. من الناحية الفنية كن صادق. ولكن من الصحيح أيضًا أنه، نظرًا لتأثيرات شبكة YouTube، ليس لدى منشئي المحتوى خيار كبير سوى الالتزام بقواعد Google إذا كانوا يأملون في الوصول إلى أكبر عدد ممكن من الجمهور.

كشفت تقارير صحيفة نيويورك تايمز في أبريل أن جوجل قامت بتوسيع شروط الخدمة الخاصة بها العام الماضي جزئيًا للسماح للشركة بالاستفادة من المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وبموجب شروط الخدمة القديمة، لم يكن من الواضح ما إذا كان بإمكان جوجل استخدام بيانات يوتيوب لإنشاء منتجات خارج منصة الفيديو. لكن الأمر ليس كذلك في ظل الشروط الجديدة، التي تخفف القيود إلى حد كبير.

إن Google ليست شركة التكنولوجيا العملاقة الوحيدة التي تستفيد من كميات هائلة من بيانات المستخدم لتدريب النماذج الداخلية. (انظر: ميتا.) ولكن من المؤكد أن ما سيخيب أمل بعض المبدعين هو إصرار إيك على أن تضع Google “المعيار الذهبي” هنا، من حيث الأخلاق.

“الحل لهذا [training data] وقال إن التحدي يكمن في جمع جميع أصحاب المصلحة معًا لمعرفة الخطوات التالية. وإلى أن نتخذ هذه الخطوات مع أصحاب المصلحة – نحن نتحدث عن صناعة السينما، وصناعة الموسيقى، والفنانين أنفسهم – فلن نتحرك بسرعة”.

ومع ذلك، فقد أتاحت Google بالفعل تطبيق Veo لمجموعة مختارة من المبدعين، بما في ذلك دونالد جلوفر (AKA Childish Gambino) ووكالته الإبداعية Gilga. (مثل OpenAI مع Sora، قامت Google بوضع Veo كأداة للمبدعين.)