يقوم الذكاء الاصطناعي الجديد من DeepMind بإنشاء مقاطع صوتية ومربعات حوار لمقاطع الفيديو

يقول DeepMind، مختبر أبحاث الذكاء الاصطناعي التابع لشركة Google، إنه يقوم بتطوير تقنية الذكاء الاصطناعي لإنشاء مقاطع صوتية لمقاطع الفيديو.

وفي منشور على مدونتها الرسمية، تقول شركة DeepMind إنها ترى التكنولوجيا V2A (اختصار لـ “فيديو إلى صوت”)، باعتبارها جزءًا أساسيًا من أحجية الوسائط التي يولدها الذكاء الاصطناعي. في حين أن الكثير من المؤسسات، بما في ذلك DeepMind، قامت بتطوير نماذج الذكاء الاصطناعي لإنشاء الفيديو، إلا أن هذه النماذج لا يمكنها إنشاء مؤثرات صوتية للمزامنة مع مقاطع الفيديو التي تنشئها.

كتب ديب مايند: “تتقدم نماذج توليد الفيديو بوتيرة مذهلة، لكن العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة”. “تقنية V2A [could] أصبحت طريقة واعدة لإضفاء الحيوية على الأفلام التي تم إنتاجها.”

تأخذ تقنية DeepMind’s V2A وصفًا للموسيقى التصويرية (على سبيل المثال، “قنديل البحر ينبض تحت الماء، والحياة البحرية، والمحيط”) مقترنة بمقطع فيديو لإنشاء موسيقى ومؤثرات صوتية وحتى حوار يتطابق مع شخصيات ونبرة الفيديو، مع وضع علامة مائية بواسطة التزييف العميق لـ DeepMind. -مكافحة تقنية SynthID. يقول ديب مايند إن نموذج الذكاء الاصطناعي الذي يعمل على تشغيل V2A – وهو نموذج نشر – تم تدريبه على مجموعة من الأصوات ونصوص الحوار بالإضافة إلى مقاطع الفيديو.

“من خلال التدريب على الفيديو والصوت والتعليقات التوضيحية الإضافية، تتعلم تقنيتنا ربط أحداث صوتية محددة بمشاهد مرئية مختلفة، مع الاستجابة للمعلومات المقدمة في التعليقات التوضيحية أو النصوص.”

أمي هي الكلمة حول ما إذا كانت أي من بيانات التدريب محمية بحقوق الطبع والنشر – وما إذا كان منشئو البيانات على علم بعمل DeepMind. لقد تواصلنا مع DeepMind وسنقوم بتحديث هذا المنشور إذا سمعنا ردًا.

أدوات توليد الصوت التي تعمل بالذكاء الاصطناعي ليست جديدة. أصدرت شركة Startup Stability AI واحدة منها في الأسبوع الماضي فقط، وأطلقت ElevenLabs واحدًا في مايو. ولا توجد نماذج لإنشاء مؤثرات صوتية للفيديو. يمكن لمشروع Microsoft إنشاء مقاطع فيديو للحديث والغناء من صورة ثابتة، وقد قامت منصات مثل Pika وGenreX بتدريب نماذج لالتقاط مقطع فيديو وتقديم أفضل تخمين بشأن الموسيقى أو التأثيرات المناسبة في مشهد معين.

لكن DeepMind تدعي أن تقنية V2A الخاصة بها فريدة من نوعها من حيث أنها تستطيع فهم وحدات البكسل الأولية من مقطع فيديو ومزامنة الأصوات الناتجة مع الفيديو تلقائيًا، اختياريًا بدون وصف.

تقنية V2A ليست مثالية، وتقر شركة DeepMind بذلك. نظرًا لأن النموذج الأساسي لم يتم تدريبه على الكثير من مقاطع الفيديو التي تحتوي على عناصر أو تشويهات، فإنه لا ينشئ صوتًا عالي الجودة بشكل خاص لهذه المقاطع. وبشكل عام، الصوت الناتج ليس كذلك ممتاز مقنع؛ ووصفتها زميلتي ناتاشا لوماس بأنها “مجموعة متنوعة من الأصوات النمطية”، ولا أستطيع أن أختلف معها.

لهذه الأسباب، ومن أجل منع سوء الاستخدام، تقول شركة DeepMind إنها لن تطلق هذه التقنية للعامة في أي وقت قريب، هذا إن كانت ستطلقها على الإطلاق.

“للتأكد من أن تقنية V2A الخاصة بنا يمكن أن يكون لها تأثير إيجابي على المجتمع الإبداعي، فإننا نجمع وجهات نظر ورؤى متنوعة من كبار المبدعين وصانعي الأفلام، ونستخدم هذه التعليقات القيمة لإرشاد بحثنا وتطويرنا المستمر،” كتب DeepMind. “قبل أن نفكر في فتح الوصول إليها أمام الجمهور على نطاق أوسع، ستخضع تقنية V2A لدينا لتقييمات واختبارات صارمة للسلامة.”

تقدم DeepMind تقنية V2A الخاصة بها كأداة مفيدة بشكل خاص للقطات الأرشيفية والتاريخية. ولكن، كما كتبت في مقال هذا الصباح، يهدد الذكاء الاصطناعي التوليدي على هذا المنوال أيضًا بقلب صناعة السينما والتلفزيون رأسًا على عقب. سيتطلب الأمر بعض إجراءات حماية العمال القوية على محمل الجد لضمان أن أدوات الوسائط التوليدية لا تقضي على الوظائف – أو، كما قد يكون الحال، صناعات بأكملها.