شاهده وابكي (أو ابتسم): تتميز الصور الرمزية لفيديو الذكاء الاصطناعي الخاصة بـ Synthesia الآن بالعواطف

لقد استحوذ الذكاء الاصطناعي التوليدي على خيال الجمهور من خلال قفزة في إنشاء نصوص وصور متقنة وحقيقية بشكل معقول من خلال المطالبات اللفظية. لكن المشكلة – وغالبًا ما تكون هناك مشكلة – هي أن النتائج غالبًا ما تكون بعيدة عن الكمال عندما تنظر عن كثب.

يشير الناس إلى أصابع غريبة، وتنزلق بلاطات الأرضية، والمسائل الرياضية هي على وجه التحديد: إنها إشكالية، وفي بعض الأحيان لا تضيف شيئًا.

الآن، تقوم شركة Synthesia – إحدى الشركات الناشئة الطموحة العاملة في مجال الذكاء الاصطناعي والتي تعمل في مجال الفيديو، وخاصة الصور الرمزية المخصصة المصممة لمستخدمي الأعمال لإنشاء محتوى فيديو ترويجي وتدريبي وغيره من محتويات الفيديو الخاصة بالمؤسسات – بإصدار تحديث تأمل أن يساعدها في التغلب على بعض التحديات في عملها تخصص محدد. يتميز أحدث إصدار منه بصور رمزية – تم إنشاؤها بناءً على أشخاص حقيقيين تم التقاطهم في الاستوديو الخاص بهم – والتي توفر المزيد من المشاعر، وتتبعًا أفضل للشفاه وما تقول إنها حركات طبيعية وبشرية أكثر تعبيرًا عندما يتم تغذيتها بالنص لإنشاء مقاطع فيديو.

يأتي الإصدار في أعقاب بعض التقدم المثير للإعجاب الذي حققته الشركة حتى الآن. على عكس مشغلي الذكاء الاصطناعي التوليدي الآخرين مثل OpenAI، التي قامت ببناء استراتيجية ذات شقين – رفع الوعي العام الهائل باستخدام أدوات المستهلك مثل ChatGPT مع بناء عرض B2B أيضًا، مع واجهات برمجة التطبيقات الخاصة به التي يستخدمها المطورون المستقلون وكذلك المؤسسات العملاقة – تميل Synthesia في النهج الذي تتبعه بعض الشركات الناشئة البارزة الأخرى في مجال الذكاء الاصطناعي.

على غرار الطريقة التي يركز بها Perplexity على تحقيق البحث التوليدي في مجال الذكاء الاصطناعي، تركز Synthesia على تحديد كيفية إنشاء أكثر الصور الرمزية للفيديو التوليدية تشابهًا مع الإنسان. وبشكل أكثر تحديدًا، فهي تتطلع إلى القيام بذلك فقط لسوق الأعمال وحالات الاستخدام مثل التدريب والتسويق.

وقد ساعد هذا التركيز شركة Synthesia على التميز في ما أصبح سوقًا مزدحمًا للغاية في مجال الذكاء الاصطناعي والذي يتعرض لخطر التحول إلى سلعة عندما يستقر الضجيج في مخاوف طويلة المدى مثل ARR واقتصاديات الوحدة والتكاليف التشغيلية المرتبطة بتطبيقات الذكاء الاصطناعي.

تصف Synthesia صورها الرمزية التعبيرية الجديدة، الإصدار الذي سيتم إصداره اليوم، بأنها الأولى من نوعها: “أول صور رمزية في العالم تم إنشاؤها بالكامل باستخدام الذكاء الاصطناعي.” تقول شركة Synthesia، المبنية على نماذج كبيرة مدربة مسبقًا، إن اختراقها كان في كيفية دمجها لتحقيق توزيعات متعددة الوسائط تحاكي بشكل أوثق الطريقة التي يتحدث بها البشر الفعليون.

يتم إنشاء هذه الصور بشكل سريع، كما تقول Synthesia، والتي من المفترض أن تكون أقرب إلى التجربة التي نمر بها عندما نتحدث أو نتفاعل في الحياة، وتتناقض مع كيفية عمل الكثير من أدوات فيديو الذكاء الاصطناعي التي تعتمد على الصور الرمزية اليوم: عادةً ما تكون هذه هي في الواقع العديد من مقاطع الفيديو التي يتم تجميعها معًا بسرعة لإنشاء استجابات للوجه تتوافق، بشكل أو بآخر، مع النصوص التي يتم إدخالها فيها. الهدف هو الظهور بشكل أقل آليًا وأكثر واقعية.

إصدار سابق:

نسخة جديدة:

كما ترون في المثالين هنا، أحدهما من الإصدار الأقدم من Synthesia والآخر الذي تم إصداره اليوم، لا تزال هناك طرق للمضي قدمًا في التطوير، وهو ما يعترف به أيضًا الرئيس التنفيذي فيكتور ريباربيلي نفسه.

“بالطبع لم نصل إلى مستوى 100% بعد، ولكن سيكون قريبًا جدًا، بحلول نهاية العام. وقال لـ TechCrunch: “سيكون الأمر مذهلاً للغاية”. “أعتقد أنه يمكنك أيضًا أن ترى أن الجزء المتعلق بالذكاء الاصطناعي في هذا الأمر دقيق للغاية. مع البشر، هناك الكثير من المعلومات في أدق التفاصيل، وأصغر حركات عضلات الوجه لدينا. أعتقد أنه لا يمكننا أبدًا أن نجلس ونقول: “نعم، أنت تبتسم بهذه الطريقة عندما تكون سعيدًا ولكن هذا مزيف، أليس كذلك؟” وهذا أمر معقد للغاية يصعب وصفه بالنسبة للبشر، لكنه يمكن أن يكون كذلك [captured in] شبكات التعلم العميق. إنهم في الواقع قادرون على اكتشاف النمط ومن ثم تكراره بطريقة يمكن التنبؤ بها. وأضاف أن الشيء التالي الذي تعمل عليه هو الأيدي.

وأضاف: “الأيدي شديدة الصلابة”.

يساعد التركيز على B2B أيضًا شركة Synthesia على تثبيت رسائلها ومنتجاتها بشكل أكبر على الاستخدام “الآمن” للذكاء الاصطناعي. وهذا أمر ضروري خاصة مع القلق الكبير اليوم بشأن التزييف العميق واستخدام الذكاء الاصطناعي لأغراض ضارة مثل التضليل والاحتيال. ومع ذلك، لم تتمكن Synthesia من تجنب الجدل على هذه الجبهة تمامًا. وكما أشرنا من قبل، فقد تم إساءة استخدام تقنية Synthesia سابقًا لإنتاج دعاية في فنزويلا وتقارير إخبارية كاذبة تروج لها حسابات وسائل التواصل الاجتماعي المؤيدة للصين.

لاحظت الشركة اليوم أنها اتخذت المزيد من الخطوات لمحاولة تأمين هذا الاستخدام. وفي الشهر الماضي، قامت بتحديث سياساتها، كما قالت، “لتقييد نوع المحتوى الذي يمكن للأشخاص تقديمه، والاستثمار في الكشف المبكر عن الجهات الفاعلة سيئة النية، وزيادة الفرق التي تعمل على سلامة الذكاء الاصطناعي، وتجربة تقنيات بيانات اعتماد المحتوى مثل C2PA”. “.

وعلى الرغم من هذه التحديات، واصلت الشركة نموها.

بلغت قيمة Synthesia آخر مرة مليار دولار عندما جمعت 90 مليون دولار. والجدير بالذكر أن جمع التبرعات تم قبل عام تقريبًا، في يونيو 2023.

قال ريباربيلي (في الصورة أعلاه، على اليمين، مع المؤسسين المشاركين الآخرين ستيفن تجيريلد، والبروفيسور لورديس أغابيتو، والبروفيسور ماتياس نيسنر) في مقابلة أجريت معه في وقت سابق من هذا الشهر إنه لا توجد حاليًا خطط لجمع المزيد، على الرغم من أن هذا لا يجيب حقًا على سؤال ما إذا كان يتم التعامل مع Synthesia بشكل استباقي. (ملاحظة: نحن متحمسون جدًا لأن يكون الإنسان الحقيقي ريباربيلي يتحدث في حدث خاص بنا في لندن في شهر مايو، حيث سأسأل بالتأكيد عن هذا مرة أخرى. يرجى الحضور إذا كنت في المدينة.)

ما نعرفه على وجه اليقين هو أن إنشاء وتشغيل الذكاء الاصطناعي يكلف الكثير من المال، وأن شركة Synthesia تقوم ببناء وتشغيل الكثير.

وقالت الشركة إنه قبل إطلاق نسخة اليوم، قام حوالي 200 ألف شخص بإنشاء أكثر من 18 مليون عرض فيديو عبر حوالي 130 لغة باستخدام 225 صورة رمزية قديمة لشركة Synthesia. (لا يوضح عدد المستخدمين الموجودين في مستوياتها المدفوعة، ولكن هناك الكثير من العملاء ذوي الأسماء الكبيرة بما في ذلك Zoom، وBBC، وDuPont وغيرها، والشركات تدفع ثمنها). وتأمل الشركة الناشئة، بالطبع، هو أن ومع طرح الإصدار الجديد اليوم، سترتفع هذه الأرقام أكثر.