تقنية

قامت شركة Tavus الناشئة للفيديو بالذكاء الاصطناعي بجمع 18 مليون دولار لاستنساخ الوجه والصوت في أي تطبيق


تافوس، أربع سنوات أكدت شركة ناشئة تعمل بالذكاء الاصطناعي تساعد الشركات على إنشاء “نسخ طبق الأصل” رقمية للأفراد لحملات الفيديو الشخصية الآلية، على تمويل جديد بقيمة 18 مليون دولار وكشفت أنها تفتح منصتها لأطراف ثالثة لدمج تقنيتها في برامجها الخاصة.

ظهرت تقارير في أغسطس الماضي تفيد بأن تافوس قد جمع “حوالي 18 مليون دولار”، لكن التفاصيل كانت قليلة. أكدت الشركة الآن لـ TechCrunch أنها جمعت بالفعل 18 مليون دولار في جولة من السلسلة A بقيادة Scale Venture Partners – وهو رأس مال مغامر في مرحلة مبكرة دعم سابقًا أمثال Box وHubSpot وDocuSign. ومن بين المستثمرين البارزين الآخرين شركة Sequoia، التي قادت جولة Tavus التأسيسية بقيمة 6.1 مليون دولار العام الماضي، والتي شاركت جنبًا إلى جنب مع Y Combinator (YC) وHubSpot.

الفيديو يحتل مركز الصدارة

وأفضل مثال على حركة الذكاء الاصطناعي التوليدي هو محركات البحث القائمة على النصوص مثل ChatGPT ونماذج تحويل النص إلى صورة مثل DALL-E، والتي تعمل شركة OpenAI على دمجها في منصة واحدة شاملة. ولكن إذا مرت الأشهر القليلة الماضية بأي شيء، فقد يكون الذكاء الاصطناعي التوليدي على أعتاب ثورة ثانوية أخرى، مع احتلال الفيديو مركز الصدارة.

أطلقت شركة OpenAI مؤخرًا نموذج Sora، وهو نموذج لتحويل النص إلى فيديو يمكنه تحويل الصناعة الإبداعية كما نعرفها. لكنها ليست اللاعب الوحيد في المدينة، حيث يعمل عمالقة التكنولوجيا مثل Google على أدوات مماثلة لعدة سنوات، ناهيك عن عدد كبير من الشركات الناشئة التي جمعت أجزاء كبيرة من التغيير في رأس المال الاستثماري خلال العام الماضي لتحقيقات مختلفة حول كيفية إنتاج الذكاء الاصطناعي قد تتقاطع مع الفيديو.

ومن جانبها، تعمل شركة تافوس مع عملائها لإنشاء نسخ طبق الأصل من الأفراد من خلال استنساخ الصوت والوجه. تكمن الفكرة في أن فرق المبيعات والتسويق يمكنها استخدام Tavus لإرسال مقاطع فيديو مخصصة إلى العملاء المحتملين على نطاق واسع، أو ربما يمكن لفريق المنتج إنشاء مقاطع فيديو تفصيلية فردية لتأهيل عملاء جدد – كل ذلك عبر مطالبات نصية بسيطة تستفيد من النسخة المتماثلة الرقمية التي تم إنشاؤها مسبقًا. ومن خلال دمج Tavus مع أنظمة الطرف الثالث مثل Salesforce أو Mailchimp، يمكن للشركات أتمتة الكثير من هذا – على سبيل المثال، يمكن إرسال مقطع فيديو عبر البريد الإلكتروني على الفور إلى العميل الذي يكمل نموذجًا عبر الإنترنت يطلب فيه مزيدًا من المعلومات حول منتج ما، مع مخاطبة مندوب المبيعات. العميل المحتمل بالاسم وشرح الخطوات التالية.

تمكنت Tavus من تأمين بعض العملاء ذوي الأسماء الكبيرة إلى حد ما في حياتها القصيرة حتى الآن، بما في ذلك Salesforce وMeta الشركة الأم لفيسبوك، والتي قال المؤسس المشارك والرئيس التنفيذي حسان رضا إنهم يستخدمون المنصة للبيع لعملائهم من B2B من خلال مقاطع فيديو تجريبية مخصصة.

تافوس كمنصة

حتى الآن، تم تقديم Tavus عبر تطبيق SaaS، والذي من خلاله يقوم العملاء بإنشاء قوالب فيديو خاصة بهم تعمل بالذكاء الاصطناعي. تتطلب عملية الإعداد فردًا، مثل الرئيس التنفيذي أو مسؤول المبيعات التنفيذي، لتسجيل فيديو مدته 15 دقيقة بناءً على نص قدمه تافوس.

استنساخ تافوس في العمل اعتمادات الصورة: طاووس

يتم استخدام ذلك بعد ذلك لتدريب الذكاء الاصطناعي، وبعد ذلك ينتقل المستخدم إلى محرر الويب ويحدد أجزاء الفيديو التي يرغب في تخصيصها من خلال تحديد المتغيرات – مثل الموقع أو الاسم التنفيذي أو الشركة أو المنتج. ومن خلال ربط Tavus بنظام إدارة علاقات العملاء الخاص بها، يمكن للشركات تعديل كل من هذه المتغيرات لتناسب شريحة معينة من العملاء، مثل أولئك الذين أعربوا عن اهتمامهم بمنتج معين.

تحرير المتغيرات

تحرير المتغيرات اعتمادات الصورة: طاووس

يمكن للشركات إنشاء المئات من هذه النسخ المتماثلة مع موظفين مختلفين معنيين بخلفيات مختلفة لمختلف الأسواق المستهدفة.

من خلال المحرر داخل التطبيق، من الممكن إنشاء أي عدد من النصوص البرمجية المختلفة لإرفاقها بكل حالة استخدام – دون الحاجة إلى إعادة تسجيل أي مقطع فيديو أصلي.

الصور الرمزية المختلفة لـ Tavus

الصور الرمزية المختلفة لـ Tavus اعتمادات الصورة: طاووس

على الرغم من أن منتج SaaS الأساسي هذا لن يختفي، إلا أن Tavus ترفع اليوم الغطاء عن نسخة جديدة مشحونة بالتوربو من تقنيتها جنبًا إلى جنب مع الدفعة الأولى من مجموعة واجهات برمجة التطبيقات للمطورين التي تسمح لأطراف ثالثة بدمج Tavus في تطبيقاتهم الخاصة.

استنساخ

أول وجه من منصة المطورين الجديدة لشركة Tavus هو “نسخة طبق الأصل من واجهة برمجة التطبيقات”، والتي تدور حول إنشاء نسخ رقمية “واقعية للصور” مليئة بتوليد النص إلى الفيديو. وبهذا، يمكن للشركة تكرار شخص ما (على سبيل المثال، رئيس قسم التسويق أو المدير التنفيذي) باستخدام نموذج خاص جديد أنشأه Tavus يطلق عليه اسم “Phoenix” والذي يعتمد على طريقة التعلم العميق التي تسمى مجال الإشعاع العصبي (NeRF). يمكن أن يؤدي ذلك إلى إنشاء بناء ثلاثي الأبعاد لشخص ما من صور ثنائية الأبعاد في بضع دقائق فقط

قال رازا لـ TechCrunch: “إنه يسمح لك بشكل أساسي بإنشاء مقاطع فيديو كاملة باستخدام دقيقتين فقط من بيانات التدريب، وهي قفزة كبيرة للأمام مقارنة بالطريقة التي كنا نقوم بها سابقًا بالتخصيص على نطاق واسع”. “والآن كل ما عليك فعله هو تسجيل دقيقتين من بيانات التدريب، وسوف يتم إنشاء نسخة طبق الأصل كاملة منك. وبمجرد حصولك على نسخة طبق الأصل، يمكنك إنشاء أي عدد تريده من مقاطع الفيديو – من نص واحد أو اثنين أو ألف نص.”

Tavus: محاكاة توضح كيف يرسم نموذج Phoenix NeRF وجه المستخدم لإنشاء نسخة طبق الأصل واقعية

محاكاة توضح كيفية رسم تافوس لوجه المستخدمين لإنشاء نسخة طبق الأصل واقعية اعتمادات الصورة: طاووس

يبني نموذج Tavus' Phoenix نموذجًا ثلاثي الأبعاد باستخدام إدخال فيديو ثنائي الأبعاد عبر مجالات الإشعاع العصبي (NeRF).

الإخراج: يقوم نموذج Tavus’ Phoenix ببناء نموذج ثلاثي الأبعاد باستخدام إدخال فيديو ثنائي الأبعاد عبر مجالات الإشعاع العصبي (NeRF) اعتمادات الصورة: طاووس

تعتمد النسخة المتماثلة الافتتاحية لواجهة برمجة التطبيقات (API) على الوظائف الكاملة لنموذج Phoenix، وتلتقط حركات وجه الفرد بما في ذلك الخدين والأنف والحواجب والشفاه.

وأوضح رضا: “إن تحريك وجهك بالكامل يدفع إلى الواقعية والطبيعية والجودة – فعندما تتحدث، يعبر وجهك عن مشاعر تتجاوز حركة شفتيك”. “إذا كنت تريد إنشاء مقطع فيديو كاملاً من نص – حيث تتحدث، يبدو طبيعيًا وذو جودة عالية بشكل لا يصدق – فستحتاج إلى استخدام واجهة برمجة التطبيقات المتماثلة.”

ومع ذلك، تعمل شركة Tavus أيضًا على تطوير عدد من واجهات برمجة التطبيقات الإضافية، بما في ذلك واجهة مخصصة لمزامنة الشفاه؛ واحد للدبلجة. وواحدة لتشغيل حملات فيديو جماعية ومخصصة.

ستكون واجهة برمجة تطبيقات مزامنة الشفاه “بتكلفة دخول أقل”، وفقًا لرضا، وهي أفضل للمواقف التي لا تكون فيها “درجة عالية من الجودة والواقعية ضرورية”.

وفي الوقت نفسه، تستخدم واجهة برمجة تطبيقات الدبلجة أيضًا نموذج مزامنة الشفاه ولكنها تتضمن استنساخًا صوتيًا متعدد اللغات أيضًا، مما يعني أنه يمكن للمستخدم أحادي اللغة إرسال حملات فيديو بأي عدد من اللغات باستخدام صوته. في هذه الحالة، ونظرًا لأن معظم الفيديو سيبقى كما هو، فإن واجهة برمجة التطبيقات تتيح استبدالًا بسيطًا لحركات الشفاه لتتوافق مع الأصوات المختلفة القادمة من فم المستخدم. قد يكون هذا مفيدًا لمنشئي مجموعة برامج تحرير الفيديو، على سبيل المثال، حيث يرغبون في تمكين مستخدميهم من إضافة مزامنة الشفاه والتحرير والدبلجة إلى مقاطع الفيديو الخاصة بهم.

ومن ثم تقوم واجهة برمجة تطبيقات حملة الفيديو بشكل أساسي بتجميع واجهة برمجة التطبيقات المتماثلة جنبًا إلى جنب مع مجموعة كبيرة من الأدوات الإضافية – مثل الاستضافة ورسم الخرائط المتغيرة والصور المصغرة والتحليلات – لأولئك الذين يتطلعون إلى إطلاق حملات فيديو واسعة النطاق.

وقال رضا: “إننا نوفر القدرة لأي مطور على توفير تجربة حملة فيديو شاملة خارج الصندوق، ضمن الحلول الخاصة به”. “في حين أن واجهات برمجة التطبيقات المتماثلة ومزامنة الشفاه هي بمثابة “نموذج كخدمة” أكثر، فإن واجهة برمجة التطبيقات للحملة تمنحك الأدوات اللازمة لإنشاء نظام أساسي لحملات فيديو الذكاء الاصطناعي بسهولة.”

وظل رضا مترددًا بشأن بعض المستخدمين الأوائل لمنصة Tavus، لكنه قال إنها “تعمل مع واحدة من أكبر منصات الفيديو” لمشاركة العملاء. وقال رضا: “إنهم يتطلعون إلى جلب هذا إلى الملايين من عملائهم الذين يستخدمون بالفعل منصتهم لإنشاء مقاطع فيديو على أساس يومي”.

معضلة التزييف العميق

غريزيًا، منصات مثل Tavus مهيأة لسوء الاستخدام – ففي نهاية المطاف، ما الذي يمنع أي شخص من تحميل مقطع فيديو موجود مسبقًا لإنشاء نسخة رقمية طبق الأصل؟ تعد تقنية Deepfakes بالفعل مصدر قلق متزايد في حركة الذكاء الاصطناعي المزدهرة، لكن رازا يقول إن لديهم ضوابط لتجنب الخداع. على سبيل المثال، عندما يرسل المستخدم لقطات التدريب لمدة دقيقتين، يتعين عليه أيضًا تقديم بيان موافقة شفهية محدد والذي يتم مواءمته بعد ذلك مع الصوت في لقطات التدريب لضمان وجود تطابق.

قال رضا: “نقوم بإجراء هذه الفحوصات تلقائيًا، ثم نجري فحصًا بشريًا لكل نسخة طبق الأصل تمر عبر عمليات الفحص الآلي لضمان السلامة”.

من السهل أن نرى كيف يمكن أن يعمل ذلك مع Tavus كتطبيق SaaS مستقل، ولكن الآن بعد أن أصبح منصة يمكن الوصول إليها من قبل أي عدد من الشركات عبر واجهة برمجة التطبيقات، فمن الذي يتحكم في التحقق إذن؟ حسنًا، كما اتضح، فإن شركة Tavus تريد إبقاء يديها على عجلة التحقق، حتى عندما تقوم فقط بتوفير المحرك لمطوري الطرف الثالث.

“نحن نجري نفس عمليات التحقق، ونتحمل مسؤولية عمليات التحقق [the] واصل رضا واجهة برمجة التطبيقات أيضًا.

توسيع الواقع

في حين أن OpenAI أصبح تقريبًا الوجه العام للذكاء الاصطناعي التوليدي، إلا أن هناك مساحة كافية للاعبين المختلفين الذين يجلبون شيئًا مختلفًا إلى هذا المزيج. في الواقع، في حين أن نموذج Sora الذي تم إصداره مؤخرًا من DALL-E وOpenAI يدور في الغالب حول مساعدة الأشخاص على إنشاء صور مرئية من المطالبات النصية، يقول رازا إن نموذج تافوس سبب الوجود يتعلق الأمر أكثر بـ “توسيع” واقع الشخص.

وقال رضا: “نرى مستقبلاً حيث يرغب الجميع في الحصول على نسخة رقمية طبق الأصل من أنفسهم، ويتحكمون في ذلك ولديهم السلطة الكاملة عليه”. “وسيكون من المهم أن ينتهي الأمر بالفعل بالتقاط المزيد والمزيد من شخصيتك، والمزيد والمزيد من إيماءاتك وسماتك. “هذه هي الطريقة التي نرى بها الأمور تمضي قدمًا – ستكون هناك النماذج التي تخلق أشياء غير موجودة، وبعد ذلك ستكون هناك النماذج التي توسع واقعك.”

ومع وجود 18 مليون دولار في البنك، قال رضا إن الأموال النقدية التي تم ضخها مؤخرًا سيتم استخدامها “لتأجيج النار المشتعلة بالفعل” في أبراج تافوس.

وقال رضا: “نحن شركة أبحاث في مجال الذكاء الاصطناعي، لذلك نريد أن نكون قادرين على مواصلة التطوير على نماذج أحدث مثل فينيكس”. “ولكن أيضًا للحفاظ على نمونا، كان لدينا الكثير من الطلب بشكل مستمر. ونريد أن نكون قادرين على التوظيف المستمر لفرق التعلم الآلي والهندسة لدينا لدعم المطورين وعملاء SaaS.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى