تقوم Twelve Labs ببناء الذكاء الاصطناعي الذي يمكنه تحليل مقاطع الفيديو والبحث فيها

يمكن لنماذج الذكاء الاصطناعي التي تفهم مقاطع الفيديو وكذلك النصوص أن تفتح تطبيقات جديدة قوية. على الأقل، هذا ما يعتقده جاي لي، المؤسس المشارك لشركة Twelve Labs.
من المؤكد أن لي متحيز قليلاً. يقوم Twelve Labs بتدريب نماذج تحليل الفيديو لمجموعة من حالات الاستخدام. ولكن قد يكون هناك شيء ما لتأكيده.
باستخدام نماذج Twelve Labs، يمكن للمستخدمين البحث في مقاطع الفيديو عن لحظات محددة، أو تلخيص المقاطع، أو طرح أسئلة مثل “متى دخل الشخص الذي يرتدي القميص الأحمر إلى المطعم؟” إنها مجموعة قوية من القدرات – وربما يكون هذا هو السبب وراء اجتذاب الشركة الداعمين من الأسماء الكبيرة بما في ذلك Nvidia وSamsung وIntel.
بحث الفيديو
بالنسبة إلى لي، وهو عالم بيانات من خلال التدريب، لم يكن البحث الأساسي منطقيًا أبدًا بالنسبة للفيديو. يمكن أن تؤدي عمليات البحث بالكلمات الرئيسية إلى سحب العناوين والعلامات والأوصاف، ولكن لا يمكنها الوصول إلى المحتوى الفعلي للمقاطع.
قال لي لـ TechCrunch: “الفيديو هو الوسيلة الأسرع نموًا – والأكثر كثافة في البيانات – ومع ذلك فإن معظم المؤسسات لن تكرس مواردها البشرية لفرز جميع أرشيفات الفيديو الخاصة بها”. “حتى لو حاولت وضع العلامات يدويًا، فلن يحل ذلك المشكلة. إن العثور على لحظة أو زاوية معينة في مقاطع الفيديو يمكن أن يكون مثل البحث عن إبرة في كومة قش.
بعد الفشل في إيجاد حل أفضل، قام لي بتجنيد أقرانه: إيدن لي، وإس جاي كيم، وديف تشونغ، وسويونغ لي لبناء حل. كان هذا هو أصل Twelve Labs، التي تدرب النماذج على تعيين النص لما يحدث داخل مقطع الفيديو، بما في ذلك الإجراءات والأشياء وأصوات الخلفية.
يمكن لنماذج مثل Gemini من Google البحث في اللقطات، وتقدم Microsoft وAmazon، من بين شركات أخرى، خدمات تحليلات الفيديو لاكتشاف الأشياء في المقاطع. لكن لي يرى أن منتجات Twelve Labs تتميز بخيارات التخصيص الخاصة بها، والتي تتيح للعملاء تصميم النماذج باستخدام بياناتهم الخاصة.
قال لي: “تستثمر شركات مثل OpenAI وGoogle بكثافة في النماذج متعددة الوسائط ذات الأغراض العامة، لكن هذه النماذج ليست مُحسَّنة للفيديو. يكمن تميزنا في كوننا الفيديو أولًا منذ البداية… ونعتقد أن الفيديو يستحق تركيزنا الوحيد – فهو ليس إضافة.”
يمكن للمطورين إنشاء تطبيقات أعلى نماذج Twelve Labs للبحث عبر لقطات الفيديو والمزيد. يمكن لتقنية الشركة أن تقود أشياء مثل إدراج الإعلانات، والإشراف على المحتوى، وإنشاء مقاطع مميزة تلقائيًا من المقاطع.
عندما تحدثت مع لي العام الماضي، سألته عن احتمالية التحيز في نماذج Twelve Labs. إنه عامل خطر كبير. وجدت دراسة أجريت عام 2021 أن تدريب نموذج فهم الفيديو على مقاطع من الأخبار المحلية، والتي تميل إلى تغطية الجريمة بطريقة عنصرية، يمكن أن يتسبب في تعلم النموذج الأنماط العنصرية.
قال لي في ذلك الوقت إن Twelve Labs كانت تخطط لإصدار معايير ومجموعات بيانات متعلقة بأخلاقيات النماذج. الشركة لا تزال لم تفعل ذلك. في محادثتنا الأخيرة، أكد لي لي أن هذه الأدوات في الطريق وأن Twelve Labs تجري اختبارات التحيز على جميع نماذجها قبل إصدارها.
وقال: “لم نصدر بعد معايير رسمية للتحيز لأننا نريد التأكد من أنها ذات معنى وعملية وقابلة للتنفيذ”. “هدفنا العام هو تطوير معايير لا تحملنا المسؤولية فحسب، بل تضع أيضًا معيارًا في الصناعة… وإلى أن نحقق هذا الهدف بالكامل – ولدينا فريق يعمل على ذلك – فإننا نعمل بنشاط على إنشاء الذكاء الاصطناعي التي تمكن المنظمات بشكل مسؤول، وتحترم الحريات المدنية للناس، وتدفع التغيير التكنولوجي.
وأضاف لي أن Twelve Labs تدرب نماذجها على مزيج من البيانات العامة والبيانات المرخصة، ولا تقوم بمصدر بيانات العملاء للتدريب.
وضع النمو
يظل تحليل الفيديو جوهريًا لما تفعله Twelve Labs. ولكن، في محاولة للحفاظ على ذكائها، تتفرع الشركة أيضًا إلى مجالات مثل البحث “من أي مكان إلى أي مكان” والتضمين متعدد الوسائط.
يمكن لأحد نماذج Twelve Labs، Marengo، البحث عبر الصور والصوت بالإضافة إلى الفيديو، وقبول تسجيل صوتي مرجعي أو صورة أو مقطع فيديو للمساعدة في توجيه البحث.
وفي مكان آخر، تقدم الشركة واجهة برمجة التطبيقات (API)، Embed API، لإنشاء عمليات تضمين متعددة الوسائط لمقاطع الفيديو والنصوص والصور والملفات الصوتية. التضمينات عبارة عن تمثيلات رياضية تلتقط المعنى والعلاقات بين نقاط البيانات المختلفة، مما يجعلها مفيدة لتطبيقات مثل الكشف عن الحالات الشاذة.
ساعدت مجموعة منتجات Twelve Labs المتنامية الشركة الناشئة على تأمين العملاء في مجالات المؤسسات والإعلام والترفيه. هناك شريكان رئيسيان هما Databricks وSnowflake، وكلاهما يقوم ببناء أدوات Twelve Labs في عروضهم.

قامت Databricks بتطوير تكامل يتيح للعميل استدعاء خدمة التضمين الخاصة بـ Twelve Labs من خطوط أنابيب البيانات الحالية. وفي الوقت نفسه، تقوم Snowflake بإنشاء موصلات لنماذج Twelve Labs في Cortex AI، وهي خدمة الذكاء الاصطناعي المُدارة بالكامل.
وقال لي: “لدينا حاليًا أكثر من 30 ألف مطور يستخدمون منصتنا، بدءًا من الأفراد الذين يقومون بالتجربة إلى المؤسسات الكبرى التي تدمج تقنيتنا في سير عملهم”. “على سبيل المثال، لقد عقدنا شراكة مع البلديات لحالات الاستخدام مثل الكشف عن التهديدات في الوقت الفعلي، وتعزيز أوقات الاستجابة للطوارئ، والمساعدة في إدارة حركة المرور.”
وكإظهار للدعم الاستراتيجي، استثمرت كل من Databricks وSnowflake في Twelve Labs هذا الشهر من خلال أذرع المشاريع الخاصة بكل منهما. وانضمت شركتا SK Telecom وHubspot Ventures إلى جانب In-Q-Tel، وهي شركة رأس مال مغامر غير ربحية مقرها في أرلينغتون بولاية فيرجينيا تستثمر في الشركات الناشئة التي تدعم قدرات الاستخبارات الأمريكية.
وصل إجمالي الاستثمارات الجديدة إلى 30 مليون دولار، ليصل إجمالي استثمارات Twelve Labs إلى 107.1 مليون دولار. ويقول لي إن العائدات سيتم تخصيصها لتطوير المنتجات والتوظيف.
وقال لي: “نحن في وضع مالي قوي للغاية، لكننا رأينا فرصة لتعميق العلاقات الإستراتيجية الرئيسية مع القادة الذين يؤمنون بشدة بـ Twelve Labs”. “لدينا حاليًا 73 موظفًا بدوام كامل، ونخطط لاستثمارات كبيرة في التوظيف عبر الأدوار الهندسية والبحثية ومواجهة العملاء”.
استئجار جديد
بالحديث عن التوظيف، أعلنت Twelve Labs يوم الخميس أنها ستضيف رئيسًا إلى فريقها التنفيذي: Yoon Kim، المدير الفني السابق لشركة SK Telecom والمهندس الرئيسي وراء Siri من Apple. سيعمل يون أيضًا كرئيس تنفيذي للاستراتيجية في Twelve Labs، حيث سيقود خطة التوسع الجريئة للشركة الناشئة.
قال لي: “على الرغم من أنه من غير المعتاد أن تقوم شركة بعمر ومرحلة Twelve Labs بتعيين رئيس، إلا أن هذه الخطوة هي شهادة على الطلب الذي شهدناه”، مضيفًا أن يون سيقسم الوقت بين المقر الرئيسي لشركة Twelve Labs في سان فرانسيسكو والمقر الرئيسي لشركة Twelve Labs. مكاتبها في سيول. “يون هو الشخص المناسب لمساعدتنا في التنفيذ – وسيكون له دور فعال في دفع النمو المستقبلي من خلال عمليات الاستحواذ الرئيسية، وتوسيع حضورنا العالمي، ومواءمة فرقنا نحو الأهداف الطموحة.”
ويقول لي إن الهدف هو النمو في قطاعات جديدة ومجاورة، مثل السيارات والأمن، في السنوات القليلة المقبلة. بالنظر إلى تورط In-Q-Tel، يبدو الأمن (وربما العمل الدفاعي) بمثابة حذاء؛ لم يؤكد لي صراحة.
وقال لي: “إن الاستثمار من In-Q-Tel يعكس تنوع وإمكانات التكنولوجيا لدينا في العديد من القطاعات، بما في ذلك الأمن القومي”. “نحن منفتحون دائمًا لاستكشاف الفرص التي يمكن أن يكون لتقنيتنا فيها تأثير إيجابي وهادف ومسؤول يتماشى مع إرشاداتنا الأخلاقية.”