تقنية

تقوم Twelve Labs ببناء نماذج يمكنها فهم مقاطع الفيديو على مستوى عميق


الذكاء الاصطناعي المولد للنص هو شيء واحد. لكن نماذج الذكاء الاصطناعي التي تفهم الصور وكذلك النصوص يمكنها فتح تطبيقات جديدة قوية.

خذ على سبيل المثال Twelve Labs. تقوم الشركة الناشئة التي يقع مقرها في سان فرانسيسكو بتدريب نماذج الذكاء الاصطناعي – كما يقول المؤسس المشارك والرئيس التنفيذي جاي لي – على “حل مشكلات محاذاة لغة الفيديو المعقدة”.

“تم تأسيس اثني عشر مختبرًا … لإنشاء بنية أساسية لفهم الفيديو متعدد الوسائط، حيث تتمثل المسعى الأول في البحث الدلالي – أو “CTRL+F لمقاطع الفيديو”.“قال لي لـ TechCrunch في مقابلة عبر البريد الإلكتروني. “ال تتمثل رؤية Twelve Labs في مساعدة المطورين على بناء برامج يمكنها رؤية العالم والاستماع إليه وفهمه كما نفعل نحن.

تحاول نماذج Twelve Labs تعيين اللغة الطبيعية لما يحدث داخل مقطع الفيديو، بما في ذلك الإجراءات والأشياء وأصوات الخلفية، مما يسمح للمطورين بإنشاء تطبيقات يمكنها البحث في مقاطع الفيديو وتصنيف المشاهد واستخراج الموضوعات من داخل مقاطع الفيديو تلك وتلخيصها وتقسيمها تلقائيًا مقاطع الفيديو إلى فصول، وأكثر من ذلك.

يقول لي إن تقنية Twelve Labs يمكنها تحفيز أشياء مثل إدراج الإعلانات والإشراف على المحتوى – على سبيل المثال، معرفة مقاطع الفيديو التي تعرض السكاكين التي تعتبر عنيفة مقابل مقاطع الفيديو التعليمية. وأضاف لي أنه يمكن استخدامه أيضًا لتحليلات الوسائط ولإنشاء مقاطع مميزة تلقائيًا – أو عناوين وعلامات منشورات المدونة – من مقاطع الفيديو.

سألت لي عن احتمالية التحيز في هذه النماذج، نظرًا لأن العلم الراسخ هو أن النماذج تضخم التحيزات في البيانات التي تم تدريبها عليها. على سبيل المثال، تدريب نموذج فهم الفيديو على مقاطع من الأخبار المحلية في الغالب – والتي غالبًا ما تقضي الكثير من الوقت في تغطية الجريمة في بطريقة مثيرة وعنصرية – يمكن جعل النموذج يتعلم الأنماط العنصرية وكذلك الجنسية.

يقول لي إن Twelve Labs تسعى جاهدة لتلبية مقاييس التحيز الداخلي و”العدالة” لنماذجها قبل إصدارها، وأن الشركة تخطط لإصدار معايير ومجموعات بيانات متعلقة بأخلاقيات النماذج في المستقبل. لكن لم يكن لديه ما يشاركه أكثر من ذلك.

نموذج بالحجم الطبيعي لواجهة برمجة التطبيقات (API) لضبط النموذج ليعمل بشكل أفضل مع المحتوى المتعلق بالسلطة.

“فيما يتعلق بكيفية اختلاف منتجنا عن نماذج اللغات الكبيرة [like ChatGPT]قال لي: “لقد تم تدريبنا وتصنيعنا خصيصًا لمعالجة وفهم الفيديو، ودمج المكونات المرئية والصوتية والكلامية بشكل كلي في مقاطع الفيديو”. “لقد تجاوزنا بالفعل الحدود التقنية لما هو ممكن لفهم الفيديو.”

تعمل Google على تطوير نموذج متعدد الوسائط مشابه لفهم الفيديو يسمى MUM، والذي تستخدمه الشركة لتشغيل توصيات الفيديو عبر بحث Google وYouTube. بالإضافة إلى MUM، تقدم Google – بالإضافة إلى Microsoft وAmazon – خدمات على مستوى واجهة برمجة التطبيقات ومدعومة بالذكاء الاصطناعي تتعرف على الكائنات والأماكن والإجراءات في مقاطع الفيديو وتستخرج البيانات الوصفية الغنية على مستوى الإطار.

لكن لي يقول إن Twelve Labs تتميز بجودة نماذجها وميزات الضبط الدقيق للمنصة، والتي تسمح للعملاء بأتمتة نماذج المنصة ببياناتهم الخاصة لتحليل الفيديو “المحدد في المجال”.

على صعيد النماذج، تكشف Twelve Labs اليوم عن Pegasus-1، وهو نموذج جديد متعدد الوسائط يفهم مجموعة من المطالبات المتعلقة بتحليل الفيديو بالكامل. على سبيل المثال، يمكن مطالبة Pegasus-1 بإنشاء تقرير وصفي طويل حول مقطع فيديو أو مجرد عدد قليل من النقاط البارزة مع الطوابع الزمنية.

وقال لي: “تدرك مؤسسات المؤسسات إمكانية الاستفادة من بيانات الفيديو الهائلة الخاصة بها لتوفير فرص عمل جديدة… ومع ذلك، فإن القدرات المحدودة والمبسطة لنماذج الذكاء الاصطناعي التقليدية للفيديو غالبًا ما تكون أقل من تلبية الفهم المعقد المطلوب لمعظم حالات الاستخدام التجاري”. “من خلال الاستفادة من النماذج الأساسية القوية لفهم الفيديو متعدد الوسائط، يمكن لمؤسسات المؤسسات تحقيق فهم الفيديو على المستوى البشري دون التحليل اليدوي.”

منذ إطلاقه في الإصدار التجريبي الخاص في أوائل شهر مايو، نمت قاعدة مستخدمي Twelve Labs إلى 17000 مطور، كما يقول لي. وتعمل الشركة الآن مع عدد من الشركات، ومن غير الواضح عددها؛ لن يقول لي – عبر الصناعات بما في ذلك الرياضة والإعلام والترفيه والتعلم الإلكتروني والأمن، بما في ذلك اتحاد كرة القدم الأميركي.

تواصل Twelve Labs أيضًا جمع الأموال، وهو جزء مهم من أي شركة ناشئة. أعلنت الشركة اليوم أنها أغلقت جولة تمويل استراتيجي بقيمة 10 ملايين دولار من Nvidia وIntel وSamsung Next، ليصل إجمالي التمويل الذي تم جمعه إلى 27 مليون دولار.

وقال لي: “هذا الاستثمار الجديد يدور حول الشركاء الاستراتيجيين الذين يمكنهم تسريع شركتنا في مجال البحث (الحوسبة) والمنتجات والتوزيع”. “إنه وقود للابتكار المستمر، استنادًا إلى أبحاث مختبرنا، في مجال فهم الفيديو حتى نتمكن من الاستمرار في تقديم أقوى النماذج للعملاء، مهما كانت حالات استخدامهم … نحن ندفع الصناعة إلى الأمام بطرق الشركات الحرة قادرة على القيام بأشياء لا تصدق.”

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى