تقنية

تقوم LanceDB، التي تعتبر Midjourney كعميل لها، ببناء قواعد بيانات للذكاء الاصطناعي متعدد الوسائط


يتمتع Chang She، الذي كان يشغل سابقًا منصب نائب رئيس قسم الهندسة في Tubi وأحد المخضرمين في Cloudera، بسنوات من الخبرة في بناء أدوات البيانات والبنية التحتية. ولكن عندما بدأت العمل في مجال الذكاء الاصطناعي، سرعان ما واجه مشاكل في البنية التحتية التقليدية للبيانات، وهي المشاكل التي منعته من إدخال نماذج الذكاء الاصطناعي في الإنتاج.

وقالت لـ TechCrunch في مقابلة: “غالبًا ما يكون مهندسو التعلم الآلي والباحثون في مجال الذكاء الاصطناعي عالقين في تجربة تطوير دون المستوى”. “لا تفهم شركات البنية التحتية للبيانات حقًا مشكلة بيانات التعلم الآلي على المستوى الأساسي.”

لذا، تعاون تشانغ – وهو أحد المبدعين المشاركين في Pandas، مكتبة علوم بيانات Python ذات الشعبية الكبيرة – مع مهندس البرمجيات Lei Xu للمشاركة في إطلاق LanceDB.

تقوم LanceDB ببناء برنامج قاعدة بيانات مفتوح المصدر يحمل اسمه LanceDB، والذي تم تصميمه لدعم نماذج الذكاء الاصطناعي متعددة الوسائط – النماذج التي تتدرب وتولد الصور ومقاطع الفيديو والمزيد بالإضافة إلى النص. بدعم من Y Combinator، جمعت LanceDB هذا الشهر 8 ملايين دولار في جولة تمويل أولية بقيادة CRV وEssence VC وSwift Ventures، ليصل إجمالي ما تم جمعه إلى 11 مليون دولار.

قال تشانغ: “إذا كان الذكاء الاصطناعي متعدد الوسائط أمرًا بالغ الأهمية للنجاح المستقبلي لشركتك، فأنت تريد أن يركز فريق الذكاء الاصطناعي المكلف للغاية لديك على النموذج وربط الذكاء الاصطناعي بقيمة الأعمال”. “لسوء الحظ، اليوم، تقضي فرق الذكاء الاصطناعي معظم وقتها في التعامل مع تفاصيل البنية التحتية للبيانات منخفضة المستوى. يوفر LanceDB الأساس الذي تحتاجه فرق الذكاء الاصطناعي حتى يتمكنوا من التركيز على ما يهم حقًا لقيمة المؤسسة وتقديم منتجات الذكاء الاصطناعي إلى السوق بشكل أسرع بكثير مما هو ممكن بخلاف ذلك.

LanceDB هي في الأساس قاعدة بيانات متجهة – قاعدة بيانات تحتوي على سلسلة من الأرقام (“المتجهات”) التي تشفر معنى البيانات غير المنظمة (مثل الصور والنصوص وما إلى ذلك).

وكما كتب زميلي بول ساورز مؤخرًا، فإن قواعد البيانات المتجهة تمر بلحظة مع وصول دورة الضجيج الخاصة بالذكاء الاصطناعي إلى ذروتها. وذلك لأنها مفيدة لجميع أنواع تطبيقات الذكاء الاصطناعي، بدءًا من توصيات المحتوى في منصات التجارة الإلكترونية ووسائل التواصل الاجتماعي وحتى تقليل الهلوسة.

المنافسة شرسة في قواعد بيانات المتجهات – انظر Qdrant، وVespa، وWeaviate، وPinecone، وChroma على سبيل المثال لا الحصر من البائعين (بدون احتساب شركات التكنولوجيا الكبرى). إذن ما الذي يجعل LanceDB فريدًا؟ مرونة وأداء وقابلية توسع أفضل، وفقًا لتشانغ.

على سبيل المثال، يقول تشانغ، إن LanceDB – المبني على Apache Arrow – مدعوم بتنسيق بيانات مخصص، Lance Format، الذي تم تحسينه للتدريب والتحليلات متعددة الوسائط للذكاء الاصطناعي. يمكّن Lance Format LanceDB من التعامل مع ما يصل إلى مليارات المتجهات والبيتا بايت من النصوص والصور ومقاطع الفيديو، ويسمح للمهندسين بإدارة أشكال مختلفة من البيانات الوصفية المرتبطة بتلك البيانات.

وقال تشانغ: “حتى الآن، لم يكن هناك نظام يمكنه توحيد التدريب والاستكشاف والبحث ومعالجة البيانات على نطاق واسع”. “يتيح Lance Format للباحثين والمهندسين في مجال الذكاء الاصطناعي الحصول على مصدر واحد للحقيقة والحصول على أداء فائق السرعة عبر مسار الذكاء الاصطناعي بالكامل. لا يتعلق الأمر فقط بتخزين المتجهات.

تجني LanceDB الأموال من خلال بيع إصدارات مُدارة بالكامل من برامجها مفتوحة المصدر مع ميزات إضافية مثل تسريع الأجهزة وضوابط الإدارة – ويبدو أن الأعمال تسير بقوة. تتضمن قائمة عملاء الشركة منصة Midjourney لتحويل النص إلى صورة، وchatbot unicorn Character.ai، وشركة WeRide الناشئة للسيارات المستقلة، وAirtable.

أصر تشانغ على أن دعم LanceDB الأخير لرأس المال الاستثماري لن يحول انتباهه بعيدًا عن المشروع مفتوح المصدر، والذي يقول إنه يشهد الآن حوالي 600000 عملية تنزيل شهريًا.

وقال: “أردنا إنشاء شيء من شأنه أن يجعل الأمر أسهل بعشر مرات لفرق الذكاء الاصطناعي التي تعمل مع بيانات متعددة الوسائط واسعة النطاق”. “يقدم LanceDB – وسيستمر في تقديم – مجموعة غنية جدًا من عمليات تكامل النظام البيئي لتقليل جهود التبني.”

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى