لماذا تشهد قواعد بيانات المتجهات لحظة مع وصول دورة الضجيج للذكاء الاصطناعي إلى ذروتها؟
قواعد بيانات المتجهات هي كل هذا الغضب، إذا حكمنا من خلال عدد الشركات الناشئة التي تدخل هذا المجال والمستثمرين الذين يتنافسون للحصول على قطعة من الكعكة. لقد أدى انتشار نماذج اللغات الكبيرة (LLMs) وحركة الذكاء الاصطناعي التوليدي (GenAI) إلى خلق أرض خصبة لازدهار تقنيات قواعد البيانات المتجهة.
في حين أن قواعد البيانات العلائقية التقليدية مثل Postgres أو MySQL مناسبة تمامًا للبيانات المنظمة – أنواع البيانات المحددة مسبقًا والتي يمكن حفظها بشكل أنيق في صفوف وأعمدة – إلا أن هذا لا يعمل بشكل جيد مع البيانات غير المنظمة مثل الصور ومقاطع الفيديو ورسائل البريد الإلكتروني ووسائل التواصل الاجتماعي المنشورات وأي بيانات لا تلتزم بنموذج بيانات محدد مسبقًا.
من ناحية أخرى، تقوم قواعد بيانات المتجهات بتخزين البيانات ومعالجتها في شكل تضمينات متجهة، والتي تحول النصوص والمستندات والصور والبيانات الأخرى إلى تمثيلات رقمية تلتقط المعنى والعلاقات بين نقاط البيانات المختلفة. يعد هذا مثاليًا للتعلم الآلي، حيث تقوم قاعدة البيانات بتخزين البيانات مكانيًا حسب مدى صلة كل عنصر بالآخر، مما يسهل استرداد البيانات المتشابهة لغويًا.
يعد هذا مفيدًا بشكل خاص لـ LLMs، مثل OpenAI’s GPT-4، لأنه يسمح لروبوت الدردشة AI بفهم سياق المحادثة بشكل أفضل من خلال تحليل المحادثات المماثلة السابقة. يعد البحث المتجه مفيدًا أيضًا لجميع أنواع التطبيقات في الوقت الفعلي، مثل توصيات المحتوى في الشبكات الاجتماعية أو تطبيقات التجارة الإلكترونية، حيث يمكنه الاطلاع على ما بحث عنه المستخدم واسترداد عناصر مماثلة في لمح البصر.
يمكن أن يساعد بحث المتجهات أيضًا في تقليل “الهلوسة” في تطبيقات LLM، من خلال توفير معلومات إضافية ربما لم تكن متوفرة في مجموعة بيانات التدريب الأصلية.
“بدون استخدام بحث تشابه المتجهات، لا يزال بإمكانك تطوير تطبيقات الذكاء الاصطناعي/التعلم الآلي، ولكنك ستحتاج إلى إجراء المزيد من إعادة التدريب والضبط الدقيق”. أندريه زيارنيأوضح الرئيس التنفيذي والمؤسس المشارك لشركة Qdrant الناشئة للبحث المتجهي لموقع TechCrunch. “يتم تشغيل قواعد بيانات المتجهات عندما تكون هناك مجموعة بيانات كبيرة، وتحتاج إلى أداة للعمل مع تضمينات المتجهات بطريقة فعالة ومريحة.”
في شهر يناير، حصلت شركة Qdrant على تمويل بقيمة 28 مليون دولار للاستفادة من النمو الذي جعلها واحدة من أسرع 10 شركات ناشئة تجارية مفتوحة المصدر الأسرع نموًا في العام الماضي. وهي ليست الشركة الناشئة الوحيدة لقاعدة بيانات المتجهات التي قامت بجمع الأموال في الآونة الأخيرة – فقد جمعت Vespa وWeaviate وPinecone وChroma بشكل جماعي 200 مليون دولار في العام الماضي لعروض المتجهات المختلفة.
منذ مطلع العام، شهدنا أيضًا أن شركة Index Ventures تقود جولة أولية بقيمة 9.5 مليون دولار إلى Superlinked، وهي منصة تعمل على تحويل البيانات المعقدة إلى عمليات تضمين متجهة. وقبل بضعة أسابيع، كشفت Y Combinator (YC) عن مجموعة Winter ’24، والتي تضمنت Lantern، وهي شركة ناشئة تبيع محرك بحث متجهًا مستضافًا لـ Postgres.
وفي مكان آخر، جمع Marqo جولة تمويل أولية بقيمة 4.4 مليون دولار في أواخر العام الماضي، تلتها بسرعة جولة من السلسلة A بقيمة 12.5 مليون دولار في فبراير. توفر منصة Marqo سلسلة كاملة من أدوات المتجهات المبتكرة، والتي تشمل إنشاء المتجهات وتخزينها واسترجاعها، مما يسمح للمستخدمين بالتحايل على أدوات الطرف الثالث من أمثال OpenAI أو Hugging Face، كما أنها تقدم كل شيء عبر واجهة برمجة تطبيقات واحدة.
عمل المؤسسان المشاركان لشركة Marqo، توم هامر وجيسي إن. كلارك، سابقًا في أدوار هندسية في أمازون، حيث أدركا “الحاجة الهائلة غير الملباة” للبحث الدلالي والمرن عبر طرائق مختلفة مثل النصوص والصور. وذلك عندما قفزوا من السفينة ليشكلوا ماركو في عام 2021.
قال كلارك لـ TechCrunch: “كان العمل مع البحث المرئي والروبوتات في أمازون هو الوقت الذي نظرت فيه حقًا إلى البحث المتجه – كنت أفكر في طرق جديدة للقيام باكتشاف المنتج، وقد تقارب ذلك بسرعة كبيرة مع البحث المتجه”. “في مجال الروبوتات، كنت أستخدم البحث متعدد الوسائط للبحث في الكثير من الصور لدينا لتحديد ما إذا كانت هناك أشياء خاطئة مثل الخراطيم والطرود. وإلا لكان حل هذه المشكلة أمرًا صعبًا للغاية.
أدخل المؤسسة
على الرغم من أن قواعد بيانات المتجهات تمر بلحظة وسط ضجة ChatGPT وحركة GenAI، إلا أنها ليست الحل السحري لكل سيناريو بحث مؤسسي.
“تميل قواعد البيانات المخصصة إلى التركيز بشكل كامل على حالات استخدام محددة، وبالتالي يمكنها تصميم بنيتها لأداء المهام المطلوبة، بالإضافة إلى تجربة المستخدم، مقارنة بقواعد البيانات ذات الأغراض العامة، والتي تحتاج إلى ملاءمتها مع التصميم الحالي،” بيتر أوضح زايتسيف، مؤسس شركة بيركونا لدعم قواعد البيانات والخدمات، لموقع TechCrunch.
في حين أن قواعد البيانات المتخصصة قد تتفوق في شيء واحد دون غيرها، فإن هذا هو السبب وراء أننا بدأنا نرى ذلك شاغلي قاعدة البيانات مثل المرونة, ريديس, البحث المفتوح, كاساندرا, وحي، و MongoDB إضافة ذكاء البحث في قاعدة بيانات المتجهات إلى هذا المزيج، كما هو الحال مع مقدمي الخدمات السحابية مايكروسوفت أزور, أمازون AWS، و كلاودفلير.
يقارن زايتسيف هذا الاتجاه الأخير بما حدث مع JSON منذ أكثر من عقد من الزمن، عندما أصبحت تطبيقات الويب أكثر انتشارًا وكان المطورون بحاجة إلى تنسيق بيانات مستقل عن اللغة كان من السهل على البشر قراءته وكتابته. في هذه الحالة، ظهرت فئة قاعدة بيانات جديدة في شكل قواعد بيانات مستندات مثل MongoDB، بينما قدمت قواعد البيانات العلائقية الحالية أيضًا دعم JSON.
وقال زايتسيف لـ TechCrunch: “أعتقد أن الشيء نفسه من المحتمل أن يحدث مع قواعد البيانات المتجهة”. “سيستخدم المستخدمون الذين يقومون ببناء تطبيقات ذكاء اصطناعي معقدة للغاية وواسعة النطاق قواعد بيانات بحث متجهة مخصصة، في حين أن الأشخاص الذين يحتاجون إلى إنشاء القليل من وظائف الذكاء الاصطناعي لتطبيقاتهم الحالية هم أكثر عرضة لاستخدام وظيفة بحث المتجهات في قواعد البيانات التي يستخدمونها بالفعل. “
لكن زيارني وزملائه في Qdrant يراهنون على أن الحلول الأصلية المبنية بالكامل حول المتجهات ستوفر “السرعة، وسلامة الذاكرة، والحجم” اللازمين عند انفجار بيانات المتجهات، مقارنة بالشركات التي تتجه إلى البحث عن المتجهات كفكرة لاحقة.
وقال زيارني: “إن فكرتهم هي: يمكننا أيضًا إجراء بحث عن المتجهات، إذا لزم الأمر”. “إن عرضنا هو “أننا نقوم بإجراء بحث متقدم عن المتجهات بأفضل طريقة ممكنة.” الأمر كله يتعلق بالتخصص. نوصي في الواقع بالبدء بأي قاعدة بيانات لديك بالفعل في مجموعتك التقنية. في مرحلة ما، سيواجه المستخدمون قيودًا إذا كان البحث عن المتجهات مكونًا مهمًا في الحل الذي تقدمه.