تقنية

تطلق Databricks برنامج LakeFlow لمساعدة عملائها في بناء خطوط أنابيب البيانات الخاصة بهم


منذ إطلاقها في عام 2013، اعتمدت Databricks على نظامها البيئي من الشركاء، مثل Fievtran وRudderstack وdbt، لتوفير أدوات لإعداد البيانات وتحميلها. ولكن الآن، في قمة Data + AI السنوية، أعلنت الشركة عن LakeFlow، وهو حل هندسة البيانات الخاص بها والذي يمكنه التعامل مع استيعاب البيانات وتحويلها وتنسيقها ويلغي الحاجة إلى حل تابع لجهة خارجية.

مع LakeFlow، سيتمكن مستخدمو Databricks قريبًا من بناء خطوط بياناتهم واستيعاب البيانات من قواعد البيانات مثل MySQL وPostgres وSQL Server وOracle، بالإضافة إلى تطبيقات المؤسسات مثل Salesforce وDynamics وSharepoint وWorkday وNetSuite وGoogle Analytics.

لماذا تغير موقفها بعد الاعتماد على شركائها لفترة طويلة؟ أوضح علي قدسي، المؤسس المشارك والرئيس التنفيذي لشركة Databricks، أنه عندما سأل مجلسه الاستشاري في منتدى Databricks CIO قبل عامين عن الاستثمارات المستقبلية، توقع طلبات للحصول على المزيد من ميزات التعلم الآلي. وبدلاً من ذلك، أراد الجمهور استيعابًا أفضل للبيانات من تطبيقات وقواعد بيانات SaaS المختلفة. وقال: “قال الجميع من الحضور: نريد فقط أن نكون قادرين على إدخال البيانات من جميع تطبيقات وقواعد بيانات SaaS إلى Databricks”. لقد قلت لهم حرفياً: لدينا شركاء رائعون لذلك. لماذا يجب علينا القيام بهذا العمل الزائد عن الحاجة؟ يمكنك بالفعل الحصول على ذلك في الصناعة.”

كما اتضح، على الرغم من أن بناء الموصلات وخطوط أنابيب البيانات قد يبدو الآن وكأنه عمل تجاري سلعي، فإن الغالبية العظمى من عملاء Databricks لم يكونوا في الواقع يستخدمون شركاء النظام البيئي الخاص بهم ولكنهم كانوا يبنون حلولهم المخصصة لتغطية حالات الحافة ومتطلباتهم الأمنية.

وفي تلك المرحلة، بدأت الشركة في استكشاف ما يمكنها فعله في هذا المجال، مما أدى في النهاية إلى الاستحواذ على خدمة نسخ البيانات في الوقت الفعلي Arcion في نوفمبر الماضي.

وشدد قدسي على أن Databricks تخطط “لمواصلة مضاعفة جهودها” في نظامها البيئي الشريك، ولكن من الواضح أن هناك شريحة من السوق تريد دمج خدمة مثل هذه في النظام الأساسي. “هذه واحدة من تلك المشاكل التي لا يريدون التعامل معها. لا يريدون شراء شيء آخر. إنهم لا يريدون تكوين شيء آخر. وقال: “إنهم يريدون فقط أن تكون هذه البيانات موجودة في Databricks”.

بطريقة ما، يجب أن يكون إدخال البيانات إلى مستودع البيانات أو بحيرة البيانات بمثابة رهانات على الطاولة لأن إنشاء القيمة الحقيقية يحدث بمرور الوقت. إن وعد LakeFlow هو أن Databricks يمكنها الآن تقديم حل شامل يسمح للمؤسسات بأخذ بياناتها من مجموعة واسعة من الأنظمة، وتحويلها واستيعابها في الوقت الفعلي تقريبًا، ثم إنشاء تطبيقات جاهزة للإنتاج في الأعلى منه.

يتكون نظام LakeFlow في جوهره من ثلاثة أجزاء. الأول هو LakeFlow Connect، الذي يوفر الروابط بين مصادر البيانات المختلفة وخدمة Databricks. إنه متكامل تمامًا مع حل إدارة البيانات Unity Data Catalog من Databricks ويعتمد جزئيًا على التكنولوجيا من Arcion. قامت Databricks أيضًا بالكثير من العمل لتمكين هذا النظام من التوسع بسرعة وإلى أعباء عمل كبيرة جدًا إذا لزم الأمر. في الوقت الحالي، يدعم هذا النظام SQL Server، وSalesforce، وWorkday، وServiceNow، وGoogle Analytics، وسيتبعه MySQL وPostgres قريبًا جدًا.

الجزء الثاني هو Flow Pipelines، وهو في الأساس نسخة من إطار عمل Delta Live Tables الموجود في Databricks لتنفيذ تحويل البيانات وETL في SQL أو Python. وشدد قدسي على أن Flow Pipelines توفر وضعًا منخفض زمن الوصول لتمكين تسليم البيانات ويمكنها أيضًا تقديم معالجة تزايدية للبيانات بحيث أنه في معظم حالات الاستخدام، يجب فقط مزامنة التغييرات على البيانات الأصلية مع Databricks.

الجزء الثالث هو LakeFlow Jobs، وهو المحرك الذي يوفر التنسيق الآلي ويضمن صحة البيانات وتسليمها. “حتى الآن، تحدثنا عن إدخال البيانات، وهذا هو الرابط. ثم قلنا: دعونا نحول البيانات. هذه خطوط الأنابيب. ولكن ماذا لو كنت أريد أن أفعل أشياء أخرى؟ ماذا لو أردت تحديث لوحة التحكم؟ ماذا لو كنت أرغب في تدريب نموذج التعلم الآلي على هذه البيانات؟ ما هي الإجراءات الأخرى في Databricks التي يتعين علي اتخاذها؟ وأوضح قدسي أن جوبز هو المنسق لذلك.

وأشار قدسي أيضًا إلى أن الكثير من عملاء Databricks يتطلعون الآن إلى خفض تكاليفهم وتوحيد عدد الخدمات التي يدفعون مقابلها – وهي عبارة كنت أسمعها من الشركات ومورديها يوميًا تقريبًا خلال العام الماضي أو نحو ذلك. إن تقديم خدمة متكاملة لاستيعاب البيانات وتحويلها يتوافق مع هذا الاتجاه.

تقوم Databricks بطرح خدمة LakeFlow على مراحل. أول ما يصل هو LakeFlow Connect، والذي سيصبح متاحًا كمعاينة قريبًا. لدى الشركة صفحة تسجيل لقائمة الانتظار هنا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى