تقوم DatologyAI ببناء تقنية لتنظيم مجموعات بيانات تدريب الذكاء الاصطناعي تلقائيًا

تعد مجموعات بيانات التدريب الضخمة بمثابة البوابة لنماذج الذكاء الاصطناعي القوية، ولكنها في كثير من الأحيان تؤدي أيضًا إلى سقوط تلك النماذج.

تنشأ التحيزات من أنماط ضارة مخبأة في مجموعات كبيرة من البيانات، مثل صور الرؤساء التنفيذيين في الغالب من البيض في مجموعة تصنيف الصور. ويمكن أن تكون مجموعات البيانات الضخمة فوضوية، وتأتي في تنسيقات غير مفهومة للنموذج – تنسيقات تحتوي على الكثير من الضجيج والمعلومات الدخيلة.

في استطلاع أجرته شركة Deloitte مؤخرًا للشركات التي تتبنى الذكاء الاصطناعي، قال 40% إن التحديات المتعلقة بالبيانات – بما في ذلك إعداد البيانات وتنظيفها بشكل كامل – كانت من بين أهم المخاوف التي تعيق مبادرات الذكاء الاصطناعي الخاصة بها. وجد استطلاع منفصل لعلماء البيانات أن حوالي 45% من وقت العلماء يتم إنفاقه على مهام إعداد البيانات، مثل “تحميل” البيانات وتنظيفها.

يريد آري موركوس، الذي عمل في مجال الذكاء الاصطناعي لما يقرب من عقد من الزمن، استخلاص العديد من عمليات إعداد البيانات المتعلقة بالتدريب على نماذج الذكاء الاصطناعي – وقد أسس شركة ناشئة للقيام بذلك.

تقوم شركة DatologyAI، التابعة لموركوس، ببناء أدوات لتنظيم مجموعات البيانات تلقائيًا مثل تلك المستخدمة لتدريب ChatGPT من OpenAI، وGemini من Google، وغيرها من نماذج GenAI. يمكن للمنصة تحديد البيانات الأكثر أهمية اعتمادًا على تطبيق النموذج (على سبيل المثال، كتابة رسائل البريد الإلكتروني)، كما يدعي موركوس، بالإضافة إلى الطرق التي يمكن من خلالها زيادة مجموعة البيانات ببيانات إضافية وكيفية تجميعها أو تقسيمها إلى أجزاء أكثر قابلية للإدارة. أثناء التدريب النموذجي

قال مرقص لـ TechCrunch في مقابلة عبر البريد الإلكتروني: “النماذج هي ما تأكله، والنماذج هي انعكاس للبيانات التي تم تدريبهم عليها”. “ومع ذلك، لا يتم إنشاء جميع البيانات على قدم المساواة، وبعض بيانات التدريب أكثر فائدة بكثير من غيرها. نماذج التدريب على البيانات الصحيحة بالطريقة الصحيحة يمكن أن يكون لها تأثير كبير على النموذج الناتج.

مرقص الحاصل على دكتوراه. حصل على درجة الدكتوراه في علم الأعصاب من جامعة هارفارد، وأمضى عامين في DeepMind في تطبيق تقنيات مستوحاة من علم الأعصاب لفهم نماذج الذكاء الاصطناعي وتحسينها، وأمضى خمس سنوات في مختبر Meta’s AI للكشف عن بعض الآليات الأساسية التي تقوم عليها وظائف النماذج. بالتعاون مع مؤسسيه ماثيو ليفيت وبوجدان غزة، وهو قائد هندسي سابق في أمازون ومن ثم تويتر، أطلق مرقص DatologyAI بهدف تبسيط جميع أشكال تنظيم مجموعة بيانات الذكاء الاصطناعي.

وكما يشير موركوس، فإن تكوين مجموعة بيانات التدريب يؤثر تقريبًا على كل خصائص النموذج الذي تم تدريبه عليه – بدءًا من أداء النموذج في المهام وحتى حجمه وعمق المعرفة بالمجال الخاص به. يمكن لمجموعات البيانات الأكثر كفاءة أن تقلل من وقت التدريب وتنتج نموذجًا أصغر، مما يوفر تكاليف الحوسبة، في حين أن مجموعات البيانات التي تتضمن مجموعة متنوعة بشكل خاص من العينات يمكنها التعامل مع الطلبات الباطنية بشكل أكثر مهارة (بشكل عام).

مع الاهتمام بـ GenAI – الذي يتمتع بسمعة طيبة لكونه مكلفًا – إلى أعلى مستوياته على الإطلاق، أصبحت تكاليف تنفيذ الذكاء الاصطناعي في طليعة عقول المسؤولين التنفيذيين.

تختار العديد من الشركات تحسين النماذج الحالية (بما في ذلك النماذج مفتوحة المصدر) لأغراضها أو اختيار خدمات البائعين المُدارة عبر واجهات برمجة التطبيقات. لكن البعض – لأسباب تتعلق بالحوكمة والامتثال أو غير ذلك – يقومون ببناء نماذج على البيانات المخصصة من الصفر، وينفقون عشرات الآلاف إلى ملايين الدولارات على الحوسبة من أجل تدريبها وتشغيلها.

وقال مرقص: “لقد قامت الشركات بجمع كنوز من البيانات وترغب في تدريب نماذج ذكاء اصطناعي متخصصة تتسم بالكفاءة والأداء والتي يمكنها تحقيق أقصى استفادة لأعمالها”. “ومع ذلك، فإن الاستخدام الفعال لمجموعات البيانات الضخمة هذه يمثل تحديًا كبيرًا، وإذا تم إجراؤه بشكل غير صحيح، فإنه يؤدي إلى نماذج ذات أداء أسوأ وتستغرق وقتًا أطول للتدريب والاستخدام. [are larger] من اللازم.”

يمكن لـ DatologyAI توسيع نطاق البيانات إلى “بيتابايت” بأي تنسيق – سواء كانت نصية أو صور أو فيديو أو صوت أو جداول أو طرائق “غريبة” مثل الجينومية والجغرافية المكانية – ونشرها في البنية التحتية للعميل، إما محليًا أو عبر السحابة الخاصة الافتراضية. وهذا ما يميزها عن غيرها من أدوات إعداد البيانات وتنظيمها مثل CleanLab وLilac وLabelbox وYData وGalileo، كما يدعي Morcos، والتي تميل إلى أن تكون أكثر محدودية في نطاق وأنواع البيانات التي يمكنها معالجتها.

تستطيع DatologyAI أيضًا تحديد أي “المفاهيم” ضمن مجموعة البيانات – على سبيل المثال، المفاهيم المتعلقة بتاريخ الولايات المتحدة في مجموعة تدريب روبوتات الدردشة التعليمية – هي أكثر تعقيدًا وبالتالي تتطلب عينات ذات جودة أعلى، بالإضافة إلى البيانات التي قد تتسبب في إنشاء نموذج التصرف بطرق غير مقصودة.

“الحل [these problems] وقال مرقص: “يتطلب تحديد المفاهيم تلقائيًا وتعقيدها ومدى التكرار الضروري بالفعل”. “إن تعزيز البيانات، والذي غالبًا ما يستخدم نماذج أخرى أو بيانات تركيبية، يعد أمرًا قويًا بشكل لا يصدق، ولكن يجب أن يتم بطريقة حذرة ومستهدفة.

السؤال هو، ما مدى فعالية تقنية DatologyAI؟ هناك سبب للشك. لقد أظهر التاريخ أن التنظيم الآلي للبيانات لا يعمل دائمًا على النحو المنشود، مهما كانت الطريقة معقدة – أو تنوع البيانات.

اضطرت LAION، وهي منظمة ألمانية غير ربحية تقود عددًا من مشاريع GenAI، إلى إزالة مجموعة بيانات تدريب الذكاء الاصطناعي المنسقة خوارزميًا بعد اكتشاف أن المجموعة تحتوي على صور للاعتداء الجنسي على الأطفال. وفي أماكن أخرى، تبين أن نماذج مثل ChatGPT، التي تم تدريبها على مزيج من مجموعات البيانات يدويًا وتصفيتها تلقائيًا بحثًا عن السمية، تولد محتوى سامًا بناءً على مطالبات محددة.

ليس هناك مفر من التنظيم اليدوي، كما قد يجادل بعض الخبراء – على الأقل ليس إذا كان المرء يأمل في تحقيق نتائج قوية باستخدام نموذج الذكاء الاصطناعي. يعتمد أكبر الموردين اليوم، من AWS إلى Google إلى OpenAI، على فرق من الخبراء البشريين والمعلقين (أحيانًا الذين يتقاضون أجورًا زهيدة) لتشكيل مجموعات بيانات التدريب الخاصة بهم وتحسينها.

يصر موركوس على أن أدوات DatologyAI ليس المقصود منها القيام بذلك يستبدل التنظيم اليدوي تمامًا ولكنه يقدم اقتراحات قد لا تخطر على بال علماء البيانات، ولا سيما الاقتراحات التي تمس مشكلة تقليص أحجام مجموعة بيانات التدريب. إنه يتمتع بسلطة إلى حد ما، حيث كان تقليص مجموعة البيانات مع الحفاظ على أداء النموذج هو محور بحث أكاديمي شارك موركوس في تأليفه مع باحثين من جامعة ستانفورد وجامعة توبنغن في عام 2022، وحصل على جائزة أفضل ورقة بحثية في مؤتمر التعلم الآلي NeurIPS في ذلك العام.

قال مرقص: “إن تحديد البيانات الصحيحة على نطاق واسع يمثل تحديًا كبيرًا ومشكلة بحثية حدودية”. “[Our approach] يؤدي إلى نماذج تتدرب بشكل أسرع بشكل كبير مع زيادة الأداء في الوقت نفسه في المهام النهائية.

من الواضح أن تقنية DatologyAI كانت واعدة بما يكفي لإقناع العمالقة في مجال التكنولوجيا والذكاء الاصطناعي بالاستثمار في الجولة التأسيسية للشركة الناشئة، بما في ذلك كبير علماء Google جيف دين، ورئيس علماء الذكاء الاصطناعي في ميتا يان ليكون، ومؤسس Quora وعضو مجلس إدارة OpenAI آدم دانجيلو وجيفري هينتون، الذي يُنسب إليه الفضل في تطوير بعض أهم التقنيات في قلب الذكاء الاصطناعي الحديث.

المستثمرون الملائكيون الآخرون في DatologyAI بقيمة 11.65 مليون دولار، والتي قادتها Amplify Partners بمشاركة من Radical Ventures وConviction Capital وOutset Capital وQuiet Capital، هم المؤسسون المشاركون لشركة Cohere، أيدان جوميز وإيفان تشانغ، ومؤسس الذكاء الاصطناعي السياقي دوي كيلا، وشركة Intel السابقة AI VP Naveen Rao وJascha Sohl-Dickstein، أحد مخترعي نماذج الانتشار التوليدي. إنها قائمة مثيرة للإعجاب من الشخصيات البارزة في مجال الذكاء الاصطناعي على أقل تقدير، وتشير إلى أنه قد يكون هناك شيء ما وراء ادعاءات موركوس.

قال LeCun لـ TechCrunch في بيان أرسل عبر البريد الإلكتروني: “إن جودة النماذج تكون جيدة مثل البيانات التي تم تدريبهم عليها، ولكن تحديد بيانات التدريب الصحيحة بين مليارات أو تريليونات الأمثلة يمثل مشكلة صعبة للغاية”. “آري وفريقه في DatologyAI هم بعض خبراء العالم في هذه المشكلة، وأعتقد أن المنتج الذي يبنونه لجعل تنظيم البيانات عالية الجودة متاحًا لأي شخص يريد تدريب نموذج هو أمر بالغ الأهمية للمساعدة في جعل الذكاء الاصطناعي يعمل للجميع.”

يوجد لدى DatologyAI ومقرها سان فرانسيسكو عشرة موظفين في الوقت الحالي، بما في ذلك المؤسسين المشاركين، ولكنها تخطط للتوسع إلى حوالي 25 موظفًا بحلول نهاية العام إذا وصلت إلى مراحل نمو معينة.

سألت موركوس عما إذا كانت هذه الإنجازات مرتبطة باكتساب العملاء، لكنه رفض أن يقول – وبشكل غامض إلى حد ما، لم يكشف عن حجم قاعدة عملاء DatologyAI الحالية.