إن صناعة الذكاء الاصطناعي مهووسة بـ Chatbot Arena، لكنها قد لا تكون المعيار الأفضل
على مدار الأشهر القليلة الماضية، روج المديرون التنفيذيون في مجال التكنولوجيا، مثل Elon Musk، لأداء نماذج الذكاء الاصطناعي الخاصة بشركتهم وفقًا لمعيار معين: Chatbot Arena.
أصبحت Chatbot Arena، التي تديرها منظمة غير ربحية تُعرف باسم LMSYS، بمثابة هوس الصناعة. تحصد المنشورات حول تحديثات لوحات المتصدرين النموذجية مئات المشاهدات وإعادة المشاركة عبر Reddit وX، ويحتوي حساب LMSYS X الرسمي على أكثر من 54000 متابع. لقد زار ملايين الأشخاص الموقع الإلكتروني للمنظمة في العام الماضي وحده.
ومع ذلك، لا تزال هناك بعض الأسئلة العالقة حول قدرة Chatbot Arena على إخبارنا بمدى “جودة” هذه النماذج حقًا.
بحثا عن معيار جديد
قبل أن نتعمق، دعونا نتوقف لحظة لفهم ما هو LMSYS بالضبط، وكيف أصبح شائعًا جدًا.
تم إطلاق المنظمة غير الربحية في أبريل الماضي فقط كمشروع قاده الطلاب وأعضاء هيئة التدريس في جامعة كارنيجي ميلون، وSkyLab في جامعة كاليفورنيا في بيركلي، وجامعة كاليفورنيا في سان دييغو. يعمل بعض الأعضاء المؤسسين الآن في Google DeepMind، وMusk’s xAI، وNvidia؛ اليوم، يتم تشغيل LMSYS بشكل أساسي بواسطة باحثين تابعين لـ SkyLab.
لم يقم LMSYS بإنشاء لوحة صدارة نموذجية سريعة الانتشار. كانت المهمة التأسيسية للمجموعة هي جعل النماذج (على وجه التحديد النماذج التوليدية على غرار ChatGPT الخاصة بـ OpenAI) أكثر سهولة في الوصول إليها من خلال المشاركة في تطويرها وفتح مصادرها. ولكن بعد وقت قصير من تأسيس LMSYS، رأى باحثوها، غير الراضين عن حالة قياس الذكاء الاصطناعي، قيمة في إنشاء أداة اختبار خاصة بهم.
“تفشل المعايير الحالية في تلبية احتياجات أحدث التقنيات بشكل مناسب [models]”، وخاصة في تقييم تفضيلات المستخدم”، كتب الباحثون في ورقة فنية نشرت في مارس. “وبالتالي، هناك ضرورة ملحة لمنصة تقييم مفتوحة ومباشرة تعتمد على التفضيل البشري والتي يمكن أن تعكس الاستخدام في العالم الحقيقي بشكل أكثر دقة.”
في الواقع، كما كتبنا من قبل، فإن المعايير الأكثر استخدامًا اليوم لا تقوم بعمل جيد في التقاط كيفية تفاعل الشخص العادي مع النماذج. العديد من المهارات التي تستكشفها المعايير – مثل حل مسائل الرياضيات على مستوى الدكتوراه، على سبيل المثال – نادرًا ما تكون ذات صلة بأغلبية الأشخاص الذين يستخدمون كلود، على سبيل المثال.
لقد شعر مبدعو LMSYS بالمثل، ولذلك ابتكروا بديلاً: Chatbot Arena، وهو معيار التعهيد الجماعي المصمم لالتقاط الجوانب “الدقيقة” للنماذج وأدائها في مهام مفتوحة في العالم الحقيقي.
يتيح Chatbot Arena لأي شخص على الويب طرح سؤال (أو أسئلة) لنموذجين مجهولين تم اختيارهما عشوائيًا. بمجرد موافقة الشخص على شروط الخدمة التي تسمح باستخدام بياناته في الأبحاث والنماذج والمشاريع ذات الصلة المستقبلية الخاصة بـ LMSYS، يمكنه التصويت لإجاباته المفضلة من النموذجين المتبارزين (يمكنه أيضًا إعلان التعادل أو القول “كلاهما سيئ” )، وعند هذه النقطة يتم الكشف عن هويات النماذج.
كتب الباحثون في بحث مارس/آذار أن هذا التدفق ينتج “مجموعة متنوعة” من الأسئلة التي قد يطرحها المستخدم النموذجي على أي نموذج توليدي. “متسلحين بهذه البيانات، فإننا نستخدم مجموعة من التقنيات الإحصائية القوية […] وأوضحوا أنه لتقدير الترتيب على النماذج بشكل موثوق وفعال قدر الإمكان.
منذ إطلاق Chatbot Arena، أضافت LMSYS العشرات من النماذج المفتوحة إلى أداة الاختبار الخاصة بها، ودخلت في شراكة مع جامعات مثل جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)، بالإضافة إلى شركات مثل OpenAI وGoogle وAnthropic وMicrosoft وMeta وMistral و تعانق الوجه لإتاحة نماذجها للاختبار. تضم Chatbot Arena الآن أكثر من 100 نموذج، بما في ذلك النماذج متعددة الوسائط (النماذج التي يمكنها فهم البيانات بما يتجاوز النص فقط) مثل OpenAI’s GPT-4o وAnthropic’s Claude 3.5 Sonnet.
لقد تم إرسال وتقييم أكثر من مليون من المطالبات وأزواج الإجابات بهذه الطريقة، مما أدى إلى إنتاج مجموعة ضخمة من بيانات التصنيف.
التحيز، وغياب الشفافية
في ورقة مارس، يدعي مؤسسو LMSYS أن الأسئلة التي يساهم بها المستخدمون في Chatbot Arena “متنوعة بما فيه الكفاية” لقياس مجموعة من حالات استخدام الذكاء الاصطناعي. وكتبوا: “نظرًا لقيمتها الفريدة وانفتاحها، برزت Chatbot Arena كواحدة من نماذج المتصدرين الأكثر مرجعية”.
ولكن ما مدى إفادة النتائج حقًا؟ هذا مطروح للنقاش.
يقول يوشين لين، عالم الأبحاث في معهد ألين للذكاء الاصطناعي غير الربحي، إن LMSYS لم يكن شفافًا تمامًا بشأن قدرات النموذج والمعرفة والمهارات التي يقوم بتقييمها في Chatbot Arena. في مارس، أصدرت LMSYS مجموعة بيانات، LMSYS-Chat-1M، تحتوي على مليون محادثة بين المستخدمين و25 نموذجًا على Chatbot Arena. لكنها لم تقم بتحديث مجموعة البيانات منذ ذلك الحين.
وقال لين: “التقييم غير قابل للتكرار، والبيانات المحدودة الصادرة عن LMSYS تجعل من الصعب دراسة القيود المفروضة على النماذج بعمق”.
إلى الحد الذي يمكن أن LMSYS لديه بتفصيل نهج الاختبار الخاص بها، قال باحثوها في بحث مارس إنهم يستفيدون من “خوارزميات أخذ العينات الفعالة” لوضع النماذج في مواجهة بعضها البعض “بطريقة تعمل على تسريع تقارب التصنيفات مع الاحتفاظ بالصلاحية الإحصائية”. لقد كتبوا أن LMSYS يجمع ما يقرب من 8000 صوت لكل نموذج قبل أن يقوم بتحديث تصنيفات Chatbot Arena، وعادةً ما يتم الوصول إلى هذا الحد بعد عدة أيام.
لكن لين يشعر أن التصويت لا يأخذ في الاعتبار قدرة الناس – أو عدم قدرتهم – على اكتشاف الهلوسة من العارضات، ولا الاختلافات في تفضيلاتهم، مما يجعل أصواتهم غير موثوقة. على سبيل المثال، قد يفضل بعض المستخدمين إجابات أطول ذات نمط تخفيض السعر، بينما قد يفضل البعض الآخر إجابات أكثر إيجازًا.
والنتيجة هنا هي أن اثنين من المستخدمين قد يقدمان إجابات متعارضة لنفس زوج الإجابات، وسيكون كلاهما صحيحًا بنفس القدر – ولكن هذا النوع من الأسئلة له قيمة النهج بشكل أساسي. في الآونة الأخيرة فقط، قامت LMSYS بتجربة التحكم في “أسلوب” و”جوهر” استجابات النماذج في Chatbot Arena.
قال لين: “إن بيانات التفضيلات البشرية التي تم جمعها لا تأخذ في الاعتبار هذه التحيزات الدقيقة، ولا تفرق المنصة بين “أ أفضل بكثير من ب” و”أ أفضل قليلاً من ب”. “في حين أن مرحلة ما بعد المعالجة يمكن أن تخفف من بعض هذه التحيزات، فإن بيانات التفضيلات البشرية الأولية تظل صاخبة.”
واتفق مايك كوك، زميل الأبحاث في جامعة كوين ماري في لندن والمتخصص في الذكاء الاصطناعي وتصميم الألعاب، مع تقييم لين. وأضاف: “كان من الممكن تشغيل Chatbot Arena في عام 1998 وما زلت تتحدث عن التحولات الدراماتيكية في الترتيب أو روبوتات الدردشة القوية الكبيرة، لكنها ستكون فظيعة”، مشيرًا إلى أنه على الرغم من أن Chatbot Arena هي مؤطر كاختبار تجريبي، فإنه يصل إلى نسبي تصنيف النماذج.
التحيز الأكثر إشكالية المعلق على رأس Chatbot Arena هو التركيبة الحالية لقاعدة مستخدميها.
يقول لين: نظرًا لأن المعيار أصبح شائعًا بشكل كامل تقريبًا من خلال الحديث الشفهي في دوائر الذكاء الاصطناعي وصناعة التكنولوجيا، فمن غير المرجح أن يكون قد اجتذب جمهورًا تمثيليًا للغاية. لإضفاء المصداقية على نظريته، تتعلق أهم الأسئلة في مجموعة بيانات LMSYS-Chat-1M بالبرمجة وأدوات الذكاء الاصطناعي وأخطاء البرامج وإصلاحاتها وتصميم التطبيقات – وليس أنواع الأشياء التي تتوقع أن يسأل عنها الأشخاص غير التقنيين .
وقال لين: “قد لا يعكس توزيع بيانات الاختبار بدقة المستخدمين الحقيقيين للسوق المستهدف”. “علاوة على ذلك، فإن عملية تقييم النظام الأساسي لا يمكن السيطرة عليها إلى حد كبير، وتعتمد بشكل أساسي على المعالجة اللاحقة لتسمية كل استعلام بعلامات مختلفة، والتي يتم استخدامها بعد ذلك لتطوير تقييمات خاصة بالمهمة. ويفتقر هذا النهج إلى الدقة المنهجية، مما يجعل من الصعب تقييم الأسئلة المنطقية المعقدة بناءً على التفضيل البشري فقط.
أشار كوك إلى أنه نظرًا لأن مستخدمي Chatbot Arena يقومون بالاختيار الذاتي – فهم مهتمون باختبار النماذج في المقام الأول – فقد يكونون أقل حرصًا على اختبار الإجهاد أو دفع النماذج إلى أقصى حدودها.
قال كوك: “إنها ليست طريقة جيدة لإجراء دراسة بشكل عام”. “يطرح المقيمون سؤالاً ويصوتون على النموذج “الأفضل” – ولكن “الأفضل” لم يتم تعريفه حقًا بواسطة LMSYS في أي مكان. إن تحقيق مستوى جيد حقًا في هذا المعيار قد يجعل الناس يعتقدون أن برنامج الدردشة الآلي الفائز بالذكاء الاصطناعي هو أكثر إنسانية، وأكثر دقة، وأكثر أمانًا، وأكثر جدارة بالثقة وما إلى ذلك – ولكن هذا لا يعني حقًا أيًا من هذه الأشياء.
يحاول LMSYS موازنة هذه التحيزات باستخدام الأنظمة الآلية – MT-Bench وArena-Hard-Auto – التي تستخدم النماذج نفسها (GPT-4 وGPT-4 Turbo من OpenAI) لتصنيف جودة الاستجابات من النماذج الأخرى. (تنشر LMSYS هذه التصنيفات إلى جانب الأصوات). ولكن في حين يؤكد LMSYS أن النماذج “تتوافق بشكل جيد مع التفضيلات البشرية الخاضعة للرقابة والتي تعتمد على التعهيد الجماعي”، فإن الأمر لا يزال بعيدًا عن التسوية.
العلاقات التجارية وتبادل البيانات
يقول لين إن العلاقات التجارية المتنامية لـ LMSYS هي سبب آخر لاتخاذ التصنيف بحذر.
بعض البائعين مثل OpenAI، الذين يخدمون نماذجهم من خلال واجهات برمجة التطبيقات، لديهم إمكانية الوصول إلى بيانات استخدام النموذج، والتي يمكنهم الوصول إليها استطاع يستخدمون بشكل أساسي “التدريس للاختبار” إذا رغبوا في ذلك. وقال لين إن هذا يجعل عملية الاختبار غير عادلة بالنسبة للنماذج المفتوحة والثابتة التي تعمل على سحابة LMSYS الخاصة.
وأضاف: “يمكن للشركات تحسين نماذجها باستمرار لتتماشى بشكل أفضل مع توزيع مستخدمي LMSYS، مما قد يؤدي إلى منافسة غير عادلة وتقييم أقل أهمية”. “يمكن للنماذج التجارية المتصلة عبر واجهات برمجة التطبيقات (APIs) الوصول إلى جميع بيانات إدخال المستخدم، مما يمنح الشركات التي تتمتع بحركة مرور أكبر ميزة.”
وأضاف كوك: “بدلاً من تشجيع أبحاث الذكاء الاصطناعي الجديدة أو أي شيء من هذا القبيل، فإن ما تفعله LMSYS هو تشجيع المطورين على تعديل التفاصيل الصغيرة للحصول على ميزة في الصياغة على منافسيهم.”
تتم رعاية LMSYS أيضًا جزئيًا من قبل المنظمات، إحداها شركة VC، مع خيول في سباق الذكاء الاصطناعي.
وقد تبرعت منصة علوم البيانات Kaggle التابعة لشركة جوجل بالمال إلى LMSYS، كما فعل أندريسن هورويتز (الذي تشمل استثماراته ميسترال) وTogether AI. نماذج Gemini من Google موجودة في Chatbot Arena، وكذلك نماذج Mistral’s وTogether’s.
تذكر LMSYS على موقعها على الإنترنت أنها تعتمد أيضًا على المنح والتبرعات الجامعية لدعم بنيتها التحتية، وأن أيًا من رعايتها – التي تأتي في شكل أجهزة وائتمانات حوسبة سحابية، بالإضافة إلى الأموال النقدية – ليس لها “شروط”. لكن العلاقات تعطي انطباعًا بأن LMSYS ليس محايدًا تمامًا، خاصة وأن البائعين يستخدمون Chatbot Arena بشكل متزايد لإثارة الترقب لنماذجهم.
لم يستجب LMSYS لطلب TechCrunch لإجراء مقابلة.
معيار أفضل؟
يعتقد لين أنه على الرغم من عيوبهما، فإن LMSYS وChatbot Arena يقدمان خدمة قيمة: تقديم رؤى في الوقت الفعلي حول كيفية أداء النماذج المختلفة خارج المختبر.
قال لين: “تتفوق ساحة Chatbot على النهج التقليدي المتمثل في تحسين معايير الاختيار من متعدد، والتي غالبًا ما تكون مشبعة ولا تنطبق بشكل مباشر على سيناريوهات العالم الحقيقي”. “يوفر المعيار منصة موحدة حيث يمكن للمستخدمين الحقيقيين التفاعل مع نماذج متعددة، مما يوفر تقييمًا أكثر ديناميكية وواقعية.”
ولكن – مع استمرار LMSYS في إضافة ميزات إلى Chatbot Arena، مثل المزيد من التقييمات الآلية – يشعر لين أن هناك ثمارًا قريبة المدى يمكن للمؤسسة معالجتها لتحسين الاختبار.
وللسماح بفهم أكثر “منهجية” لنقاط القوة والضعف في النماذج، يفترض أن LMSYS يمكن أن يصمم معايير حول موضوعات فرعية مختلفة، مثل الجبر الخطي، ولكل منها مجموعة من المهام الخاصة بالمجال. ويقول إن هذا من شأنه أن يمنح نتائج Chatbot Arena وزنًا علميًا أكبر بكثير.
قال لين: “على الرغم من أن Chatbot Arena يمكن أن تقدم لمحة سريعة عن تجربة المستخدم – وإن كان ذلك من قاعدة مستخدمين صغيرة وربما غير تمثيلية – إلا أنه لا ينبغي اعتبارها المعيار النهائي لقياس ذكاء النموذج”. “بدلاً من ذلك، يُنظر إليه بشكل أكثر ملاءمة على أنه أداة لقياس رضا المستخدم بدلاً من كونه مقياسًا علميًا وموضوعيًا لتقدم الذكاء الاصطناعي.”