هل يمكن لـ Pictionary وMinecraft اختبار براعة نماذج الذكاء الاصطناعي؟
معظم معايير الذكاء الاصطناعي لا تخبرنا بالكثير. إنهم يطرحون أسئلة يمكن حلها عن طريق الحفظ عن ظهر قلب، أو يتناولون موضوعات ليست ذات صلة بغالبية المستخدمين.
لذلك يلجأ بعض المتحمسين للذكاء الاصطناعي إلى الألعاب كوسيلة لاختبار مهارات الذكاء الاصطناعي في حل المشكلات.
قام بول كالكرافت، وهو مطور مستقل للذكاء الاصطناعي، ببناء تطبيق حيث يمكن لنموذجين من الذكاء الاصطناعي لعب لعبة تشبه لعبة القاموس مع بعضهما البعض. يرسم أحد النماذج رسومات الشعار المبتكرة، بينما يحاول النموذج الآخر تخمين ما تمثله رسومات الشعار المبتكرة.
قال كالكرافت لـ TechCrunch في مقابلة: “اعتقدت أن هذا يبدو ممتعًا للغاية وربما مثيرًا للاهتمام من وجهة نظر قدرات النموذج”. “لذلك جلست في الداخل يوم سبت غائم وأنجزت الأمر.”
كانت كالكرافت مستوحاة من مشروع مماثل للمبرمج البريطاني سيمون ويليسون الذي كلف العارضات بتقديم رسم متجه لبجع يركب دراجة. اختار ويليسون، مثل كالكرافت، تحديًا كان يعتقد أنه سيجبر النماذج على “التفكير” بما يتجاوز محتويات بيانات التدريب الخاصة بها.
وقال كالكرافت: “الفكرة هي أن يكون هناك معيار لا يمكن اللعب به”. “معيار لا يمكن التغلب عليه عن طريق حفظ إجابات محددة أو أنماط بسيطة تمت رؤيتها من قبل أثناء التدريب.”
تندرج لعبة Minecraft أيضًا ضمن هذه الفئة “غير القابلة للعب”، أو هذا ما يعتقده أدونيس سينغ البالغ من العمر 16 عامًا. لقد ابتكر أداة Mcbench، التي تمنح نموذجًا للتحكم في شخصية Minecraft وتختبر قدرتها على تصميم الهياكل، على غرار مشروع Microsoft Malmo.
وقال لـ TechCrunch: “أعتقد أن لعبة Minecraft تختبر النماذج على الحيلة وتمنحها المزيد من القوة”. “إنها ليست مقيدة ومشبعة تقريبًا مثل [other] المعايير.”
إن استخدام الألعاب لقياس الذكاء الاصطناعي ليس بالأمر الجديد. تعود هذه الفكرة إلى عقود مضت: جادل عالم الرياضيات كلود شانون في عام 1949 بأن ألعابًا مثل الشطرنج كانت بمثابة تحدي جدير بالبرمجيات “الذكية”. وفي الآونة الأخيرة، طورت شركة DeepMind التابعة لشركة Alphabet نموذجًا يمكنه لعب لعبة Pong وBreakout؛ قام OpenAI بتدريب الذكاء الاصطناعي على المنافسة في مباريات Dota 2؛ وصممت Meta خوارزمية يمكنها الصمود في مواجهة لاعبي Texas Hold ’em المحترفين.
لكن الأمر المختلف الآن هو أن المتحمسين يربطون نماذج اللغات الكبيرة (LLMs) – وهي نماذج ذات قدرة على تحليل النصوص والصور وغيرها – بالألعاب لاستكشاف مدى براعتهم في المنطق.
هناك وفرة من حاملي شهادات الماجستير في القانون، بدءًا من Gemini وClaude وحتى GPT-4o، وجميعهم لديهم “مشاعر” مختلفة، إذا جاز التعبير. إنهم “يشعرون” بالاختلاف في تفاعل واحد مع الآخر، وهي ظاهرة قد يكون من الصعب قياسها كميًا.
قال كالكرافت: “من المعروف أن الحاصلين على شهادة الماجستير في القانون حساسون تجاه طرق معينة يتم طرح الأسئلة بها، وبشكل عام لا يمكن الاعتماد عليهم ويصعب التنبؤ بهم”.
وقال ماثيو جوزديال، الباحث في الذكاء الاصطناعي والأستاذ في جامعة ألبرتا، إنه على النقيض من المعايير المستندة إلى النصوص، توفر الألعاب طريقة مرئية وبديهية لمقارنة أداء النموذج وتصرفاته.
وقال: “يمكننا أن نفكر في كل معيار على أنه يمنحنا تبسيطًا مختلفًا للواقع يركز على أنواع معينة من المشكلات، مثل التفكير أو التواصل”. “الألعاب هي مجرد طرق أخرى يمكنك من خلالها اتخاذ القرار باستخدام الذكاء الاصطناعي، لذلك يستخدمها الأشخاص مثل أي نهج آخر.”
سوف يلاحظ أولئك المطلعون على تاريخ الذكاء الاصطناعي التوليدي مدى تشابه Pictionary مع شبكات الخصومة التوليدية (GANs)، حيث يرسل نموذج المنشئ الصور إلى نموذج تمييزي يقوم بعد ذلك بتقييمها.
تعتقد كالكرافت أن تطبيق Pictionary يمكنه التقاط قدرة حاملي شهادة LLM على فهم مفاهيم مثل الأشكال والألوان وحروف الجر (على سبيل المثال، معنى “في” مقابل “على”). لم يذهب إلى أبعد من ذلك ليقول إن اللعبة عبارة عن اختبار موثوق للاستدلال، لكنه قال إن الفوز يتطلب استراتيجية وقدرة على فهم القرائن – ولا يجد أي من النموذجين سهولة.
قال: “أنا أيضًا أحب الطبيعة العدائية تقريبًا للعبة Pictionary، المشابهة لشبكات GAN، حيث يكون لديك دورين مختلفين: أحدهما يرسم والآخر يخمن”. “إن أفضل ما يمكن رسمه ليس هو الأكثر فنية، ولكنه هو الذي يمكنه نقل الفكرة بشكل أكثر وضوحًا إلى جمهور حاملي شهادة الماجستير في القانون الآخرين (بما في ذلك النماذج الأسرع والأقل قدرة بكثير!).”
حذر كالكرافت قائلاً: “إن لعبة Pictionary هي مشكلة لعبة ليست عملية أو واقعية على الفور”. “ومع ذلك، أعتقد أن الفهم المكاني وتعدد الوسائط عنصران حاسمان لتقدم الذكاء الاصطناعي، لذلك يمكن أن يكون LLM Pictionary خطوة صغيرة ومبكرة في تلك الرحلة.”
يعتقد سينغ أن لعبة Minecraft هي معيار مفيد أيضًا، ويمكنها قياس المنطق في ماجستير إدارة الأعمال. وقال: “من النماذج التي اختبرتها حتى الآن، تتوافق النتائج حرفيًا تمامًا مع مدى ثقتي في النموذج لشيء متعلق بالاستدلال”.
البعض الآخر ليس متأكدا من ذلك.
لا يعتقد مايك كوك، وهو زميل باحث في جامعة كوين ماري متخصص في الذكاء الاصطناعي، أن لعبة Minecraft مميزة بشكل خاص باعتبارها اختبارًا للذكاء الاصطناعي.
قال كوك لـ TechCrunch: “أعتقد أن بعض الانبهار بلعبة Minecraft يأتي من أشخاص خارج مجال الألعاب الذين ربما يعتقدون أنه نظرًا لأنها تبدو مثل “العالم الحقيقي”، فهي مرتبطة بشكل أوثق بالتفكير أو الفعل في العالم الحقيقي”. “من منظور حل المشكلات، لا يختلف الأمر كثيرًا عن لعبة فيديو مثل Fortnite أو Stardew Valley أو World of Warcraft. إنها تحتوي على مظهر مختلف في الأعلى يجعلها تبدو وكأنها مجموعة من المهام اليومية مثل بناء الأشياء أو الاستكشاف.”
من وجهة نظر كوك، حتى أفضل أنظمة الذكاء الاصطناعي التي تمارس الألعاب لا تتكيف بشكل جيد مع البيئات الجديدة، ولا يمكنها حل المشكلات التي لم يسبق لها مثيل بسهولة. على سبيل المثال، من غير المحتمل أن يلعب النموذج المتفوق في لعبة Minecraft لعبة Doom بأي مهارة حقيقية.
وتابع كوك: “أعتقد أن الصفات الجيدة التي تتمتع بها لعبة Minecraft من منظور الذكاء الاصطناعي هي إشارات مكافأة ضعيفة للغاية وعالم إجرائي، مما يعني تحديات لا يمكن التنبؤ بها”. “لكنها ليست في الواقع أكثر تمثيلاً للعالم الحقيقي من أي لعبة فيديو أخرى.”
في هذه الحالة، هناك بالتأكيد شيء رائع في مشاهدة حاملي شهادة الماجستير في القانون وهم يبنون القلاع.
طعم وكيف دليل المطاعم والكافيهات دليل المطاعم مدن العالم طعام وشراب مقاهي الرياض أخبار ونصائح دليل الرياض كافيهات الرياض جلسات خارجية دليل مقاهي ومطاعم أفضل كافيهات الرياض عوائل
اكتشاف المزيد من موقع fffm
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.