يقوم Google Deepmind بتدريب الذكاء الاصطناعي الذي يلعب ألعاب الفيديو ليكون رفيقك التعاوني

تعود نماذج الذكاء الاصطناعي التي تمارس الألعاب إلى عقود مضت، لكنها تتخصص عمومًا في لعبة واحدة وتلعب دائمًا من أجل الفوز. لدى باحثي Google Deepmind هدف مختلف من خلال أحدث ابتكاراتهم: نموذج تعلم لعب ألعاب ثلاثية الأبعاد متعددة مثل الإنسان، ولكنه يبذل أيضًا قصارى جهده لفهم تعليماتك الشفهية والتصرف بناءً عليها.

هناك بالطبع شخصيات “ذكاء اصطناعي” أو شخصيات حاسوبية يمكنها القيام بهذا النوع من الأشياء، لكنها أشبه بميزات اللعبة: شخصيات غير قابلة للعب (NPCs) يمكنك استخدام الأوامر الرسمية داخل اللعبة للتحكم فيها بشكل غير مباشر.

لا يتمتع SIMA الخاص بـ Deepmind (وكيل متعدد العوالم قابل للتطوير وقابل للتوجيه) بأي نوع من الوصول إلى الكود أو القواعد الداخلية للعبة؛ وبدلاً من ذلك، تم تدريبه على ساعات عديدة من مقاطع الفيديو التي تعرض أسلوب اللعب بواسطة البشر. من هذه البيانات – والتعليقات التوضيحية التي يقدمها واضعو البيانات – يتعلم النموذج ربط تمثيلات مرئية معينة للإجراءات والكائنات والتفاعلات. كما قاموا بتسجيل مقاطع فيديو للاعبين وهم يوجهون بعضهم البعض للقيام بأشياء في اللعبة.

على سبيل المثال، قد يتعلم من كيفية تحرك وحدات البكسل في نمط معين على الشاشة أن هذا إجراء يسمى “التحرك للأمام”، أو عندما تقترب الشخصية من كائن يشبه الباب وتستخدم الكائن الذي يشبه مقبض الباب، فهذا هو “الفتح”. باب.” أشياء بسيطة مثل تلك المهام أو الأحداث التي تستغرق بضع ثوانٍ ولكنها أكثر من مجرد الضغط على مفتاح أو تحديد شيء ما.

تم التقاط مقاطع الفيديو التدريبية في ألعاب متعددة، من Valheim إلى Goat Simulator 3، والتي شارك مطوروها في هذا الاستخدام لبرامجهم ووافقوا عليه. وقال الباحثون في مكالمة مع الصحافة إن أحد الأهداف الرئيسية هو معرفة ما إذا كان تدريب الذكاء الاصطناعي على لعب مجموعة واحدة من الألعاب يجعله قادرًا على لعب ألعاب أخرى لم يراها، وهي عملية تسمى التعميم.

الجواب هو نعم، مع التحذيرات. كان أداء عملاء الذكاء الاصطناعي الذين تم تدريبهم على ألعاب متعددة أفضل في الألعاب التي لم يتعرضوا لها. لكن بالطبع تتضمن العديد من الألعاب آليات أو مصطلحات محددة وفريدة من نوعها من شأنها أن تعيق الذكاء الاصطناعي الأفضل إعدادًا. ولكن لا يوجد ما يمنع النموذج من تعلم تلك الأشياء باستثناء نقص بيانات التدريب.

ويرجع ذلك جزئيًا إلى أنه على الرغم من وجود الكثير من المفردات داخل اللعبة، إلا أنه لا يوجد سوى عدد قليل جدًا من “الأفعال” التي يمتلكها اللاعبون والتي تؤثر حقًا على عالم اللعبة. سواء كنت تقوم بتجميع ملجأ، أو نصب خيمة، أو استدعاء ملجأ سحري، فأنت حقًا “تبني منزلًا”، أليس كذلك؟ لذا فإن هذه الخريطة المكونة من عشرات العناصر الأولية التي يتعرف عليها الوكيل حاليًا مثيرة للاهتمام حقًا للاطلاع عليها:

خريطة تضم عشرات الإجراءات التي تتعرف عليها SIMA ويمكنها تنفيذها أو دمجها.

طموح الباحثين، علاوة على تطوير الكرة في الذكاء الاصطناعي المعتمد على العميل بشكل أساسي، هو إنشاء رفيق لعب أكثر طبيعية من الرفيق الصارم المشفر الذي لدينا اليوم.

قال تيم هارلي، أحد قادة المشروع: “بدلاً من أن يكون لديك عميل خارق تلعب ضده، يمكنك أن يكون لديك لاعبين SIMA بجانبك متعاونين، ويمكنك إعطاء التعليمات لهم”.

نظرًا لأنهم عندما يلعبون، فإن كل ما يرونه هو وحدات البكسل في شاشة اللعبة، وعليهم أن يتعلموا كيفية القيام بالأشياء بنفس الطريقة التي نتبعها – ولكن هذا يعني أيضًا أنه يمكنهم التكيف وإنتاج سلوكيات ناشئة أيضًا.

ربما يثير فضولك كيف يتعارض هذا مع الطريقة الشائعة لإنشاء الذكاء الاصطناعي من نوع الوكيل، وهو نهج المحاكاة، حيث يقوم نموذج غير خاضع للرقابة في الغالب بإجراء تجارب جامحة في عالم محاكاة ثلاثي الأبعاد يعمل بشكل أسرع بكثير من الوقت الفعلي، مما يسمح له بتعلم القواعد بشكل حدسي وتصميم السلوكيات من حولهم دون الحاجة إلى عمل تعليقات توضيحية تقريبًا.

“يستخدم تدريب الوكيل التقليدي القائم على المحاكاة التعلم المعزز للتدريب، والذي يتطلب من اللعبة أو البيئة توفير إشارة “مكافأة” للوكيل ليتعلم منها – على سبيل المثال الفوز/الخسارة في حالة Go أو Starcraft، أو “النتيجة” “لـ Atari،” قال هارلي لـ TechCrunch، وأشار إلى أن هذا النهج تم استخدامه لتلك الألعاب وأدى إلى نتائج مذهلة.

وتابع: “في الألعاب التي نستخدمها، مثل الألعاب التجارية من شركائنا، لا يمكننا الوصول إلى إشارة المكافأة هذه. علاوة على ذلك، نحن مهتمون بالوكلاء الذين يمكنهم القيام بمجموعة واسعة من المهام الموصوفة في نص مفتوح – ليس من الممكن لكل لعبة تقييم إشارة “مكافأة” لكل هدف محتمل. وبدلاً من ذلك، نقوم بتدريب الوكلاء باستخدام التعلم بالتقليد من السلوك البشري، مع تحديد الأهداف في النص.

وبعبارة أخرى، فإن وجود هيكل مكافأة صارم يمكن أن يحد من الوكيل فيما يسعى إليه، لأنه إذا تم توجيهه بالنتيجة، فلن يحاول أبدًا القيام بأي شيء لا يزيد من هذه القيمة إلى الحد الأقصى. ولكن إذا كانت تقدر شيئًا أكثر تجريدًا، مثل مدى قرب أفعالها من تلك التي لاحظتها من قبل، فيمكن تدريبها على “الرغبة” في القيام بأي شيء تقريبًا طالما أن بيانات التدريب تمثلها بطريقة ما.

تبحث شركات أخرى أيضًا في هذا النوع من التعاون والإبداع المفتوح؛ يتم النظر إلى المحادثات مع الشخصيات غير القابلة للعب على أنها فرص لتشغيل برنامج الدردشة الآلي من نوع LLM، على سبيل المثال. ويتم أيضًا محاكاة الإجراءات أو التفاعلات المرتجلة البسيطة وتتبعها بواسطة الذكاء الاصطناعي في بعض الأبحاث المثيرة للاهتمام حول العملاء.

بالطبع هناك أيضًا تجارب على ألعاب لا حصر لها مثل MarioGPT، لكن هذا أمر آخر تمامًا.