ما هي “النماذج العالمية” للذكاء الاصطناعي، وما أهميتها؟

النماذج العالمية، والمعروفة أيضًا باسم أجهزة المحاكاة العالمية، يوصفها البعض بأنها الشيء الكبير التالي في الذكاء الاصطناعي.

وقد جمعت مختبرات العالم الرائدة في مجال الذكاء الاصطناعي، فاي فاي لي، 230 مليون دولار لبناء “نماذج عالمية ضخمة”، كما استأجرت شركة ديب مايند أحد مبدعي مولد الفيديو التابع لشركة أوبن إيه آي، وهو سورا، للعمل على “محاكيات العالم”.

ولكن ما هيك نكون هذه الأشياء؟

تستلهم النماذج العالمية النماذج العقلية للعالم التي يتطورها البشر بشكل طبيعي. تأخذ أدمغتنا التمثيلات المجردة من حواسنا وتشكلها في فهم أكثر واقعية للعالم من حولنا، وتنتج ما نسميه “النماذج” قبل وقت طويل من اعتماد الذكاء الاصطناعي لهذه العبارة. إن التنبؤات التي تقوم بها أدمغتنا بناءً على هذه النماذج تؤثر على كيفية إدراكنا للعالم.

تقدم ورقة بحثية أجراها باحثا الذكاء الاصطناعي ديفيد ها ويورغن شميدهوبر مثالاً على مضرب البيسبول. يمتلك الضاربون أجزاء من الثانية ليقرروا كيفية تأرجح مضربهم، وهو أقصر من الوقت الذي تستغرقه الإشارات البصرية للوصول إلى الدماغ. يقول ها وشميدهوبر إن السبب وراء قدرتهم على ضرب كرة سريعة بسرعة 100 ميل في الساعة هو أنهم يستطيعون التنبؤ بشكل غريزي بالمكان الذي ستذهب إليه الكرة.

“بالنسبة للاعبين المحترفين، كل هذا يحدث دون وعي”، كما كتب الثنائي البحثي. “تقوم عضلاتهم بتأرجح المضرب بشكل انعكاسي في الوقت والمكان المناسبين بما يتماشى مع توقعات نماذجهم الداخلية. يمكنهم التصرف بسرعة وفقًا لتوقعاتهم للمستقبل دون الحاجة إلى طرح سيناريوهات مستقبلية محتملة بوعي لتشكيل خطة.

إنها جوانب التفكير اللاواعي للنماذج العالمية التي يعتقد البعض أنها متطلبات مسبقة للذكاء على المستوى البشري.

نمذجة العالم

على الرغم من أن هذا المفهوم كان موجودًا منذ عقود، إلا أن النماذج العالمية اكتسبت شعبية مؤخرًا جزئيًا بسبب تطبيقاتها الواعدة في مجال الفيديو التوليدي.

معظم مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، إن لم يكن كلها، تنحرف إلى منطقة الوادي الغريبة. مشاهدتهم لفترة كافية وشيء ما غريب سيحدث مثل التواء الأطراف واندماجها في بعضها البعض.

في حين أن النموذج التوليدي الذي تم تدريبه على مدار سنوات من الفيديو قد يتنبأ بدقة بأن كرة السلة ترتد، فإنه ليس لديه في الواقع أي فكرة عن السبب – تمامًا كما لا تفهم نماذج اللغة حقًا المفاهيم الكامنة وراء الكلمات والعبارات. لكن النموذج العالمي الذي يمتلك حتى فهمًا أساسيًا لسبب ارتداد كرة السلة بهذه الطريقة سيكون أفضل في إظهار أنها تفعل هذا الشيء.

لتمكين هذا النوع من الرؤية، يتم تدريب النماذج العالمية على مجموعة من البيانات، بما في ذلك الصور والصوت ومقاطع الفيديو والنصوص، بهدف إنشاء تمثيلات داخلية لكيفية عمل العالم، والقدرة على التفكير في عواقب الإجراءات. .

عينة من نموذج إنشاء الفيديو Gen-3 الخاص بشركة Runway الناشئة في مجال الذكاء الاصطناعي. اعتمادات الصورة:المدرج

وقال مشرابوف: “يتوقع المشاهد أن العالم الذي يشاهده يتصرف بطريقة مماثلة لواقعه”. “إذا سقطت ريشة بوزن سندان، أو إذا ارتفعت كرة بولينج لمئات الأقدام في الهواء، فإن ذلك يكون مزعجًا ويخرج المشاهد من اللحظة. مع وجود نموذج عالمي قوي، بدلًا من أن يحدد المبدع الطريقة التي من المتوقع أن يتحرك بها كل كائن – وهو أمر ممل ومرهق وسيئ الاستخدام للوقت – سوف يفهم النموذج ذلك.

لكن توليد الفيديو بشكل أفضل ليس سوى قمة جبل الجليد بالنسبة للعارضات العالميات. يقول الباحثون، بمن فيهم يان ليكون، كبير علماء الذكاء الاصطناعي في ميتا، إن النماذج يمكن استخدامها يومًا ما للتنبؤ والتخطيط المتطور في كل من المجالين الرقمي والمادي.

في حديث له في وقت سابق من هذا العام، وصف ليكون كيف يمكن للنموذج العالمي أن يساعد في تحقيق الهدف المنشود من خلال المنطق. يمكن للنموذج الذي يحتوي على تمثيل أساسي لـ “العالم” (على سبيل المثال، مقطع فيديو لغرفة قذرة)، مع إعطاء هدف (غرفة نظيفة)، أن يتوصل إلى سلسلة من الإجراءات لتحقيق هذا الهدف (نشر المكانس الكهربائية للكنس، وتنظيف الأطباق، إفراغ سلة المهملات) ليس لأن هذا هو النمط الذي لاحظته ولكن لأنه يعرف على مستوى أعمق كيفية الانتقال من القذارة إلى التنظيف.

«نحن بحاجة إلى آلات تفهم العالم؛ [machines] وقال ليكون: “يمكنها أن تتذكر الأشياء، ولديها حدس، ولها منطق سليم – أشياء يمكنها التفكير والتخطيط بنفس مستوى البشر”. “على الرغم مما سمعته من بعض الأشخاص الأكثر حماسًا، فإن أنظمة الذكاء الاصطناعي الحالية غير قادرة على القيام بأي من هذا.”

في حين يقدر LeCun أننا على بعد عقد من الزمن على الأقل من النماذج العالمية التي يتصورها، فإن النماذج العالمية الحالية تبدو واعدة كمحاكيات للفيزياء الأولية.

OpenAI سورا ماين كرافت — سورا يتحكم في لاعب في لعبة Minecraft – ويصور العالم. **اعتمادات الصورة:**OpenAI

تشير OpenAI في إحدى المدونات إلى أن Sora، الذي تعتبره نموذجًا عالميًا، يمكنه محاكاة الإجراءات مثل الرسام الذي يترك ضربات الفرشاة على لوحة قماشية. يمكن لنماذج مثل Sora – و Sora نفسها – أيضًا محاكاة ألعاب الفيديو بشكل فعال. على سبيل المثال، يمكن لـ Sora عرض واجهة مستخدم وعالم ألعاب يشبه لعبة Minecraft.

قد تكون نماذج العالم المستقبلية قادرة على إنشاء عوالم ثلاثية الأبعاد حسب الطلب للألعاب والتصوير الافتراضي والمزيد، كما قال جاستن جونسون، المؤسس المشارك لـ World Labs، في إحدى حلقات البودكاست a16z.

وقال جونسون: “لدينا بالفعل القدرة على إنشاء عوالم افتراضية وتفاعلية، لكن الأمر يكلف مئات ومئات الملايين من الدولارات وأطنانًا من وقت التطوير”. “[World models] لن يتيح لك الحصول على صورة أو مقطع فحسب، بل سيتيح لك محاكاة عالم ثلاثي الأبعاد نابض بالحياة وتفاعلي بالكامل.

عقبات عالية

وفي حين أن المفهوم مغرٍ، إلا أن العديد من التحديات التقنية تقف في الطريق.

يتطلب تدريب النماذج العالمية وتشغيلها قوة حسابية هائلة حتى بالمقارنة مع الكمية المستخدمة حاليًا في النماذج التوليدية. في حين أن بعض أحدث نماذج اللغات يمكن تشغيلها على هاتف ذكي حديث، فإن Sora (الذي يمكن القول إنه نموذج عالمي مبكر) سيتطلب الآلاف من وحدات معالجة الرسومات للتدريب والتشغيل، خاصة إذا أصبح استخدامها شائعًا.

النماذج العالمية، مثل جميع نماذج الذكاء الاصطناعي، تهلوس أيضًا، وتستوعب التحيزات في بيانات التدريب الخاصة بها. إن النموذج العالمي الذي تم تدريبه إلى حد كبير على مقاطع فيديو للطقس المشمس في المدن الأوروبية قد يواجه صعوبة في فهم أو تصوير المدن الكورية في ظروف ثلجية، على سبيل المثال، أو ببساطة يفعل ذلك بشكل غير صحيح.

يقول مشرابوف إن النقص العام في بيانات التدريب يهدد بتفاقم هذه المشكلات.

وقال: “لقد رأينا النماذج محدودة حقًا بأجيال من الأشخاص من نوع أو عرق معين”. “يجب أن تكون بيانات التدريب الخاصة بالنموذج العالمي واسعة بما يكفي لتغطية مجموعة متنوعة من السيناريوهات، ولكنها أيضًا محددة للغاية حيث يمكن للذكاء الاصطناعي أن يفهم بعمق الفروق الدقيقة في تلك السيناريوهات.”

في منشور حديث، يقول كريستوبال فالينزويلا، الرئيس التنفيذي لشركة Runway الناشئة في مجال الذكاء الاصطناعي، إن مشكلات البيانات والهندسة تمنع النماذج الحالية من التقاط سلوك سكان العالم بدقة (مثل البشر والحيوانات). وقال: “ستحتاج النماذج إلى إنشاء خرائط متسقة للبيئة، والقدرة على التنقل والتفاعل في تلك البيئات”.

أوبن آي سورا — فيديو تم إنشاؤه بواسطة Sora. **اعتمادات الصورة:**OpenAI

ومع ذلك، إذا تم التغلب على جميع العقبات الرئيسية، يعتقد مشرابوف أن النماذج العالمية يمكن أن تربط “بقوة أكبر” بين الذكاء الاصطناعي والعالم الحقيقي – مما يؤدي إلى اختراقات ليس فقط في توليد العالم الافتراضي، بل أيضًا في مجال الروبوتات وصنع القرار في مجال الذكاء الاصطناعي.

ويمكنهم أيضًا إنتاج روبوتات أكثر قدرة.

الروبوتات اليوم محدودة في ما يمكنها فعله لأنها لا تملك وعيًا بالعالم من حولها (أو أجسادها). وقال مشرابوف إن النماذج العالمية يمكن أن تمنحهم هذا الوعي، إلى حد ما على الأقل.

وقال: “مع وجود نموذج عالمي متقدم، يمكن للذكاء الاصطناعي تطوير فهم شخصي لأي سيناريو يتم وضعه فيه، والبدء في التفكير في الحلول الممكنة”.