تحدد Google طرقًا جديدة لتدريب الروبوتات باستخدام نماذج الفيديو واللغات الكبيرة
سيكون عام 2024 عامًا ضخمًا بالنسبة للمقطع العرضي من الذكاء الاصطناعي/النماذج التأسيسية الكبيرة والروبوتات. هناك الكثير من الإثارة تدور حول إمكانات التطبيقات المختلفة، بدءًا من التعلم وحتى تصميم المنتج. يعد باحثو DeepMind Robotics من Google واحدًا من عدد من الفرق التي تستكشف إمكانات الفضاء. في منشور مدونة اليوم، يسلط الفريق الضوء على الأبحاث المستمرة المصممة لإعطاء الروبوتات فهمًا أفضل لما نريده نحن البشر منها على وجه التحديد.
تقليديا، ركزت الروبوتات على القيام بمهمة واحدة بشكل متكرر طوال حياتهم. تميل الروبوتات ذات الغرض الواحد إلى أن تكون جيدة جدًا في هذا الشيء الوحيد، ولكنها تواجه أيضًا صعوبة عندما يتم إدخال تغييرات أو أخطاء عن غير قصد في الإجراءات.
تم تصميم AutoRT المعلن عنه حديثًا لتسخير النماذج الأساسية الكبيرة لعدد من الأغراض المختلفة. في مثال قياسي قدمه فريق DeepMind، يبدأ النظام من خلال الاستفادة من نموذج اللغة المرئية (VLM) لتحسين الوعي الظرفي. AutoRT قادر على إدارة أسطول من الروبوتات التي تعمل جنبًا إلى جنب ومجهزة بكاميرات للحصول على تخطيط لبيئتها والكائن الموجود بداخلها.
وفي الوقت نفسه، يقترح نموذج اللغة الكبير المهام التي يمكن إنجازها بواسطة الأجهزة، بما في ذلك المستجيب النهائي. يفهم الكثيرون أن شهادات LLM هي المفتاح لفتح الروبوتات التي تفهم بشكل فعال المزيد من أوامر اللغة الطبيعية، مما يقلل الحاجة إلى مهارات البرمجة الصعبة.
لقد تم بالفعل اختبار النظام قليلاً خلال الأشهر السبعة الماضية أو نحو ذلك. AutoRT قادر على تنسيق ما يصل إلى 20 روبوتًا في وقت واحد وما مجموعه 52 جهازًا مختلفًا. في المجمل، جمعت DeepMind حوالي 77000 تجربة، بما في ذلك أكثر من 6000 مهمة.
الجديد أيضًا من الفريق هو RT-Trajectory، الذي يعزز إدخال الفيديو للتعلم الآلي. تستكشف الكثير من الفرق استخدام مقاطع فيديو YouTube كوسيلة لتدريب الروبوتات على نطاق واسع، لكن RT-Trajectory يضيف طبقة مثيرة للاهتمام، حيث يغطي رسمًا ثنائي الأبعاد للذراع أثناء العمل على الفيديو.
ويشير الفريق إلى أن “هذه المسارات، في شكل صور RGB، توفر تلميحات مرئية عملية منخفضة المستوى للنموذج أثناء تعلمه لسياسات التحكم في الروبوت.”
وتقول شركة DeepMind إن التدريب ضاعف معدل نجاح تدريب RT-2، بنسبة 63% مقارنة بـ 29%، أثناء اختبار 41 مهمة.
ويشير الفريق إلى أن “RT-Trajectory يستفيد من معلومات الحركة الروبوتية الغنية الموجودة في جميع مجموعات بيانات الروبوت، ولكنها غير مستغلة حاليًا”. “لا يمثل RT-Trajectory خطوة أخرى على طريق بناء الروبوتات القادرة على التحرك بدقة فعالة في المواقف الجديدة فحسب، بل يمثل أيضًا إطلاق العنان للمعرفة من مجموعات البيانات الموجودة.”