هل يمكن لتصميم مذهل أن يميز الذكاء الاصطناعي لجيب r1 الخاص بالأرنب عن مجموعة من المساعدين الافتراضيين؟
في بحر من بين الأدوات التي تدعم الذكاء الاصطناعي في معرض CES، يبرز الأرنب r1 (كله بأحرف صغيرة، كما يصرون) ليس فقط بسبب طلاءه عالي الوضوح وعامل الشكل الفريد، ولكن أيضًا بسبب تفانيه في العمل. وتأمل الشركة أن تحمل جهازًا ثانيًا لتوفر على نفسك عناء فتح هاتفك، وقد بذلت جهودًا تقنية غير عادية لجعله يعمل.
الفكرة وراء جهاز R1 بقيمة 200 دولار بسيطة: فهي تتيح لك الاحتفاظ بهاتفك في جيبك عندما تحتاج إلى القيام ببعض المهام البسيطة مثل طلب سيارة إلى موقعك، أو البحث عن بعض الأماكن لتناول الطعام حيث تقابل الأصدقاء، أو تجد بعض خيارات السكن لقضاء عطلة نهاية الأسبوع على الساحل.
قال الرئيس التنفيذي والمؤسس جيسي ليو في مكالمة مع الصحافة قبل معرض لاس فيغاس للتكنولوجيا: “نحن لا نحاول قتل هاتفك”. “الهاتف عبارة عن جهاز ترفيهي، ولكن إذا كنت تحاول إنجاز شيء ما، فهو ليس الجهاز الأعلى كفاءة. لترتيب العشاء مع أحد الزملاء، كنا بحاجة إلى 4-5 تطبيقات مختلفة للعمل معًا. تعد النماذج اللغوية الكبيرة حلاً عالميًا للغة الطبيعية، ونحن نريد حلاً عالميًا لهذه الخدمات – يجب أن يكونوا قادرين على فهمك فقط.
بدلاً من سحب هاتفك وفتحه والعثور على التطبيق وفتحه والعمل عبر واجهة المستخدم (وهو أمر شاق للغاية!)، يمكنك سحب r1 بدلاً من ذلك وإعطائه أمرًا باللغة الطبيعية:
“اتصل بـ Uber XL ليأخذنا إلى متحف الفن الحديث.”
“أعطني قائمة بخمسة مطاعم رخيصة تقع على مسافة 10 دقائق سيرًا على الأقدام من هناك.”
“قم بإدراج أفضل الكبائن التي تم تقييمها لـ 6 أشخاص بالغين على Airbnb على بعد 10 أميال من شاطئ البحر، وليس أكثر من 300 دولار في الليلة.”
يعمل r1 كما تقدم عرضًا له وبعد ثوانٍ قليلة يقدم تأكيدًا وأي محتوى قد تكون طلبته.
يبدو مألوفا، أليس كذلك؟ ففي نهاية المطاف، هذا ما يفترض أن ما يسمى “مساعدو الذكاء الاصطناعي” لدينا كانوا يفعلونه على مدى السنوات الخمس أو الست الماضية. “سيري، افعل هذا”، “مرحبًا جوجل، افعل ذلك.” أنت على حق! ولكن هناك فرق واحد كبير.
يمكن وصف Siri وGoogle Assistant وAlexa وكل ما تبقى بشكل أفضل في “الواجهات الصوتية للتطبيقات المصغرة المخصصة”، وليس على الإطلاق مثل نماذج اللغة التي بدأ الكثير منا الدردشة معها خلال العام الماضي. عندما تطلب من Google أن تجلب لك Lyft إلى موقعك الحالي، فإنها تستخدم واجهة برمجة تطبيقات Lyft الرسمية لإرسال المعلومات ذات الصلة والحصول على رد – فهي في الأساس مجرد جهازين يتحدثان مع بعضهما البعض.
لا يعني ذلك أن هناك أي خطأ في ذلك، ولكن ما يمكنك فعله عبر واجهة برمجة التطبيقات (API) غالبًا ما يكون محدودًا للغاية. وبالطبع يجب أن تكون هناك علاقة رسمية بين المساعد والتطبيق، اتصال معتمد ومدفوع الأجر. إذا كان التطبيق الذي تفضله لا يعمل مع Siri، أو أن واجهة برمجة التطبيقات التي يمكن لـ Alexa الوصول إليها قديمة، فهذا يعني أنك لم يحالفك الحظ. وماذا عن بعض التطبيقات المتخصصة الصغيرة جدًا بحيث لا يمكن الحصول على صفقة رسمية مع Google؟
إن ما صممه أرنب هو أكثر انسجاماً مع نماذج الذكاء الاصطناعي من النوع “الوكيل” التي رأيناها تظهر خلال العام الماضي، وهي نماذج التعلم الآلي التي يتم تدريبها على واجهات المستخدم العادية مثل مواقع الويب والتطبيقات. ونتيجة لذلك، يمكنهم طلب البيتزا ليس من خلال بعض واجهات برمجة تطبيقات Domino المخصصة، ولكن بنفس الطريقة التي يفعلها الإنسان: من خلال النقر على الأزرار والحقول العادية على موقع ويب عادي أو تطبيق جوال.
قامت الشركة بتدريب “نموذج العمل الكبير” الخاص بها أو LAM على عدد لا يحصى من لقطات الشاشة ومقاطع الفيديو للتطبيقات الشائعة، ونتيجة لذلك عندما تطلب منها تشغيل ألبوم قديم لبوب ديلان على Spotify، فإنها لا تضيع في منتصف الطريق. إنه يعرف أنه يجب عليه الانتقال إلى صفحة فنان ديلان، وتنظيم الألبومات حسب تاريخ الإصدار، والتمرير لأسفل، ووضع قائمة الانتظار في أحد الألبومات الأقدم. أو كيفما تفعل ذلك.
يمكنك مشاهدة العملية بالفيديو في فيديو الأرنب هنا.
إنه يعرف بالفعل كيفية العمل مع مجموعة من التطبيقات والخدمات الشائعة، ولكن إذا كان لديك واحدة لا يعرفها، فإن الأرنب يدعي أن r1 يمكنه التعلم بمجرد مشاهدتك تستخدم التطبيق لفترة من الوقت – على الرغم من أن وضع التدريس هذا لن يفعل ذلك. لن تكون متاحة عند الإطلاق. (قال ليو أنهم نجحوا في تشغيله في Diablo 4، لذلك من المحتمل أن يتمكن من التعامل مع AllTrails.)
لكن بالطبع لا يستطيع r1 الضغط فعليًا على تلك الأزرار الموجودة في التطبيق من تلقاء نفسه – لسبب واحد، ليس لديه أي أصابع للضغط عليها، ولسبب آخر، ليس لديه حساب. بالنسبة للمشكلة الثانية، قام موقع Rabbit بإعداد ما يطلق عليه اسم “Rabbit Hole”، وهي منصة يمكنك من خلالها تنشيط الخدمات باستخدام بيانات اعتماد تسجيل الدخول الخاصة بك، والتي لا يتم حفظها. بعد أن تصبح نشطة، يقوم الخادم بتشغيل التطبيق باستخدام الضغط على الأزرار العادية تمامًا كما تفعل، ولكن في بيئة تمت محاكاتها من نوع ما (لم يكونوا محددين للغاية بشأن هذا الأمر).
قال ليو، بسخاء، على افتراض أننا جميعًا على دراية بهذه الراحة الخاصة: “فكر في الأمر مثل تمرير هاتفك إلى مساعدك”. “كل ما نفعله هو أن نضغط على الأزرار من أجلك. وكل ما يرونه في الواجهة الخلفية لهم هو أنك تحاول القيام بالأشياء. إنه قانوني تمامًا ويضمن شروط الخدمة الخاصة بهم.
أصغر وأرخص وأسرع
من الواضح أن الشركة بذلت الكثير من العمل في الجانب التقني، ولكن السؤال الحقيقي هو ما إذا كان أي شخص سيرغب بالفعل في حمل هذا الشيء بالإضافة إلى الهاتف. يبلغ سعره 200 دولار، بدون اشتراك، على الرغم من أنك ستحتاج إلى توفير بطاقة SIM. هذا أرخص من AirPods، ويقدم الكثير من الوعود الممتعة.
الشيء الوحيد الذي من الواضح أنه يحدث هو المظهر. كما لو كان لدى Playdate ابن عم مؤسس لشركة ناشئة كان يقود سيارة Tesla حمراء زاهية مع لوحات زينة (أنت تعرف النوع). تم تصميمه بواسطة شركة Teenage Engineering، التي تصنع كل شيء يستحق الحصول عليه هذه الأيام.
قد تسأل، لماذا توجد شاشة على شيء من المفترض أن تتحدث معه؟ حسنًا، الشاشة ضرورية لتظهر لك أشياء مرئية مثل نتائج عمليات البحث، أو تأكيد موقعك. لدي عقلين هنا. يفكر المرء، حسنًا، كيف ستفعل ذلك؟ ويفكر الآخر، إذا كنت بحاجة إلى التأكد من كل هذه الأشياء في المقام الأول، فلماذا لا تستخدم الهاتف في جيبك الآخر فقط؟
من الواضح أن الطاقم في أرنب يعتقد أن فتح هذه الأداة الصغيرة (3 × 3 × 0.5 بوصة) والخفيفة (115 جرامًا) للأعلى وقول ما تريد، ثم استخدام عجلة التمرير والزر للتنقل بين النتائج يعد تجربة أبسط من استخدام التطبيق في كثير من الحالات. ويمكنني أن أرى كيف يمكن أن يكون ذلك صحيحًا، فالعديد من التطبيقات مصممة بشكل سيء ولديها الآن أيضًا خطر إضافي يتمثل في الإعلانات.
ولكن لماذا الكاميرا؟ هذه إحدى الميزات التي لم أتمكن من الحصول على إجابة مباشرة عنها. إنه يحتوي على محور مغناطيسي/عائم حر مثير للاهتمام بحيث يدور ليكون مستويًا ويشير إلى أي اتجاه تريده. يبدو أن هناك بعض الميزات التي لا تزال غير جاهزة للتنفيذ بعد، ولكن فكر في “كم عدد السعرات الحرارية الموجودة في كيس الحلوى هذا؟” أو “من صمم هذا المبنى؟” وهذا النوع من الشيء. قد تكون مكالمات الفيديو ووسائل التواصل الاجتماعي متاحة.
الجهاز متاح للطلب المسبق الآن، وقال Lyu إنهم يهدفون إلى شحنه إلى الولايات المتحدة في نهاية مارس.
منافسة مخيفة
ومع ذلك، فإن السؤال الكبير في نهاية المطاف ليس ما إذا كان الأرنب r1 سينجح في ما يعتزم القيام به – مما أستطيع أن أقول، إنه ينجح – ولكن ما إذا كان هذا النهج قابلاً للتطبيق في مواجهة القوى القوية للغاية. مسابقة.
تعمل كل من Google، وApple، وMicrosoft، وOpenAI، وAnthropic، وAmazon، وMeta، وغيرها الكثير، بجد لإنشاء عوامل أكثر قوة للتعلم الآلي كل يوم. الخطر الأكبر على الأرنب ليس أن أحدًا لن يشتريه، ولكن في غضون ستة أشهر، تقوم شركة تبلغ قيمتها مائة مليار دولار بإنشاء وكيل أعمال خاص بها يقوم بـ 80٪ مما يفعله الأرنب ويجعله متاحًا مجانًا على جهازك. هاتف ذكي.
سألت ليو عما إذا كان هذا مصدر قلق له ولشركته، التي تضم 17 موظفًا ليست على نفس المستوى تمامًا.
أجاب: “بالطبع نحن قلقون، نحن شركة ناشئة. لكن مجرد قدرتهم على فعل ذلك لا يعني أننا بحاجة إلى التوقف.
وأشار إلى أنه على الرغم من مواردها الهائلة، إلا أن هذه الشركات تفتقر أيضًا إلى مرونة الشركة الناشئة، التي تقوم اليوم بشحن ما قد تشحن جزءًا منه لاحقًا، وكذلك البيانات. وأشار إلى أن النماذج اللغوية “تعتمد على وصفة مفتوحة – خمس أوراق بحثية، هذا كل شيء”. هناك فرصة ضئيلة لإنشاء خندق هناك. لكن LAM الخاص بالأرنب مبني على بيانات خاصة ويهدف إلى توفير تجربة مستخدم محددة للغاية على جهاز محدد للغاية.
ومع ذلك، حتى لو كان الأرنب r1 أفضل أو لطيفًا، فإن الناس يفضلون البساطة والراحة. لماذا يدفعون المال لحمل جهاز ثانٍ في حين أن الجهاز الأول يقوم بمعظم هذه المهام؟ على المدى القصير، الجواب هو نعم: قال ليو إن الطلبات المسبقة تتراكم. هل سيعيش الأرنب لينتج الجيل القادم، ومن المفترض أنه R2؟ وحتى لو لم يفعلوا ذلك، فقد يعيش هذا الجهاز الصغير المثير في ذاكرتنا كنموذج طموح مناسب لروح الذكاء الاصطناعي.