يمكن لنموذج الذكاء الاصطناعي الجديد من Anthropic التحكم في جهاز الكمبيوتر الخاص بك

وفي عرض للمستثمرين في الربيع الماضي، قالت شركة Anthropic إنها تعتزم بناء الذكاء الاصطناعي لتشغيل المساعدين الافتراضيين الذين يمكنهم إجراء الأبحاث والرد على رسائل البريد الإلكتروني والتعامل مع وظائف المكتب الخلفي الأخرى بأنفسهم. أشارت الشركة إلى هذا على أنه “خوارزمية الجيل التالي للتعليم الذاتي للذكاء الاصطناعي” – وهي خوارزمية تعتقد أنها يمكن، إذا سارت الأمور وفقًا للخطة، أتمتة أجزاء كبيرة من الاقتصاد يومًا ما.

لقد استغرق الأمر بعض الوقت، لكن الذكاء الاصطناعي بدأ في الوصول.

أصدرت Anthropic يوم الثلاثاء نسخة مطورة من نموذج Claude 3.5 Sonnet الذي يمكنه فهم أي تطبيق لسطح المكتب والتفاعل معه. ومن خلال واجهة برمجة تطبيقات “استخدام الكمبيوتر” الجديدة، والتي أصبحت الآن في مرحلة تجريبية مفتوحة، يمكن للنموذج تقليد ضغطات المفاتيح ونقرات الأزرار وإيماءات الماوس، مما يحاكي بشكل أساسي شخصًا يجلس على جهاز كمبيوتر.

كتب Anthropic في منشور مدونة تمت مشاركته مع TechCrunch: “لقد قمنا بتدريب كلود على رؤية ما يحدث على الشاشة ثم استخدام الأدوات البرمجية المتاحة لتنفيذ المهام”. “عندما يكلف أحد المطورين كلود باستخدام أحد برامج الكمبيوتر ويمنحه الوصول اللازم، ينظر كلود إلى لقطات شاشة لما هو مرئي للمستخدم، ثم يحسب عدد وحدات البكسل عموديًا أو أفقيًا التي يحتاجها لتحريك المؤشر من أجل النقر. المكان الصحيح.”

يمكن للمطورين تجربة استخدام الكمبيوتر عبر Anthropic’s API وAmazon Bedrock ومنصة Vertex AI من Google Cloud. السوناتة 3.5 الجديدة بدون يتم طرح استخدام الكمبيوتر في تطبيقات Claude، ويجلب تحسينات مختلفة في الأداء مقارنة بنموذج Sonnet 3.5 الصادر.

أتمتة التطبيقات

إن الأداة التي يمكنها أتمتة المهام على جهاز الكمبيوتر ليست فكرة جديدة. يقدم عدد لا يحصى من الشركات مثل هذه الأدوات، بدءًا من بائعي تقنية RPA منذ عقود وحتى الشركات الناشئة الأحدث مثل Relay وInduced AI وAutomat.

وفي السباق لتطوير ما يسمى “عملاء الذكاء الاصطناعي”، أصبح هذا المجال أكثر ازدحاما. لا يزال مصطلح وكلاء الذكاء الاصطناعي مصطلحًا غير محدد، ولكنه يشير عمومًا إلى الذكاء الاصطناعي الذي يمكنه أتمتة البرامج.

يقول بعض المحللين إن وكلاء الذكاء الاصطناعي يمكن أن يوفروا للشركات طريقًا أسهل لتحقيق الدخل من مليارات الدولارات التي يضخونها في الذكاء الاصطناعي. ويبدو أن الشركات توافق على ذلك: وفقًا لاستطلاع أجرته شركة Capgemini مؤخرًا، فإن 10% من المؤسسات تستخدم بالفعل وكلاء الذكاء الاصطناعي و82% منها ستقوم بدمجهم خلال السنوات الثلاث المقبلة.

أصدرت Salesforce إعلانات مبهرة حول تقنية وكيل الذكاء الاصطناعي الخاصة بها هذا الصيف، بينما روجت Microsoft لأدوات جديدة لبناء وكلاء الذكاء الاصطناعي أمس. ترى شركة OpenAI، التي تخطط لعلامتها التجارية الخاصة من عملاء الذكاء الاصطناعي، أن التكنولوجيا خطوة نحو الذكاء الاصطناعي الفائق الذكاء.

تطلق Anthropic على مفهوم وكيل الذكاء الاصطناعي اسم “طبقة تنفيذ الإجراء” التي تتيح لـ 3.5 Sonnet الجديد تنفيذ أوامر على مستوى سطح المكتب. بفضل قدرته على تصفح الويب (ليس الأول من نوعه في نماذج الذكاء الاصطناعي، ولكنه الأول من نوعه في Anthropic)، يمكن لـ 3.5 Sonnet استخدام أي موقع ويب وأي تطبيق.

يستطيع الذكاء الاصطناعي الجديد من Anthropic التحكم في التطبيقات الموجودة على جهاز الكمبيوتر. اعتمادات الصورة:أنثروبي

قال متحدث باسم Anthropic لـ TechCrunch: “يظل البشر مسيطرين من خلال تقديم مطالبات محددة توجه تصرفات كلود، مثل استخدام البيانات من جهاز الكمبيوتر الخاص بي وعبر الإنترنت لملء هذا النموذج”. “يقوم الأشخاص بتمكين الوصول وتقييد الوصول حسب الحاجة. يقوم كلود بتقسيم مطالبات المستخدم إلى أوامر الكمبيوتر (على سبيل المثال: تحريك المؤشر، والنقر، والكتابة) لإنجاز هذه المهمة المحددة.

استخدمت منصة تطوير البرمجيات Replit إصدارًا مبكرًا من نموذج 3.5 Sonnet الجديد لإنشاء “أداة تحقق مستقلة” يمكنها تقييم التطبيقات أثناء إنشائها. وفي الوقت نفسه، تقول Canva إنها تستكشف الطرق التي قد يكون النموذج الجديد قادرًا من خلالها على دعم عملية التصميم والتحرير.

ولكن كيف يختلف هذا عن عملاء الذكاء الاصطناعي الآخرين الموجودين هناك؟ إنه سؤال معقول. تعمل شركة Rabbit، وهي شركة ناشئة للأدوات الاستهلاكية، على إنشاء وكيل ويب يمكنه القيام بأشياء مثل شراء تذاكر السينما عبر الإنترنت؛ تقوم شركة Adept، التي استحوذت عليها أمازون مؤخرًا، بتدريب العارضات على تصفح مواقع الويب والتنقل بين البرامج؛ وتستخدم Twin Labs نماذج جاهزة، بما في ذلك GPT-4o من OpenAI، لأتمتة عمليات سطح المكتب.

تدعي Anthropic أن 3.5 Sonnet الجديد هو ببساطة نموذج أقوى وأكثر قوة يمكنه القيام بمهام الترميز بشكل أفضل من حتى o1 الرائد في OpenAI، وفقًا لمعيار SWE-bench الذي تم التحقق منه. على الرغم من عدم تدريبه بشكل صريح على القيام بذلك، فإن Sonnet 3.5 الذي تمت ترقيته يقوم بالتصحيح الذاتي وإعادة محاولة المهام عندما يواجه عقبات، ويمكنه العمل على تحقيق الأهداف التي تتطلب عشرات أو مئات الخطوات.

كلود 3.5 السوناتة الجديدة — أداء طراز Claude 3.5 Sonnet الجديد وفق معايير مختلفة. **اعتمادات الصورة:**أنثروبي

لكن لا تطرد سكرتيرتك بعد.

في تقييم مصمم لاختبار قدرة وكيل الذكاء الاصطناعي على المساعدة في مهام حجز شركات الطيران، مثل تعديل حجز رحلة طيران، تمكنت 3.5 Sonnet الجديدة من إكمال أقل من نصف المهام بنجاح. وفي اختبار منفصل يتضمن مهام مثل بدء العودة، فشل 3.5 Sonnet في ثلث الحالات تقريبًا.

يعترف Anthropic أن الإصدار 3.5 Sonnet الذي تمت ترقيته يعاني من صعوبة في الإجراءات الأساسية مثل التمرير والتكبير/التصغير، وأنه يمكن أن يفوته الإجراءات والإشعارات “قصيرة العمر” بسبب الطريقة التي يلتقط بها لقطات الشاشة ويجمعها معًا.

وكتبت أنثروبيك في منشورها: “يظل استخدام كلود للكمبيوتر بطيئًا وغالبًا ما يكون عرضة للخطأ”. “نحن نشجع المطورين على بدء الاستكشاف بمهام منخفضة المخاطر.”

أعمال محفوفة بالمخاطر

ولكن هل السوناتة 3.5 الجديدة قادرة بما يكفي لتكون خطيرة؟ ربما.

وجدت دراسة حديثة أن النماذج بدون القدرة على استخدام تطبيقات سطح المكتب، مثل GPT-4o من OpenAI، كانوا على استعداد للانخراط في “سلوك وكيل متعدد الخطوات” ضار، مثل طلب جواز سفر مزيف من شخص ما على الويب المظلم، عند “الهجوم” باستخدام تقنيات كسر الحماية. أدت عمليات الهروب من السجن إلى معدلات نجاح عالية في أداء المهام الضارة حتى بالنسبة للنماذج المحمية بواسطة المرشحات والضمانات، وفقًا للباحثين.

يمكن للمرء أن يتخيل كيف نموذجا مع يمكن أن يحدث الوصول إلى سطح المكتب أكثر الفوضى – على سبيل المثال، من خلال استغلال نقاط الضعف في التطبيق لاختراق المعلومات الشخصية (أو تخزين الدردشات في نص عادي). وبصرف النظر عن أدوات البرمجيات المتاحة له، فإن اتصالات النموذج عبر الإنترنت والتطبيق يمكن أن تفتح طرقًا لكسر الحماية الضارة.

لا ينكر Anthropic أن هناك خطرًا في إطلاق 3.5 Sonnet الجديدة. لكن الشركة تقول إن فوائد مراقبة كيفية استخدام النموذج في البرية تفوق في النهاية هذه المخاطر.

وكتبت الشركة: “نعتقد أنه من الأفضل بكثير إتاحة الوصول إلى أجهزة الكمبيوتر لنماذج اليوم المحدودة والأكثر أمانًا نسبيًا”. “وهذا يعني أنه يمكننا البدء في مراقبة أي مشكلات محتملة تنشأ عند هذا المستوى الأدنى والتعلم منها، وزيادة استخدام الكمبيوتر وتخفيف آثار السلامة تدريجيًا وفي وقت واحد.”

وتقول Anthropic أيضًا إنها اتخذت خطوات لردع سوء الاستخدام، مثل عدم تدريب 3.5 Sonnet الجديد على لقطات الشاشة والمطالبات الخاصة بالمستخدمين، ومنع النموذج من الوصول إلى الويب أثناء التدريب. وتقول الشركة إنها طورت أدوات تصنيف “لدفع” 3.5 Sonnet بعيدًا عن الإجراءات التي يُنظر إليها على أنها عالية المخاطر، مثل النشر على وسائل التواصل الاجتماعي، وإنشاء حسابات، والتفاعل مع المواقع الحكومية.

مع اقتراب الانتخابات العامة الأمريكية، تقول أنثروبيك إنها تركز على التخفيف من إساءة استخدام نماذجها المتعلقة بالانتخابات. قام معهد سلامة الذكاء الاصطناعي الأمريكي ومعهد السلامة البريطاني، وهما وكالتان حكوميتان منفصلتان ولكن متحالفتان مخصصتان لتقييم مخاطر نماذج الذكاء الاصطناعي، باختبار 3.5 سونيت الجديدة قبل نشرها.

أخبرت Anthropic موقع TechCrunch أن لديها القدرة على تقييد الوصول إلى مواقع الويب والميزات الإضافية “إذا لزم الأمر”، للحماية من البريد العشوائي والاحتيال والمعلومات الخاطئة، على سبيل المثال. كإجراء احترازي للسلامة، تحتفظ الشركة بأي لقطات شاشة تم التقاطها بواسطة Computer Use لمدة 30 يومًا على الأقل – وهي فترة احتفاظ قد تثير قلق بعض المطورين.

لقد سألنا Anthropic عن الظروف التي سيتم بموجبها، إن وجدت، تسليم لقطات الشاشة إلى طرف ثالث (على سبيل المثال، تطبيق القانون) إذا طلب منها ذلك، وسوف نقوم بتحديث هذا المنشور إذا تلقينا ردًا.

وقالت أنثروبيك: “لا توجد أساليب مضمونة، وسوف نقوم باستمرار بتقييم وتكرار إجراءات السلامة لدينا لتحقيق التوازن بين قدرات كلود والاستخدام المسؤول”. “يجب على أولئك الذين يستخدمون نسخة الاستخدام للكمبيوتر من Claude اتخاذ الاحتياطات اللازمة لتقليل هذه الأنواع من المخاطر، بما في ذلك عزل Claude عن البيانات الحساسة بشكل خاص الموجودة على أجهزة الكمبيوتر الخاصة بهم.”

ونأمل أن يكون ذلك كافياً لمنع حدوث الأسوأ.

نموذج أرخص

ربما كان العنوان الرئيسي اليوم هو طراز Sonnet 3.5 الذي تمت ترقيته، لكن Anthropic قالت أيضًا إن نسخة محدثة من Haiku، النموذج الأرخص والأكثر كفاءة في سلسلة Claude، في الطريق.

سوف يضاهي أداء Claude 3.5 Haiku، المقرر إصداره في الأسابيع المقبلة، أداء Claude 3 Opus، الذي كان في السابق نموذجًا متطورًا لـ Anthropic، في معايير معينة بنفس التكلفة و”السرعة التقريبية” لكلود 3 Haiku.

“مع السرعات العالية، ومتابعة التعليمات المحسنة، واستخدام الأدوات الأكثر دقة، يعد Claude 3.5 Haiku مناسبًا تمامًا للمنتجات التي يواجهها المستخدم، ومهام الوكيل الفرعي المتخصصة، وتوليد تجارب مخصصة من كميات ضخمة من البيانات مثل تاريخ الشراء أو التسعير أو بيانات المخزون. “، كتب أنثروبيك في منشور بالمدونة.

3.5 سيكون Haiku متاحًا في البداية كنموذج نصي فقط ثم لاحقًا كجزء من حزمة متعددة الوسائط يمكنها تحليل كل من النص والصور.

كلود 3.5 هايكو — 3.5 أداء هايكو القياسي. **اعتمادات الصورة:**أنثروبي

لذا، بمجرد توفر 3.5 هايكو، هل سيكون هناك سبب كبير لاستخدام 3 Opus؟ ماذا عن 3.5 Opus، خليفة 3 Opus، الذي أثارته Anthropic في يونيو؟

وقال المتحدث باسم Anthropic: “جميع الموديلات في عائلة طرازات Claude 3 لها استخداماتها الفردية للعملاء”. “Claude 3.5 Opus موجود على خريطة الطريق الخاصة بنا وسنحرص على مشاركة المزيد في أقرب وقت ممكن.”