كيف وجدت Anthropic خدعة لجعل الذكاء الاصطناعي يعطيك إجابات ليس من المفترض أن تفعلها

إذا قمت ببنائها، سيحاول الناس كسرها. في بعض الأحيان حتى الناس مبنى الأشياء هي التي تكسرها. هذا هو الحال مع Anthropic وأحدث أبحاثها التي توضح وجود ثغرة مثيرة للاهتمام في تكنولوجيا LLM الحالية. بشكل أو بآخر، إذا واصلت الإجابة على سؤال ما، يمكنك كسر حواجز الحماية وينتهي بك الأمر مع نماذج لغوية كبيرة تخبرك بأشياء لم يتم تصميمها من أجلها. مثل كيفية صنع قنبلة.
بالطبع، نظرًا للتقدم في تكنولوجيا الذكاء الاصطناعي مفتوحة المصدر، يمكنك إنشاء ماجستير إدارة الأعمال الخاص بك محليًا وطرح ما تريد، ولكن بالنسبة لمزيد من الأشياء المخصصة للمستهلك، فهذه مشكلة تستحق التأمل. إن الشيء الممتع في الذكاء الاصطناعي اليوم هو الوتيرة السريعة التي يتقدم بها، ومدى نجاحنا – أو عدمه – في فهم ما نقوم ببنائه بشكل أفضل.
إذا سمحت لي بهذه الفكرة، أتساءل عما إذا كنا سنرى المزيد من الأسئلة والقضايا من النوع الذي تحدده Anthropic حيث تصبح ماجستير إدارة الأعمال وأنواع نماذج الذكاء الاصطناعي الجديدة الأخرى أكثر ذكاءً وأكبر. والذي ربما أكرر نفسي. لكن كلما اقتربنا من الذكاء الاصطناعي الأكثر عمومية، كلما كان عليه أن يشبه كيانًا مفكرًا، وليس جهاز كمبيوتر يمكننا برمجته، أليس كذلك؟ إذا كان الأمر كذلك، فقد نواجه صعوبة أكبر في تحديد الحالات المتطورة إلى الحد الذي يصبح فيه هذا العمل غير ممكن؟ على أية حال، دعونا نتحدث عما شاركته الأنثروبيك مؤخرًا.




