مع إطلاق واجهة برمجة التطبيقات متعددة الوسائط الخاصة بـ OpenAI على نطاق واسع، تظهر الأبحاث أنها لا تزال معيبة

اليوم خلال مؤتمرها الأول للتطوير، أصدرت OpenAI تفاصيل جديدة لإصدار GPT-4، نموذج الذكاء الاصطناعي الرائد لإنشاء النص للشركة، والذي يمكنه فهم سياق الصور وكذلك النص. يمكن لهذا الإصدار، الذي يطلق عليه OpenAI اسم “GPT-4 with Vision”، التعليق على الصور المعقدة نسبيًا وحتى تفسيرها – على سبيل المثال تحديد محول Lightning Cable من صورة جهاز iPhone متصل.
كان GPT-4 مع الرؤية متاحًا في السابق فقط لمستخدمين محددين لتطبيق Be My Eyes، وهو تطبيق مصمم لمساعدة الأشخاص ضعاف البصر على التنقل في العالم من حولهم؛ المشتركون في المستويات المتميزة لروبوت الدردشة ChatGPT الذي يعمل بالذكاء الاصطناعي من OpenAI؛ و”الفريق الأحمر” المكلف بفحص GPT-4 بالرؤية بحثًا عن علامات السلوك غير المقصود. وذلك لأن OpenAI أعاقت رؤية GPT-4 بعد الكشف عنها في أوائل شهر مارس، بسبب مخاوف بشأن كيفية إساءة استخدامها وانتهاك الخصوصية.
الآن، يبدو أن OpenAI واثقة بدرجة كافية في عمليات التخفيف التي تقوم بها للسماح لمجتمع التطوير الأوسع ببناء GPT-4 برؤية في تطبيقاتهم ومنتجاتهم وخدماتهم. وقالت الشركة هذا الصباح، إن GPT-4 مع الرؤية سيصبح متاحًا في الأسابيع المقبلة، عبر واجهة برمجة تطبيقات GPT-4 Turbo التي تم إطلاقها حديثًا.
والسؤال هو ما إذا كان GPT-4 مع الرؤية في الحقيقة ومع ذلك، فهي أكثر أمانًا مما كانت عليه من قبل.
في أكتوبر، قبل أسابيع قليلة من بدء OpenAI في طرح GPT-4 مع الرؤية لمشتركي ChatGPT، نشرت الشركة ورقة عمل توضح تفاصيل قيود النموذج والمزيد… مشكوك فيه الميول (مثل التمييز ضد أنواع معينة من الجسم). لكن الورقة شارك في تأليفها علماء OpenAI، وليس مختبرين خارجيين قد يقدمون وجهة نظر أكثر حيادية إلى الطاولة.
لحسن الحظ، زودت OpenAI العديد من الباحثين – أعضاء الفريق الأحمر المذكورين أعلاه – بإمكانية الوصول المبكر إلى GPT-4 مع رؤية لأغراض التقييم. نشر اثنان على الأقل، كريس كاليسون بورش، الأستاذ المساعد لعلوم الكمبيوتر في جامعة بنسلفانيا، وأليسا هوانج، طالبة الدكتوراه في كاليسون بورش، انطباعاتهما المبكرة بعد ظهر هذا اليوم في مؤتمر OpenAI.
قامت إحدى شركات العلاقات العامة بربط TechCrunch مع Callison-Burch وHwang عبر البريد الإلكتروني.
“لقد قمت بتجربة GPT-4 مع الرؤية لمجموعة متنوعة من المهام، بدءًا من الإجابة على الأسئلة حول الصور إلى جعله يساعد في اختيار كائنات ثلاثية الأبعاد للمشاهد في ألعاب الفيديو إلى وصف التراكيب والأساليب الفنية للوحات الفنية الجميلة،” كاليسون-بورش، الذي قال إنه تمكن من الوصول إلى GPT-4 مع الرؤية منذ يوليو، قال لـ TechCrunch في مقابلة. “في كل مرة، كان يتقن ذلك. الأوصاف جيدة بشكل لا يصدق، وهي تمثل تقدمًا واضحًا مقارنة بأحدث ما توصلت إليه التكنولوجيا السابقة في التعليق على الصور.
لكن هوانج، الذي أجرى مراجعة أكثر منهجية لـGPT-4 فيما يتعلق بقدرات الرؤية، وجد أن النموذج لا يزال معيبًا في عدة جوانب مهمة – وفي بعض الحالات – إشكالية.
“لقد اكتشفت أن GPT-4 ذو الرؤية غالبًا ما يصف بشكل صحيح مواقع العناصر [in an image] وقال هوانج لـ TechCrunch في رسالة بالبريد الإلكتروني: “لكنهم كانوا أقل نجاحًا في علاقاتهم الهيكلية أو النسبية”. “على سبيل المثال، قيل بشكل صحيح ذات مرة أن منحنيين على الرسم البياني الخطي يميلان إلى الأعلى، ولكن تم ذكر بشكل غير صحيح أيهما أعلى من الآخر. وقد ارتكبت عددًا لا بأس به من الأخطاء في الرسوم البيانية بشكل عام، بدءًا من تقدير القيم بشكل غير صحيح على شريط أو رسم بياني خطي إلى إساءة تفسير الألوان في وسيلة الإيضاح.
قام هوانج بتوثيق العديد من الأمثلة الأخرى لـ GPT-4 مع ارتكاب أخطاء في الرؤية في مسودة دراسة منشورة على خادم ما قبل الطباعة Arxiv.org. يركز عملها في المقام الأول على GPT-4 مع قدرة الرؤية على وصف الأرقام في الأوراق الأكاديمية، وهو تطبيق من المحتمل أن يكون مفيدًا جدًا للتكنولوجيا – ولكنه تطبيق حيث الدقة مهمة. كثيراً.
ولسوء الحظ، فإن الدقة لا تتوافق مع GPT-4 مع الرؤية القوية عندما يتعلق الأمر بالتفسير العلمي.
كتب هوانج أن GPT-4 ذو الرؤية يرتكب أخطاء عند إعادة إنتاج الصيغ الرياضية، وفي كثير من الأحيان يترك الحروف السفلية أو يطبعها بشكل غير صحيح. يطرح عد الكائنات في الرسوم التوضيحية مشكلة أخرى للنموذج، كما هو الحال مع وصف الألوان، وخاصة ألوان الكائنات المجاورة لبعضها البعض، والتي يختلط عليها GPT-4 مع الرؤية أحيانًا.
بعض عيوب GPT-4 الأكثر خطورة والأوسع نطاقًا في الرؤية تكمن في قسم الدقة الواقعية.
لا يستطيع GPT-4 ذو الرؤية استخراج النص بشكل موثوق من الصورة. ولتوضيح ذلك، في الدراسة، أعطى هوانج النموذج قائمة بقائمة من الوصفات وطلب منه نسخ كل وصفة كتابيًا. ارتكب GPT-4 ذو الرؤية أخطاء في تحليل عناوين الوصفات، فكتب أشياء مثل “كعكة البيض الحمراء المخملية” بدلاً من “كعكة المخملية الحمراء الخالية من البيض” و”ميداليات لحم الخنزير بالسمسم” بدلاً من “لحم الخنزير الميلاني بالسمسم”.
مثال على GPT-4 مع تحليل الرؤية واستخراج النص من صورة معينة. اعتمادات الصورة: أليسا هوانج
التحدي ذو الصلة لـ GPT-4 مع الرؤية هو التلخيص. عندما يُسأل عن جوهر مسح مستند ما، على سبيل المثال، قد يقوم جهاز GPT-4 ذو الرؤية بإعادة صياغة الجمل في ذلك المستند بشكل سيئ – مما يؤدي إلى حذف المعلومات في هذه العملية. أو قد يغير علامات الاقتباس المباشرة بطرق مضللة، مع حذف أجزاء تؤثر على معنى النص.
هذا لا يعني أن GPT-4 ذو الرؤية هو فشل تام لنموذج متعدد الوسائط. وأشاد هوانج بقدراته التحليلية، مشيرًا إلى أن النموذج يتألق عندما يُطلب منه وصف حتى المشاهد المعقدة إلى حد ما. من الواضح لماذا رأى OpenAI وBe My Eyes أن GPT-4 مع الرؤية قد يكون مفيدًا لإمكانية الوصول – فهو ملائم بشكل طبيعي.
لكن النتائج التي توصل إليها هوانج تؤكد ما ألمح إليه بحث OpenAI: أن GPT-4 ذو الرؤية لا يزال عملاً قيد التقدم. وبعيدًا عن كونه حلًا عالميًا للمشاكل، فإن GPT-4 ذو الرؤية يرتكب أخطاء أساسية لا يرتكبها الإنسان، ومن المحتمل أن يؤدي إلى تحيزات على طول الطريق.
من غير الواضح إلى أي مدى يمكن أن تؤثر ضمانات OpenAI، المصممة لمنع GPT-4 مع الرؤية من نشر السمية أو المعلومات الخاطئة، على دقتها – أو ما إذا كان النموذج ببساطة لم يتم تدريبه على ما يكفي من البيانات المرئية للتعامل مع حافة معينة الحالات (مثل كتابة الصيغ الرياضية). لم يتكهن هوانج، وترك السؤال للمتابعة البحثية.
في ورقتها البحثية، زعمت OpenAI أنها تبني “وسائل تخفيف” و”عمليات” لتوسيع GPT-4 بقدرات الرؤية بطريقة “آمنة”، مثل السماح لـ GPT-4 بالرؤية لوصف الوجوه والأشخاص دون تحديد هؤلاء الأشخاص بالاسم. سيتعين علينا أن ننتظر ونرى إلى أي مدى سيكون ناجحًا – أو ما إذا كان OpenAI يقترب من حدود ما هو ممكن باستخدام أساليب التدريب النموذجية متعددة الوسائط الحالية.