“محرج وخاطئ”: تعترف Google بأنها فقدت السيطرة على الذكاء الاصطناعي المولد للصور

اعتذرت شركة جوجل (أو اقتربت جدًا من الاعتذار) عن خطأ فادح آخر محرج في مجال الذكاء الاصطناعي هذا الأسبوع، وهو نموذج لتوليد الصور يحقن التنوع في الصور مع تجاهل هزلي للسياق التاريخي. ورغم أن المشكلة الأساسية مفهومة تمامًا، فإن جوجل تلوم النموذج لأنه “أصبح” شديد الحساسية. النموذج لم يصنع نفسه يا رفاق.

نظام الذكاء الاصطناعي المعني هو Gemini، منصة الذكاء الاصطناعي المحادثة الرائدة للشركة، والتي عندما يُطلب منها الاتصال بنسخة من نموذج Imagen 2 لإنشاء صور حسب الطلب.

ومع ذلك، وجد الناس مؤخرًا أن مطالبتهم بإنشاء صور لظروف تاريخية معينة أو لأشخاص معينين يؤدي إلى نتائج مثيرة للضحك. على سبيل المثال، تم تقديم الآباء المؤسسين، الذين نعرف أنهم أصحاب العبيد البيض، كمجموعة متعددة الثقافات بما في ذلك الأشخاص الملونين.

هذه القضية المحرجة والتي يمكن تكرارها بسهولة أثارت سخرية المعلقين عبر الإنترنت بسرعة. كما تم، كما كان متوقعا، اقتحام المناقشة الجارية حول التنوع والمساواة والشمول (حاليا عند الحد الأدنى من السمعة المحلية)، وتم الاستيلاء عليها من قبل النقاد كدليل على فيروس العقل المستيقظ الذي يزيد من اختراق قطاع التكنولوجيا الليبرالي بالفعل.

صورة أنشأها مستخدم تويتر باتريك جانلي.

لقد جن جنون DEI، صاح المواطنون المعنيون بشكل واضح. هذه هي أمريكا بايدن! جوجل عبارة عن “غرفة صدى أيديولوجية”، وحصان مطارد لليسار! (ويجب أن يقال إن اليسار كان منزعجاً أيضاً بشكل مناسب من هذه الظاهرة الغريبة).

ولكن كما يمكن لأي شخص لديه أي معرفة بالتكنولوجيا أن يخبرك، وكما تشرح جوجل في منشورها الصغير المتاخم للاعتذار اليوم، كانت هذه المشكلة نتيجة لحل بديل معقول تمامًا للتحيز المنهجي في بيانات التدريب.

لنفترض أنك تريد استخدام برج الجوزاء لإنشاء حملة تسويقية، وطلبت منه إنشاء 10 صور “لشخص يمشي مع كلب في حديقة”. نظرًا لأنك لا تحدد نوع الشخص أو الكلب أو الحديقة، فالأمر متروك للتاجر – وسيقوم النموذج التوليدي بطرح ما هو أكثر دراية به. وفي كثير من الحالات، لا يكون هذا نتاجًا للواقع، بل لبيانات التدريب، التي يمكن أن تحتوي على جميع أنواع التحيزات.

ما هي أنواع الأشخاص، وفي هذا الصدد الكلاب والحدائق العامة، الأكثر شيوعًا في آلاف الصور ذات الصلة التي استوعبها النموذج؟ والحقيقة هي أن الأشخاص البيض يتم تمثيلهم بشكل زائد في الكثير من مجموعات الصور هذه (الصور المخزنة، والتصوير الفوتوغرافي بدون حقوق، وما إلى ذلك)، ونتيجة لذلك، سيتحول النموذج افتراضيًا إلى الأشخاص البيض في الكثير من الحالات إذا لم تقم بذلك. تحديد.

وهذا مجرد جزء من بيانات التدريب، ولكن كما تشير Google، “نظرًا لأن مستخدمينا يأتون من جميع أنحاء العالم، فإننا نريد أن يعمل هذا البرنامج بشكل جيد للجميع. إذا طلبت صورة للاعبي كرة قدم، أو لشخص يمشي كلبًا، فقد ترغب في استقبال مجموعة من الأشخاص. ربما لا ترغب فقط في تلقي صور لأشخاص ينتمون إلى نوع واحد فقط من العرق (أو أي سمة أخرى).”

رسم توضيحي لمجموعة من الأشخاص الذين تم تسريحهم مؤخرًا ويحملون صناديق.

تخيل أنك تسأل عن صورة كهذه – ماذا لو كانت جميعها من نوع واحد من الأشخاص؟ نتيجة سيئة!

لا حرج في الحصول على صورة لرجل أبيض يمشي مع كلب جولدن ريتريفر في حديقة في الضواحي. ولكن إذا طلبت 10، وهم الجميع الرجال البيض يمشون في حدائق الضواحي؟ وأنت تعيش في المغرب، حيث يبدو الناس والكلاب والحدائق مختلفة؟ هذه ببساطة ليست نتيجة مرغوبة. إذا لم يحدد شخص ما إحدى الخصائص، فيجب على النموذج أن يختار التنوع، وليس التجانس، على الرغم من أن بيانات التدريب الخاصة به قد تؤدي إلى تحيزه.

هذه مشكلة شائعة في جميع أنواع الوسائط التوليدية. وليس هناك حل بسيط. ولكن في الحالات الشائعة بشكل خاص، أو الحساسة، أو كليهما، تقوم شركات مثل Google، وOpenAI، وAnthropic، وما إلى ذلك، بتضمين تعليمات إضافية للنموذج بشكل غير مرئي.

لا أستطيع أن أؤكد بما فيه الكفاية على مدى شيوع هذا النوع من التعليمات الضمنية. تم بناء نظام LLM البيئي بأكمله على تعليمات ضمنية – مطالبات النظام، كما يطلق عليها أحيانًا، حيث يتم تقديم أشياء مثل “كن موجزًا” و”لا تقسم” وإرشادات أخرى للنموذج قبل كل محادثة. عندما تطلب نكتة، فإنك لا تحصل على نكتة عنصرية – لأنه على الرغم من أن العارضة قد استوعبت الآلاف منها، فقد تم تدريبها أيضًا، مثل معظمنا، على عدم إخبار تلك النكتة. هذه ليست أجندة سرية (على الرغم من أنها يمكن أن تكون أكثر شفافية)، إنها بنية تحتية.

والخطأ الذي وقع فيه نموذج جوجل هو فشله في الحصول على تعليمات ضمنية للمواقف حيث كان السياق التاريخي مهمًا. لذلك، في حين أن عبارة مثل “شخص يمشي مع كلب في حديقة” يتم تحسينها من خلال الإضافة الصامتة لعبارة “الشخص ينتمي إلى جنس أو عرق عشوائي” أو أي شيء آخر، فإن “توقيع الآباء المؤسسين للولايات المتحدة على الدستور” ليس بالتأكيد تحسين بنفس الشيء.

وكما قال نائب الرئيس الأول لشركة Google، برابهاكار راغافان:

أولاً، فشل ضبطنا للتأكد من أن برج الجوزاء أظهر مجموعة من الأشخاص في حساب الحالات التي يجب ألا تظهر نطاقًا بوضوح. وثانيًا، مع مرور الوقت، أصبح النموذج أكثر حذرًا مما كنا ننوي، ورفض الإجابة على بعض المطالبات بشكل كامل، مما أدى إلى تفسير خاطئ لبعض المحفزات المهدئة على أنها حساسة.

أدى هذان الأمران إلى الإفراط في التعويض في بعض الحالات، والإفراط في التحفظ في حالات أخرى، مما أدى إلى ظهور صور محرجة وخاطئة.

أعلم مدى صعوبة قول “آسف” في بعض الأحيان، لذلك أسامح برابهاكار على التوقف قبل قليل. والأهم من ذلك هو بعض اللغة المثيرة للاهتمام: “أصبح النموذج أكثر حذرًا مما كنا ننوي”.

الآن كيف يمكن للنموذج أن “يصبح” أي شيء؟ انها البرمجيات. لقد قام شخص ما – مهندسو Google بالآلاف – ببنائه واختباره وتكراره. كتب أحدهم التعليمات الضمنية التي أدت إلى تحسين بعض الإجابات وتسببت في فشل البعض الآخر بشكل مضحك. عندما فشل هذا الأمر، إذا كان بإمكان شخص ما فحص المطالبة الكاملة، فمن المحتمل أن يجد الشيء الخطأ الذي ارتكبه فريق Google.

تلوم Google النموذج لأنه “أصبح” شيئًا لم يكن “مقصودًا” أن يكون عليه. لكنهم صنعوا النموذج! وكأنهم كسروا زجاجًا، فبدلاً من أن يقولوا “لقد أسقطناه”، يقولون “لقد سقط”. (لقد فعلت هذا.)

ومن المؤكد أن الأخطاء التي ترتكبها هذه النماذج أمر لا مفر منه. إنهم يهلوسون، ويعكسون التحيزات، ويتصرفون بطرق غير متوقعة. لكن المسؤولية عن تلك الأخطاء لا تقع على عاتق النماذج، بل على عاتق الأشخاص الذين ارتكبوها. اليوم هذا هو جوجل. غدا سوف يكون OpenAI. في اليوم التالي، وربما لبضعة أشهر متتالية، سيكون X.AI.

لدى هذه الشركات مصلحة قوية في إقناعك بأن الذكاء الاصطناعي يرتكب أخطائه. لا تدع لهم.