هذا الأسبوع في الذكاء الاصطناعي: معالجة العنصرية في مولدات صور الذكاء الاصطناعي

إن مواكبة صناعة سريعة الحركة مثل الذكاء الاصطناعي يعد أمرًا صعبًا. لذا، إلى أن يتمكن الذكاء الاصطناعي من القيام بذلك نيابةً عنك، إليك ملخصًا مفيدًا للقصص الحديثة في عالم التعلم الآلي، إلى جانب الأبحاث والتجارب البارزة التي لم نغطيها بمفردنا.

في هذا الأسبوع في مجال الذكاء الاصطناعي، أوقفت Google مؤقتًا قدرة برنامج الدردشة الآلي Gemini الخاص بها على إنشاء صور للأشخاص بعد أن اشتكى قطاع من المستخدمين من عدم الدقة التاريخية. على سبيل المثال، عندما يُطلب من الجوزاء تصوير “الفيلق الروماني”، فإنه سيُظهر مجموعة كرتونية عفا عليها الزمن من جنود مشاة متنوعين عرقيًا بينما يقدم “محاربي الزولو” على أنهم سود.

يبدو أن شركة جوجل – مثل بعض موردي الذكاء الاصطناعي الآخرين، بما في ذلك OpenAI – قد نفذت ترميزًا ثابتًا أخرقًا تحت الغطاء لمحاولة “تصحيح” التحيزات في نموذجها. ردًا على مطالبات مثل “أرني صورًا للنساء فقط” أو “أرني صورًا للرجال فقط”، يرفض الجوزاء، مؤكدًا أن مثل هذه الصور يمكن أن “تساهم في استبعاد وتهميش الأجناس الأخرى”. كان الجوزاء أيضًا يكره إنشاء صور للأشخاص الذين تم تحديدهم فقط من خلال عرقهم – على سبيل المثال “الأشخاص البيض” أو “السود” – بدافع الاهتمام الظاهري بـ “اختزال الأفراد في خصائصهم الجسدية”.

لقد تمسك اليمينيون بالأخطاء كدليل على أجندة “اليقظة” التي تديمها النخبة التكنولوجية. لكن الأمر لا يحتاج إلى شفرة أوكام لرؤية الحقيقة الأقل شناعة: جوجل، الذي أحرقته تحيزات أدواته من قبل (انظر: تصنيف الرجال السود على أنهم غوريلا، واعتقادهم أن البنادق الحرارية في أيدي السود أسلحة، وما إلى ذلك)، يائس للغاية. لتجنب تكرار التاريخ نفسه بأنه يُظهر عالمًا أقل تحيزًا في نماذجه المولدة للصور – مهما كانت خاطئة.

في كتابها الأكثر مبيعًا “هشاشة البيض”، كتبت المعلمة المناهضة للعنصرية، روبن دي أنجيلو، عن كيف يساهم محو العرق – “عمى الألوان”، بعبارة أخرى – في اختلال توازن القوى العرقية المنهجي بدلاً من تخفيفه أو تخفيفه. من خلال الادعاء بـ “عدم رؤية اللون” أو تعزيز فكرة أن مجرد الاعتراف بنضال الأشخاص من الأعراق الأخرى يكفي لوصف نفسه بأنه “مستيقظ”، فإن الناس تخليد يقول ديانجيلو: “إنها تضر من خلال تجنب أي تحفظ جوهري حول الموضوع”.

إن معالجة Google الصارمة للمطالبات القائمة على العرق في الجوزاء لم تتجنب المشكلة في حد ذاتها – ولكنها حاولت بشكل مخادع إخفاء أسوأ تحيزات النموذج. يمكن للمرء أن يجادل (وقد فعل الكثيرون ذلك) بأنه لا ينبغي تجاهل هذه التحيزات أو التغاضي عنها، بل يجب معالجتها في السياق الأوسع لبيانات التدريب التي تنشأ منها – أي المجتمع على شبكة الإنترنت العالمية.

نعم، تحتوي مجموعات البيانات المستخدمة لتدريب مولدات الصور بشكل عام على عدد أكبر من الأشخاص البيض مقارنة بالسود، ونعم، صور الأشخاص السود في مجموعات البيانات هذه تعزز الصور النمطية السلبية. ولهذا السبب تقوم مولدات الصور بإضفاء الطابع الجنسي على بعض النساء ذوات البشرة الملونة، وتصوير الرجال البيض في مناصب السلطة، وتفضل بشكل عام وجهات النظر الغربية الثرية.

قد يجادل البعض بأنه لا يوجد فوز لبائعي الذكاء الاصطناعي. وسواء تعاملوا مع تحيزات النماذج، أو اختاروا عدم معالجتها، فسوف يتعرضون للانتقاد. وهذا صحيح. لكنني أفترض، في كلتا الحالتين، أن هذه النماذج تفتقر إلى التفسير، فهي مغلفة بطريقة تقلل من الطرق التي تظهر بها تحيزاتها.

إذا قام بائعو الذكاء الاصطناعي بمعالجة أوجه القصور في نماذجهم بشكل مباشر، بلغة متواضعة وشفافة، فسوف يذهبون إلى أبعد من المحاولات العشوائية “لإصلاح” ما هو في الأساس تحيز غير قابل للإصلاح. لدينا جميعًا تحيز، والحقيقة هي أننا لا نعامل الناس بنفس الطريقة نتيجة لذلك. ولا النماذج التي نبنيها. ومن الجيد أن نعترف بذلك.

فيما يلي بعض قصص الذكاء الاصطناعي الأخرى الجديرة بالملاحظة من الأيام القليلة الماضية:

المرأة في الذكاء الاصطناعي: أطلقت TechCrunch سلسلة تسلط الضوء على النساء البارزات في مجال الذكاء الاصطناعي. اقرأ القائمة هنا.
الانتشار المستقر v3: أعلنت Stability AI عن Stable Diffusion 3، وهو الإصدار الأحدث والأقوى من نموذج الذكاء الاصطناعي المولد للصور الخاص بالشركة، والذي يعتمد على بنية جديدة.
يحصل Chrome على GenAI: تتيح أداة Google الجديدة التي تعمل بنظام Gemini في Chrome للمستخدمين إعادة كتابة النص الموجود على الويب – أو إنشاء شيء جديد تمامًا.
أكثر سوادًا من ChatGPT: قامت وكالة الإعلانات الإبداعية McKinney بتطوير لعبة اختبار، هل أنت أكثر سوادًا من ChatGPT؟، لتسليط الضوء على تحيز الذكاء الاصطناعي.
مطالبات بقوانين: وقع المئات من الشخصيات البارزة في مجال الذكاء الاصطناعي على رسالة عامة في وقت سابق من هذا الأسبوع تدعو إلى سن تشريعات لمكافحة التزييف العميق في الولايات المتحدة.
المباراة التي تم إجراؤها في الذكاء الاصطناعي: لدى OpenAI عميل جديد في Match Group، مالك التطبيقات بما في ذلك Hinge وTinder وMatch، والذي سيستخدم موظفوه تقنية الذكاء الاصطناعي الخاصة بـ OpenAI لإنجاز المهام المتعلقة بالعمل.
سلامة ديب مايند: قام DeepMind، قسم أبحاث الذكاء الاصطناعي في Google، بتشكيل مؤسسة جديدة، AI Safety and Alignment، مكونة من فرق حالية تعمل على سلامة الذكاء الاصطناعي ولكنها توسعت أيضًا لتشمل مجموعات جديدة ومتخصصة من الباحثين والمهندسين في GenAI.
النماذج المفتوحة: بعد أسبوع واحد فقط من إطلاق أحدث نسخة من موديلات Gemini، أصدرت Google Gemma، وهي عائلة جديدة من الموديلات خفيفة الوزن ومفتوحة الوزن.
فرقة العمل المنزلية: أنشأ مجلس النواب الأمريكي فريق عمل معنيًا بالذكاء الاصطناعي، يبدو – كما كتب ديفين – وكأنه رهان بعد سنوات من التردد الذي لا يظهر أي علامة على النهاية.

المزيد من التعلم الآلي

يبدو أن نماذج الذكاء الاصطناعي تعرف الكثير، ولكن ماذا تعرف في الواقع؟ حسنا، الجواب لا شيء. لكن إذا قمت بصياغة السؤال بشكل مختلف قليلاً… فيبدو أنهم استوعبوا بعض “المعاني” المشابهة لما يعرفه البشر. على الرغم من عدم وجود الذكاء الاصطناعي الذي يفهم حقًا ما هي القطة أو الكلب، فهل يمكن أن يكون لديه بعض التشابه المشفر في تضمين هاتين الكلمتين المختلفتين عن، على سبيل المثال، قطة وزجاجة؟ يعتقد الباحثون في أمازون ذلك.

قارن بحثهم “مسارات” جمل متشابهة ولكنها مختلفة، مثل “الكلب نبح على السارق” و”اللص تسبب في نباح الكلب”، مع جمل متشابهة نحويًا ولكنها مختلفة، مثل “قطة تنام طوال اليوم”. و”فتاة تركض طوال فترة ما بعد الظهر”. ووجدوا أن الأشخاص الذين يجدهم البشر متشابهين تم التعامل معهم داخليًا على أنهم أكثر تشابهًا على الرغم من اختلافهم نحويًا، والعكس صحيح بالنسبة لتلك المتشابهة نحويًا. حسنًا، أشعر أن هذه الفقرة كانت مربكة بعض الشيء، ولكن يكفي أن أقول إن المعاني المشفرة في LLMs تبدو أكثر قوة وتطورًا مما كان متوقعًا، وليست ساذجة تمامًا.

وجد باحثون سويسريون في EPFL أن التشفير العصبي أثبت فائدته في الرؤية الاصطناعية. تتمتع شبكية العين الاصطناعية وغيرها من الطرق لاستبدال أجزاء من النظام البصري البشري بشكل عام بدقة محدودة للغاية بسبب القيود المفروضة على صفائف الأقطاب الكهربائية الدقيقة. لذلك، بغض النظر عن مدى تفصيل الصورة، يجب أن يتم نقلها بدقة منخفضة جدًا. ولكن هناك طرقًا مختلفة للاختزال، وقد وجد هذا الفريق أن التعلم الآلي يقوم بعمل رائع في هذا الشأن.

اعتمادات الصورة: EPFL

“لقد وجدنا أنه إذا طبقنا نهجًا قائمًا على التعلم، فقد حصلنا على نتائج أفضل من حيث التشفير الحسي الأمثل. وقال دييغو جيزي في بيان صحفي: “لكن الأمر الأكثر إثارة للدهشة هو أنه عندما استخدمنا شبكة عصبية غير مقيدة، تعلمت محاكاة جوانب معالجة الشبكية من تلقاء نفسها”. إنه يقوم بالضغط الإدراكي بشكل أساسي. لقد اختبروه على شبكية أعين الفئران، لذا فهو ليس نظريًا فقط.

يشير تطبيق مثير للاهتمام للرؤية الحاسوبية أجراه باحثون في جامعة ستانفورد إلى لغز يكتنف كيفية تطوير الأطفال لمهاراتهم في الرسم. قام الفريق بالتماس وتحليل 37000 رسمة لأطفال لأشياء وحيوانات مختلفة، وأيضًا (استنادًا إلى ردود الأطفال) مدى سهولة التعرف على كل رسم. ومن المثير للاهتمام، أنه لم يكن مجرد إدراج ميزات التوقيع مثل آذان الأرنب هو ما جعل الرسومات أكثر قابلية للتعرف على الأطفال الآخرين.

“إن أنواع الميزات التي تجعل رسومات الأطفال الأكبر سنًا يمكن التعرف عليها لا يبدو أنها مدفوعة بميزة واحدة يتعلم جميع الأطفال الأكبر سنًا تضمينها في رسوماتهم. قالت جوديث فان، الباحثة الرئيسية: “إنه شيء أكثر تعقيدًا بكثير تلتقطه أنظمة التعلم الآلي”.

وجد الكيميائيون (أيضًا في EPFL) أن الحاصلين على ماجستير إدارة الأعمال ماهرون أيضًا بشكل مدهش في المساعدة في عملهم بعد الحد الأدنى من التدريب. لا يقتصر الأمر على القيام بالكيمياء بشكل مباشر فحسب، بل يتم ضبطها بدقة على مجموعة من الأعمال التي لا يمكن للكيميائيين بشكل فردي أن يعرفوها كلها. على سبيل المثال، في آلاف الأوراق البحثية، قد يكون هناك بضع مئات من العبارات حول ما إذا كانت السبيكة ذات الإنتروبيا العالية أحادية الطور أم متعددة الطور (ليس عليك أن تعرف ما يعنيه هذا، بل يجب أن تعرفه). يمكن تدريب النظام (المعتمد على GPT-3) على هذا النوع من الأسئلة والأجوبة بنعم/لا، وسرعان ما يصبح قادرًا على الاستقراء من ذلك.

إنه ليس تقدمًا كبيرًا، ولكنه مجرد دليل إضافي على أن LLMs هي أداة مفيدة بهذا المعنى. وقال الباحث بيريند سميت: “النقطة المهمة هي أن هذا الأمر سهل مثل إجراء بحث في الأدبيات، وهو ما يصلح للعديد من المشكلات الكيميائية”. “قد يصبح الاستعلام عن النموذج التأسيسي طريقة روتينية لبدء المشروع.”

أخيرًا، كلمة تحذير من باحثين في بيركلي، على الرغم من أنني الآن أقرأ المنشور مرة أخرى أرى أن EPFL كان متورطًا في هذا المنشور أيضًا. الذهاب لوزان! ووجدت المجموعة أن الصور التي تم العثور عليها عبر جوجل كانت أكثر احتمالية لفرض الصور النمطية المتعلقة بالجنس في وظائف وكلمات معينة أكثر من النص الذي يذكر نفس الشيء. وكان هناك أيضًا عدد أكبر من الرجال في كلتا الحالتين.

ليس هذا فحسب، بل وجدوا في إحدى التجارب أن الأشخاص الذين شاهدوا الصور بدلاً من قراءة النص عند البحث عن دور ما، ربطوا تلك الأدوار بجنس واحد بشكل أكثر موثوقية، حتى بعد أيام. وقال الباحث دوجلاس جيلبولت: “لا يتعلق الأمر فقط بتكرار التحيز الجنسي على الإنترنت”. “جزء من القصة هنا هو أن هناك شيئًا لزجًا وقويًا للغاية فيما يتعلق بتمثيل الصور للأشخاص، وهو أمر لا يحتوي عليه النص.”

مع حدوث أشياء مثل الخلاف حول التنوع في مولد الصور من Google، من السهل إغفال الحقيقة الراسخة والتي يتم التحقق منها بشكل متكرر وهي أن مصدر البيانات للعديد من نماذج الذكاء الاصطناعي يُظهر تحيزًا خطيرًا، وهذا التحيز له تأثير حقيقي على الأشخاص.