تريد مجموعة تقف وراء Stable Diffusion فتح مصدر للذكاء الاصطناعي للكشف عن المشاعر

في عام 2019، قامت أمازون بتحديث مساعد Alexa الخاص بها بميزة مكنتها من اكتشاف متى كان العميل محبطًا على الأرجح – والاستجابة بمزيد من التعاطف بشكل متناسب. إذا طلب أحد العملاء من Alexa تشغيل أغنية وقام بوضع الأغنية الخاطئة في قائمة الانتظار، على سبيل المثال، ثم قال العميل “لا، Alexa” بنبرة منزعجة، فقد تعتذر Alexa – وتطلب توضيحًا.

الآن، تريد المجموعة التي تقف وراء إحدى مجموعات البيانات المستخدمة لتدريب نموذج تحويل النص إلى صورة، Stable Diffusion، توفير إمكانات مماثلة للكشف عن المشاعر لكل مطور – دون أي تكلفة.

في هذا الشهر، أعلنت LAION، وهي منظمة غير ربحية تقوم ببناء مجموعات بيانات الصور والنصوص لتدريب الذكاء الاصطناعي التوليدي، بما في ذلك Stable Diffusion، عن مشروع Open Empathetic. يهدف Open Empathetic إلى “تزويد أنظمة الذكاء الاصطناعي مفتوحة المصدر بالتعاطف والذكاء العاطفي”، على حد تعبير المجموعة.

قال كريستوف شومان، أحد مؤسسي LAION، لـ TechCrunch عبر البريد الإلكتروني: “لقد رأى فريق LAION، الذي يتمتع بخلفيات في مجال الرعاية الصحية والتعليم وأبحاث التعلم الآلي، فجوة في مجتمع المصادر المفتوحة: تم التغاضي عن الذكاء الاصطناعي العاطفي إلى حد كبير”. “تمامًا مثل مخاوفنا بشأن احتكارات الذكاء الاصطناعي غير الشفافة التي أدت إلى ولادة LAION، شعرنا بإلحاح مماثل هنا.”

من خلال Open Empathetic، تقوم LAION بتجنيد متطوعين لإرسال مقاطع صوتية إلى قاعدة بيانات يمكن استخدامها لإنشاء الذكاء الاصطناعي، بما في ذلك روبوتات الدردشة ونماذج تحويل النص إلى كلام، التي “تفهم” المشاعر الإنسانية.

وأضاف شومان: “مع OpenEmpathic، هدفنا هو إنشاء ذكاء اصطناعي يتجاوز مجرد فهم الكلمات”. “نحن نهدف إلى فهم الفروق الدقيقة في التعبيرات وتغيرات النغمات، مما يجعل التفاعلات بين الإنسان والذكاء الاصطناعي أكثر واقعية وتعاطفاً.”

تأسست LAION، وهي اختصار لـ “Large-scale Artificial Intelligence Open Network”، في أوائل عام 2021 على يد شومان، وهو مدرس في مدرسة ثانوية ألمانية نهارًا، والعديد من أعضاء خادم Discord لعشاق الذكاء الاصطناعي. بتمويل من التبرعات والمنح البحثية العامة، بما في ذلك من شركة Hugging Face and Stability AI الناشئة في مجال الذكاء الاصطناعي، البائع وراء Stable Diffusion، تتمثل مهمة LAION المعلنة في إضفاء الطابع الديمقراطي على موارد البحث والتطوير في مجال الذكاء الاصطناعي – بدءًا من بيانات التدريب.

“نحن مدفوعون بمهمة واضحة: تسخير قوة الذكاء الاصطناعي بطرق يمكن أن تفيد المجتمع حقًا،” كاري نوري، مساهم مفتوح المصدر في LAION وحاصل على دكتوراه. قال طالب في جامعة بورنماوث لـ TechCrunch عبر البريد الإلكتروني. “نحن متحمسون للشفافية ونؤمن بأن أفضل طريقة لتشكيل الذكاء الاصطناعي هي أن تكون في العلن.”

ومن ثم فتح التعاطف.

بالنسبة للمرحلة الأولية للمشروع، أنشأت LAION موقعًا إلكترونيًا يكلف المتطوعين بتعليق مقاطع فيديو على YouTube – بعضها تم اختياره مسبقًا بواسطة فريق LAION، والبعض الآخر بواسطة متطوعين – لشخص يتحدث بشكل فردي. لكل مقطع، يمكن للمتطوعين ملء قائمة مفصلة من الحقول، بما في ذلك النسخ للمقطع، ووصف الصوت والفيديو والشخص الموجود في المقطع، العمر والجنس واللهجة (على سبيل المثال “الإنجليزية البريطانية”) ومستوى الإثارة (اليقظة – لا الجنسي، لنكون واضحين) ومستوى التكافؤ (“المتعة” مقابل “عدم المتعة”).

تتعلق الحقول الأخرى في النموذج بجودة صوت المقطع ووجود (أو عدم وجود) ضوضاء عالية في الخلفية. لكن التركيز الأكبر على مشاعر الشخص – أو على الأقل، المشاعر التي يشعر بها المتطوعون.

ومن خلال مجموعة من القوائم المنسدلة، يمكن للمتطوعين اختيار مشاعر فردية – أو متعددة – تتراوح بين “المرح” و”النشاط” و”الخادعة” إلى “التأملية” و”الجذابة”. يقول كاري إن الفكرة كانت تتمثل في التماس التعليقات التوضيحية “الغنية” و”العاطفية” مع التقاط التعبيرات في مجموعة من اللغات والثقافات.

قال كاري: “إننا نضع نصب أعيننا تدريب نماذج الذكاء الاصطناعي التي يمكنها استيعاب مجموعة واسعة من اللغات وفهم البيئات الثقافية المختلفة حقًا”. “نحن نعمل على إنشاء نماذج “تستوعب” اللغات والثقافات، باستخدام مقاطع فيديو تظهر مشاعر وتعبيرات حقيقية.

بمجرد قيام المتطوعين بإرسال مقطع إلى قاعدة بيانات LAION، يمكنهم تكرار العملية مرة أخرى – ليس هناك حد لعدد المقاطع التي يمكن لمتطوع واحد أن يضيف إليها تعليقات توضيحية. وتأمل LAION في جمع ما يقرب من 10000 عينة خلال الأشهر القليلة المقبلة، وما بين 100000 إلى مليون عينة بحلول العام المقبل – على نحو متفائل.

قال كاري: “لدينا أعضاء مجتمع متحمسون، مدفوعين برؤية إضفاء الطابع الديمقراطي على نماذج الذكاء الاصطناعي ومجموعات البيانات، ويساهمون عن طيب خاطر في التعليقات التوضيحية في أوقات فراغهم”. “إن دافعهم هو الحلم المشترك المتمثل في إنشاء ذكاء اصطناعي مفتوح المصدر يتسم بالتعاطف والذكاء العاطفي ويمكن للجميع الوصول إليه.”

عيوب الكشف عن المشاعر

بصرف النظر عن محاولات أمازون مع Alexa، استكشفت الشركات الناشئة وعمالقة التكنولوجيا على حد سواء تطوير الذكاء الاصطناعي الذي يمكنه اكتشاف العواطف – لأغراض تتراوح بين التدريب على المبيعات إلى منع الحوادث الناجمة عن النعاس.

في عام 2016، استحوذت شركة آبل على شركة Emotient، وهي شركة في سان دييغو تعمل على خوارزميات الذكاء الاصطناعي التي تحلل تعابير الوجه. استحوذت شركة Affectiva – وهي شركة منبثقة عن معهد ماساتشوستس للتكنولوجيا – على شركة Smart Eye ومقرها السويد في شهر مايو الماضي، وزعمت ذات مرة أن تقنيتها يمكنها اكتشاف الغضب أو الإحباط في الكلام خلال 1.2 ثانية. كما قامت منصة التعرف على الكلام Nuance، التي اشترتها مايكروسوفت في أبريل 2021، بعرض منتج للسيارات يقوم بتحليل مشاعر السائق من خلال إشارات وجوههم.

ومن بين اللاعبين الآخرين في مجال الكشف عن المشاعر والتعرف عليها هيوم وHireVue وRealeyes، التي يتم تطبيق تقنيتها لقياس مدى استجابة شرائح معينة من المشاهدين لإعلانات معينة. يستخدم بعض أصحاب العمل تقنية الكشف عن المشاعر لتقييم الموظفين المحتملين من خلال تسجيلهم على التعاطف والذكاء العاطفي. وقد قامت المدارس بنشره لمراقبة مشاركة الطلاب في الفصل الدراسي – وعن بعد في المنزل. وقد استخدمت الحكومات الذكاء الاصطناعي الذي يرصد المشاعر لتحديد “الأشخاص الخطرين” وتم اختباره عند نقاط مراقبة الحدود في الولايات المتحدة والمجر ولاتفيا واليونان.

يتصور فريق LAION، من جانبه، تطبيقات مفيدة وغير معقدة للتكنولوجيا عبر الروبوتات وعلم النفس والتدريب المهني والتعليم وحتى الألعاب. يرسم كريستوف صورة للروبوتات التي تقدم الدعم والرفقة، والمساعدين الافتراضيين الذين يستشعرون عندما يشعر شخص ما بالوحدة أو القلق، والأدوات التي تساعد في تشخيص الاضطرابات النفسية.

إنها المدينة الفاضلة التقنية. المشكلة هي أن معظم عمليات الكشف عن المشاعر تقوم على أسس علمية هشة.

لا يوجد سوى عدد قليل من العلامات العالمية للعاطفة، إن وجدت، مما يضع دقة الذكاء الاصطناعي في اكتشاف المشاعر موضع شك. تم بناء غالبية أنظمة الكشف عن المشاعر بناءً على عمل عالم النفس بول إيكمان، الذي نُشر في السبعينيات. لكن الأبحاث اللاحقة – بما في ذلك بحث إيكمان – تدعم الفكرة المنطقية القائلة بوجود اختلافات كبيرة في الطريقة التي يعبر بها الأشخاص من خلفيات مختلفة عما يشعرون به.

على سبيل المثال، التعبير الذي يفترض أنه عالمي للخوف هو صورة نمطية للتهديد أو الغضب في ماليزيا. في أحد أعماله اللاحقة، اقترح إيكمان أن الطلاب الأمريكيين واليابانيين يميلون إلى التفاعل مع أفلام العنف بشكل مختلف تمامًا، حيث يتبنى الطلاب اليابانيون “مجموعة مختلفة تمامًا من التعبيرات” إذا كان هناك شخص آخر في الغرفة – وخاصة شخصية ذات سلطة.

تغطي الأصوات أيضًا مجموعة واسعة من الخصائص، بما في ذلك أصوات الأشخاص ذوي الإعاقة، وحالات مثل التوحد والذين يتحدثون لغات ولهجات أخرى مثل اللغة الإنجليزية العامية الأمريكية الأفريقية (AAVE). قد يقوم أحد المتحدثين باللغة الفرنسية الذين يقومون باستبيان باللغة الإنجليزية بالتوقف مؤقتًا أو نطق كلمة مع بعض عدم اليقين – وهو ما يمكن أن يخطئ شخص غير مألوف في تفسيره باعتباره علامة عاطفية.

في الواقع، جزء كبير من مشكلة الذكاء الاصطناعي المكتشف للعواطف هو التحيز، وهو التحيز الضمني والصريح الذي يقدمه المفسرون الذين تُستخدم مساهماتهم في تدريب نماذج الكشف عن العواطف.

في دراسة أجريت عام 2019، على سبيل المثال، وجد العلماء أن واضعي العلامات هم أكثر عرضة لوضع تعليقات توضيحية على عبارات في AAVE أكثر سمية من نظيراتها الإنجليزية الأمريكية العامة. يمكن أن يؤثر التوجه الجنسي والهوية الجنسية بشكل كبير على الكلمات والعبارات التي يعتبرها كاتب التعليقات سامة أيضًا – كما يمكن أن يؤثر التحيز الصريح. تم العثور على العديد من مجموعات بيانات الصور مفتوحة المصدر شائعة الاستخدام تحتوي على تسميات عنصرية وجنسية ومهينة من قبل المعلقين.

يمكن أن تكون التأثيرات النهائية مثيرة للغاية.

تبين أن Retorio، وهي منصة توظيف تعمل بالذكاء الاصطناعي، تتفاعل بشكل مختلف مع نفس المرشح في أزياء مختلفة، مثل النظارات والحجاب. في دراسة أجراها معهد ماساتشوستس للتكنولوجيا عام 2020، أظهر الباحثون أن خوارزميات تحليل الوجه يمكن أن تصبح متحيزة تجاه بعض تعبيرات الوجه، مثل الابتسامة، مما يقلل من دقتها. يشير العمل الأحدث إلى أن أدوات التحليل العاطفي الشائعة تميل إلى تخصيص المزيد من المشاعر السلبية لوجوه الرجال السود مقارنة بالوجوه البيضاء.

احترام العملية

إذن، كيف سيتمكن فريق LAION من مكافحة هذه التحيزات؟ التأكد، على سبيل المثال، من أن عدد الأشخاص البيض لا يفوق عدد السود في مجموعة البيانات؛ أن الأشخاص غير الثنائيين لا يتم تعيينهم للجنس الخطأ؛ وأن أولئك الذين يعانون من اضطرابات المزاج لا يتم تصنيفهم بشكل خاطئ بمشاعر لم ينووا التعبير عنها؟

الأمر ليس واضحًا تمامًا.

يدعي كريستوف أن عملية إرسال بيانات التدريب لـ Open Empathetic ليست “بابًا مفتوحًا” وأن LAION لديها أنظمة معمول بها “لضمان سلامة المساهمات”.

وأضاف: “يمكننا التحقق من صحة نية المستخدم والتحقق باستمرار من جودة التعليقات التوضيحية”.

لكن مجموعات بيانات LAION السابقة لم تكن نقية تمامًا.

بعض التحليلات لـ LAION ~400M – إحدى مجموعات التدريب على الصور في LAION، والتي حاولت المجموعة تنظيمها باستخدام أدوات آلية – أظهرت صورًا تصور الاعتداء الجنسي والاغتصاب ورموز الكراهية والعنف التصويري. LAION ~400M مليء أيضًا بالتحيز، على سبيل المثال إعادة صور الرجال وليس النساء لكلمات مثل “CEO” وصور رجال شرق أوسطيين لكلمة “إرهابي”.

إن وضع كريستوف الثقة في المجتمع سيكون بمثابة فحص لهذه العملية.

وقال: “نحن نؤمن بقوة العلماء الهواة والمتحمسين من جميع أنحاء العالم الذين يجتمعون معًا ويساهمون في مجموعات البيانات لدينا”. “على الرغم من أننا منفتحون ومتعاونون، إلا أننا نعطي الأولوية للجودة والأصالة في بياناتنا.”

فيما يتعلق بكيفية استخدام أي ذكاء اصطناعي للكشف عن المشاعر تم تدريبه على مجموعة بيانات Open Empathetic – سواء كان متحيزًا أو لا – فإن LAION عازمة على دعم فلسفتها مفتوحة المصدر – حتى لو كان ذلك يعني احتمال إساءة استخدام الذكاء الاصطناعي.

قال روبرت كازمارتشيك، المؤسس المشارك لـ LAION والطبيب في الجامعة التقنية في ميونيخ، عبر البريد الإلكتروني: “إن استخدام الذكاء الاصطناعي لفهم العواطف يعد مشروعًا قويًا، لكنه لا يخلو من التحديات”. “مثل أي أداة أخرى، يمكن استخدامها للخير والشر. تخيل لو تمكنت مجموعة صغيرة فقط من الوصول إلى التكنولوجيا المتقدمة، في حين كان معظم الجمهور في الظلام. وهذا الخلل يمكن أن يؤدي إلى سوء الاستخدام أو حتى التلاعب من قبل القلة التي تسيطر على هذه التكنولوجيا.

عندما يتعلق الأمر بالذكاء الاصطناعي، فإن نهج عدم التدخل في بعض الأحيان يعود في بعض الأحيان إلى مبتكري النماذج – كما يتضح من كيفية استخدام Stable Diffusion الآن لإنشاء مواد الاعتداء الجنسي على الأطفال والتزييف العميق غير التوافقي.

وقد دعا بعض المدافعين عن الخصوصية وحقوق الإنسان، بما في ذلك الحقوق الرقمية الأوروبية ومنظمة Access Now، إلى فرض حظر شامل على التعرف على المشاعر. يحظر قانون الاتحاد الأوروبي للذكاء الاصطناعي، وهو قانون الاتحاد الأوروبي الذي تم سنه مؤخرًا والذي يحدد إطارًا لإدارة الذكاء الاصطناعي، استخدام التعرف على المشاعر في أعمال الشرطة وإدارة الحدود وأماكن العمل والمدارس. وقد قامت بعض الشركات طوعا بسحب الذكاء الاصطناعي الذي يستخدم تقنية الكشف عن المشاعر، مثل مايكروسوفت، في مواجهة ردود الفعل السلبية العامة.

ومع ذلك، تبدو LAION مرتاحة لمستوى المخاطرة التي ينطوي عليها الأمر، ولديها ثقة في عملية التطوير المفتوحة.

وقال كازمارتشيك: “نحن نرحب بالباحثين للتجول واقتراح التغييرات وتحديد المشكلات”. “ومثلما تزدهر ويكيبيديا من خلال مساهماتها المجتمعية، يتم دعم OpenEmpathic من خلال مشاركة المجتمع، والتأكد من أنها شفافة وآمنة.”

شفاف؟ بالتأكيد. آمن؟ الوقت سيخبرنا.