تقول Google إنها أصلحت ميزة تكوين الأشخاص في Gemini

في شهر فبراير الماضي، أوقفت شركة جوجل مؤقتًا قدرة برنامج الدردشة Gemini الذي يعمل بالذكاء الاصطناعي على إنشاء صور للأشخاص بعد أن اشتكى المستخدمون من عدم الدقة التاريخية. على سبيل المثال، عندما يُطلب من الجوزاء أن يصور “الفيلق الروماني”، فإنه سيُظهر مجموعة عفا عليها الزمن من الجنود المتنوعين عرقيًا بينما يقدم “محاربي الزولو” على أنهم سود بشكل نمطي.

واعتذر ساندر بيتشاي، الرئيس التنفيذي لشركة جوجل، وقال ديميس هاسابيس، المؤسس المشارك لقسم أبحاث الذكاء الاصطناعي في جوجل، ديب مايند، إن الإصلاح يجب أن يصل “في وقت قصير جدًا” – في غضون الأسبوعين المقبلين. وانتهى الأمر باستغرق الأمر وقتًا أطول بكثير من ذلك بكثير (على الرغم من أن بعض موظفي Google سحبوا 120 ساعة عمل أسبوعيًا!). ولكن في الأيام المقبلة، سيتمكن الجوزاء مرة أخرى من إنشاء صور تظهر الأشخاص.

حسنًا … نوعًا ما.

لن يستعيد سوى مستخدمين معينين – تحديدًا أولئك الذين اشتركوا في إحدى خطط Gemini المدفوعة من Google، أو Gemini Advanced، أو Business، أو Enterprise – ميزة تكوين الأشخاص في Gemini كجزء من اختبار الوصول المبكر للغة الإنجليزية فقط. لم تذكر Google متى سيتم توسيع الاختبار ليشمل طبقة Gemini المجانية واللغات الأخرى.

قال متحدث باسم Google لـ TechCrunch: “يمنح Gemini Advanced مستخدمينا أولوية الوصول إلى أحدث ميزاتنا”. “يساعدنا هذا في جمع تعليقات قيمة مع تقديم ميزة طال انتظارها أولاً لمشتركينا المميزين.”

إذن ما هي الإصلاحات التي نفذتها Google لجيل الأشخاص؟ وفقًا للشركة، فإن Imagen 3، وهو أحدث نموذج لتوليد الصور مدمج في Gemini، يحتوي على عمليات تخفيف لجعل صور الأشخاص التي تنتجها Gemini أكثر “عدلاً”. على سبيل المثال، تم تدريب Imagen 3 على التسميات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي والمصممة “لتحسين تنوع وتنوع المفاهيم المرتبطة بالصور في [its] بيانات التدريب”، وفقًا لورقة فنية تمت مشاركتها مع TechCrunch. وتمت تصفية بيانات التدريب الخاصة بالنموذج من أجل “السلامة” بالإضافة إلى “المراجعة”.[ed] … مع الأخذ في الاعتبار قضايا العدالة،” تدعي جوجل.

لقد طلبنا المزيد من التفاصيل حول بيانات تدريب Imagen 3، لكن المتحدث الرسمي قال فقط إن النموذج تم تدريبه على “مجموعة بيانات كبيرة تشتمل على صور ونصوص وشروح مرتبطة بها”.

وتابع المتحدث: “لقد قللنا بشكل كبير من احتمالية الاستجابات غير المرغوب فيها من خلال اختبارات الفريق الأحمر الداخلية والخارجية المكثفة، والتعاون مع خبراء مستقلين لضمان التحسين المستمر”. “لقد كان تركيزنا منصبًا على اختبار جيل الأشخاص بدقة قبل تشغيله مرة أخرى.”

الصورة 3 والأحجار الكريمة

في مكان من الأخبار الأفضل، سيحصل جميع مستخدمي Gemini على Imagen 3 خلال الأسبوع – باستثناء جيل الأشخاص لأولئك الذين لم يشتركوا في Gemini Advanced.

تقول Google إن Imagen 3 يمكنه فهم مطالبات النص بشكل أكثر دقة وترجمتها إلى صور مقارنةً بسابقه، Imagen 2، وهو أكثر “إبداعًا وتفصيلاً” في أجياله. بالإضافة إلى ذلك، ينتج النموذج عددًا أقل من القطع الأثرية والأخطاء، كما تدعي Google، وهو أفضل نموذج Imagen حتى الآن لعرض النص.

لتهدئة المخاوف بشأن إمكانية إنشاء التزييف العميق، ستستخدم Imagen 3 SynthID، وهو نهج طورته DeepMind لتطبيق علامات مائية مشفرة غير مرئية على الوسائط – على عكس مخرجات Pixel Studio من Google.

إلى جانب Imagen 3، تطرح Google الأحجار الكريمة – وإن كان ذلك فقط لمستخدمي Gemini Advanced وBusiness وEnterprise. مثل GPTs الخاصة بـ OpenAI، تعد Gems إصدارات مخصصة من Gemini يمكنها العمل كـ “خبراء” في الموضوعات. لإنشاء واحدة، اكتب تعليمات للجوهرة، وأعطها اسمًا، ثم انطلق إلى السباقات.

إليك كيفية وصفهم بواسطة Google في منشور بالمدونة:

“باستخدام Gems، يمكنك إنشاء فريق من الخبراء لمساعدتك في التفكير في مشروع مليء بالتحديات، أو تبادل الأفكار لحدث قادم، أو كتابة التعليق المثالي لمنشور على وسائل التواصل الاجتماعي. يمكن لـ Gem أيضًا أن تتذكر مجموعة مفصلة من التعليمات لمساعدتك في توفير الوقت في المهام المملة أو المتكررة أو الصعبة.

تقول Google إن الأحجار الكريمة متاحة على أجهزة سطح المكتب والأجهزة المحمولة في 150 دولة و”معظم اللغات”. تتوفر العديد من المناطق المعدة مسبقًا عند الإطلاق، بما في ذلك “مدرب التعلم” و”الدليل الوظيفي” و”شريك البرمجة”.