تقنية

تعد محولات الانتشار هي المفتاح وراء Sora من OpenAI – وهي جاهزة لقلب GenAI


يعد Sora من OpenAI، والذي يمكنه إنشاء مقاطع فيديو وبيئات تفاعلية ثلاثية الأبعاد أثناء التنقل، عرضًا رائعًا للتطور في GenAI – وهو إنجاز عظيم.

ولكن من المثير للفضول أن إحدى الابتكارات التي أدت إلى ذلك، وهي بنية نموذج الذكاء الاصطناعي والمعروفة بالعامية باسم محول الانتشار، وصلت إلى مشهد أبحاث الذكاء الاصطناعي منذ سنوات.

يبدو أن محول الانتشار، الذي يعمل أيضًا على تشغيل أحدث مولد صور لشركة Stability AI الناشئة، وهو Stable Diffusion 3.0، مستعد لتحويل مجال GenAI من خلال تمكين نماذج GenAI من التوسع إلى ما هو أبعد مما كان ممكنًا في السابق.

بدأ ساينينغ شيه، أستاذ علوم الكمبيوتر في جامعة نيويورك، المشروع البحثي الذي أنتج محول الانتشار في يونيو 2022. مع ويليام بيبلز، تلميذه بينما كان بيبلز يتدرب في مختبر أبحاث ميتا للذكاء الاصطناعي وهو الآن الرئيس المشارك لـ Sora في OpenAI، شيه الجمع بين مفهومين في التعلم الآلي – انتشار و ال محول – لإنشاء محول الانتشار.

تعتمد معظم مولدات الوسائط الحديثة التي تعمل بالذكاء الاصطناعي، بما في ذلك DALL-E 3 من OpenAI، على عملية تسمى الانتشار لإخراج الصور ومقاطع الفيديو والكلام والموسيقى والشبكات ثلاثية الأبعاد والأعمال الفنية والمزيد.

إنها ليست الفكرة الأكثر بديهية، ولكن في الأساس، تتم إضافة الضوضاء ببطء إلى جزء من الوسائط – على سبيل المثال صورة – حتى يصبح من الصعب التعرف عليها. يتم تكرار هذا لإنشاء مجموعة بيانات من الوسائط المزعجة. عندما يتدرب نموذج الانتشار على ذلك، فإنه يتعلم كيفية طرح الضوضاء تدريجيًا، والاقتراب خطوة بخطوة من قطعة الوسائط المستهدفة (على سبيل المثال، صورة جديدة).

تحتوي نماذج الانتشار عادة على “عمود فقري” أو محرك من نوع ما يسمى U-Net. يتعلم العمود الفقري لـ U-Net تقدير الضوضاء المطلوب إزالتها، وهو يعمل بشكل جيد. لكن شبكات U معقدة، حيث تحتوي على وحدات مصممة خصيصًا يمكنها إبطاء خط أنابيب الانتشار بشكل كبير.

ولحسن الحظ، يمكن للمحولات أن تحل محل شبكات U-Nets – وتوفر تعزيزًا للكفاءة والأداء في هذه العملية.

فيديو تم إنشاؤه بواسطة Sora.

المحولات هي البنية المفضلة لمهام الاستدلال المعقدة، والتي تعمل على تشغيل النماذج مثل GPT-4 وGemini وChatGPT. إنها تتمتع بالعديد من الخصائص الفريدة، ولكن السمة المميزة للمحولات هي “آلية الانتباه” الخاصة بها. لكل قطعة من البيانات المدخلة (في حالة الانتشار، ضوضاء الصورة)، المحولات وزن أهمية كل مدخلات أخرى (ضوضاء أخرى في الصورة) والاستفادة منها لتوليد الإخراج (تقدير لضوضاء الصورة).

لا يقتصر الأمر على أن آلية الانتباه تجعل المحولات أبسط من البنى النموذجية الأخرى ولكنها تجعل البنية قابلة للتوازي. بمعنى آخر، يمكن تدريب نماذج المحولات الأكبر حجمًا مع زيادات كبيرة ولكن ليست بعيدة المنال في الحساب.

وقال شيه لـ TechCrunch في مقابلة عبر البريد الإلكتروني: “إن ما تساهم به المحولات في عملية الانتشار يشبه ترقية المحرك”. “إن إدخال المحولات… يمثل قفزة كبيرة في قابلية التوسع والفعالية. ويتجلى هذا بشكل خاص في نماذج مثل Sora، التي تستفيد من التدريب على كميات كبيرة من بيانات الفيديو وتستفيد من معلمات النموذج الشاملة لعرض الإمكانات التحويلية للمحولات عند تطبيقها على نطاق واسع.

تم إنشاؤها بواسطة الانتشار المستقر 3.

لذا، نظرًا لأن فكرة محولات الانتشار كانت موجودة منذ فترة، فلماذا استغرق الأمر سنوات قبل أن تبدأ مشاريع مثل Sora وStable Diffusion في الاستفادة منها؟ ويعتقد Xie أن أهمية وجود نموذج أساسي قابل للتطوير لم تظهر إلى النور إلا في وقت قريب نسبيًا.

وقال: “لقد ذهب فريق Sora إلى أبعد من ذلك لإظهار مقدار ما يمكنك القيام به باستخدام هذا النهج على نطاق واسع”. “لقد أوضحوا إلى حد كبير أن U-Nets قد خرجت محولات هم في ل انتشار النماذج من الآن فصاعدا.”

محولات الانتشار يجب يقول شيه إن هذا سيكون بديلاً بسيطًا لنماذج الانتشار الحالية، سواء كانت النماذج تولد صورًا، أو مقاطع فيديو، أو صوتًا، أو أي شكل آخر من أشكال الوسائط. من المحتمل أن تؤدي العملية الحالية لتدريب محولات الانتشار إلى بعض أوجه القصور وفقدان الأداء، لكن Xie يعتقد أنه يمكن معالجة ذلك على المدى الطويل.

“إن الوجبات الرئيسية واضحة ومباشرة جدًا: انسَ شبكات U-Nets وانتقل إليها محولات، لأنها أسرع وتعمل بشكل أفضل وأكثر قابلية للتطوير. “أنا مهتم بدمج مجالات فهم المحتوى وإنشائه في إطار محولات الانتشار. في الوقت الحالي، يعتبر هذان العالمان بمثابة عالمين مختلفين – أحدهما للفهم والآخر للإبداع. أتصور مستقبلًا يتم فيه دمج هذه الجوانب، وأعتقد أن تحقيق هذا التكامل يتطلب توحيد البنى الأساسية، مع كون المحولات مرشحًا مثاليًا لهذا الغرض.

إذا كان Sora وStable Diffusion 3.0 بمثابة معاينة لما يمكن توقعه مع محولات الانتشار، فأنا أقول إننا في رحلة برية.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى