تجعل AWS منصة SageMaker HyperPod AI الخاصة بها أكثر كفاءة لتدريب حاملي شهادات الماجستير

في مؤتمر AWS re:Invent العام الماضي، أطلقت وحدة الحوسبة السحابية في Amazon SageMaker HyperPod، وهي منصة لبناء نماذج الأساس. ليس من المستغرب إذن أن تعلن الشركة في معرض re:Invent لهذا العام عن عدد من التحديثات للنظام الأساسي، مع التركيز على جعل التدريب النموذجي والضبط الدقيق على HyperPod أكثر كفاءة وفعالية من حيث التكلفة للمؤسسات.

يتم استخدام HyperPod الآن من قبل شركات مثل Salesforce وThompson Reuters وBMW وشركات الذكاء الاصطناعي الناشئة مثل Luma وPerplexity وStability AI وHugging Face. إن احتياجات هؤلاء العملاء هي التي تعالجها AWS الآن من خلال تحديثات اليوم، كما أخبرني Ankur Mehrotra، المدير العام المسؤول عن HyperPod في AWS.

أحد التحديات التي تواجهها هذه الشركات هو أنه في كثير من الأحيان لا توجد قدرة كافية لتشغيل أعباء العمل التدريبية الخاصة بماجستير القانون.

وقال ميهروترا: “في كثير من الأحيان، بسبب ارتفاع الطلب، يمكن أن تكون السعة باهظة الثمن، كما قد يكون من الصعب العثور على السعة عندما تحتاج إليها، وبالقدر الذي تحتاجه، وفي المكان الذي تحتاج إليه بالضبط”. “بعد ذلك، ما قد يحدث هو أنك قد تجد سعة في كتل محددة، والتي قد يتم تقسيمها عبر الوقت والموقع أيضًا. قد يحتاج العملاء إلى البدء من مكان واحد ثم نقل عبء العمل الخاص بهم إلى مكان آخر وكل ذلك – ثم أيضًا إعداد وإعادة ضبط البنية التحتية الخاصة بهم للقيام بذلك مرارًا وتكرارًا.

ولتسهيل الأمر، تطلق AWS ما تسميه “خطط التدريب المرنة”. وبهذا، يمكن لمستخدمي HyperPod تحديد جدول زمني وميزانية. لنفترض أنهم يريدون إكمال تدريب النموذج خلال الشهرين المقبلين ويتوقعون أن يحتاجوا إلى 30 يومًا كاملاً من التدريب باستخدام نوع معين من وحدات معالجة الرسومات لتحقيق ذلك. يمكن لـ SageMaker HyperPod بعد ذلك الخروج والعثور على أفضل مجموعة من كتل السعة ووضع خطة لتحقيق ذلك. يتولى SageMaker مسؤولية توفير البنية التحتية وتشغيل المهام (ويوقفها مؤقتًا عندما لا تكون السعة متوفرة).

ومن الناحية المثالية، أشارت ميهروترا إلى أن هذا يمكن أن يساعد هذه الشركات على تجنب الإفراط في الإنفاق من خلال الإفراط في توفير الخوادم لوظائفها التدريبية.

ومع ذلك، في كثير من الأحيان، لا تقوم هذه الشركات بتدريب النماذج من الصفر. بدلاً من ذلك، فهي عبارة عن نماذج ضبط دقيقة باستخدام بياناتها الخاصة أعلى نماذج الوزن المفتوح وبنيات النماذج مثل Meta’s Llama. بالنسبة لهم، يقوم فريق SageMaker بإطلاق وصفات HyperPod. هذه عبارة عن وصفات تم قياسها وتحسينها للبنيات الشائعة مثل Llama وMistral والتي تتضمن أفضل الممارسات لاستخدام هذه النماذج.

وشدد ميهروترا على أن هذه الوصفات تحدد أيضًا تكرار نقاط التفتيش الصحيح لعبء عمل معين لضمان حفظ التقدم في مهمة التدريب بانتظام.

مع تزايد عدد الفرق التي تعمل مع الذكاء الاصطناعي التوليدي في الشركة، فمن المرجح أن توفر الفرق المختلفة قدراتها الخاصة، وهو ما يعني في المقابل أن بعض وحدات معالجة الرسوميات هذه ستظل خاملة وتستهلك ميزانية الذكاء الاصطناعي الإجمالية للشركة. ولمكافحة ذلك، تسمح AWS الآن للمؤسسات بتجميع هذه الموارد بشكل أساسي وإنشاء مركز قيادة مركزي لتخصيص سعة وحدة معالجة الرسومات بناءً على أولوية المشروع. يمكن للنظام بعد ذلك تخصيص الموارد تلقائيًا حسب الحاجة (أو يتم تحديدها من خلال الترتيب الداخلي، والذي قد لا يكون دائمًا هو نفسه).

القدرة الأخرى التي يتيحها ذلك هي أن تستخدم الشركات معظم مخصصاتها لتشغيل الاستدلال خلال النهار لخدمة عملائها ثم تخصيص المزيد من هذه الموارد للتدريب أثناء الليل، عندما يكون الطلب أقل على الاستدلال.

كما اتضح، قامت AWS لأول مرة ببناء هذه الإمكانية لشركة Amazon نفسها وشهدت الشركة زيادة في استخدام مجموعتها بنسبة تزيد عن 90% بسبب هذه الأداة الجديدة.

“المنظمات تريد حقًا الابتكار، ولديها الكثير من الأفكار. الذكاء الاصطناعي التوليدي هو تقنية جديدة. هناك الكثير من الأفكار الجديدة. ولذلك فإنهم يواجهون هذه القيود المتعلقة بالموارد والميزانية. لذلك، يتعلق الأمر بأداء العمل بكفاءة أكبر، ويمكننا حقًا مساعدة العملاء على تقليل التكاليف – وهذا يساعد بشكل عام على تقليل التكاليف بنسبة تصل إلى 40% للمؤسسات، كما نظرنا إليها.”