تتطلع Microsoft إلى تحرير نفسها من أغلال GPU من خلال تصميم شرائح AI مخصصة

تعتمد معظم الشركات التي تعمل على تطوير نماذج الذكاء الاصطناعي، وخاصة نماذج الذكاء الاصطناعي التوليدية مثل ChatGPT وGPT-4 Turbo وStable Diffusion، بشكل كبير على وحدات معالجة الرسومات. إن قدرة وحدات معالجة الرسوميات على إجراء العديد من العمليات الحسابية بالتوازي تجعلها مناسبة تمامًا لتدريب وتشغيل الذكاء الاصطناعي الأكثر قدرة في يومنا هذا.
ولكن ببساطة لا يوجد ما يكفي من وحدات معالجة الرسومات للتجول.
يقال إن بطاقات الذكاء الاصطناعي الأفضل أداءً من Nvidia قد بيعت حتى عام 2024. وكان الرئيس التنفيذي لشركة TSMC لصناعة الرقائق أقل تفاؤلاً في الآونة الأخيرة، مما يشير إلى أن النقص في وحدات معالجة الرسومات AI من Nvidia – وكذلك الرقائق من منافسي Nvidia – يمكن أن يمتد حتى عام 2025.
لذا فإن مايكروسوفت تسير في طريقها الخاص.
كشفت Microsoft اليوم في مؤتمر Ignite لعام 2023، عن شريحتي ذكاء اصطناعي مصممتين خصيصًا داخل الشركة ومرتبطة بمركز البيانات: Azure Maia 100 AI Accelerator وAzure Cobalt 100 CPU. يمكن استخدام Maia 100 لتدريب نماذج الذكاء الاصطناعي، بينما تم تصميم Cobalt 100 لتشغيلها.
اعتمادات الصورة: مايكروسوفت
ونقل عن سكوت جوثري، نائب الرئيس التنفيذي لمجموعة مايكروسوفت السحابية والذكاء الاصطناعي، قوله في بيان صحفي مقدم إلى “مايكروسوفت: “تقوم مايكروسوفت ببناء البنية التحتية لدعم ابتكار الذكاء الاصطناعي، ونحن نعيد تصور كل جانب من جوانب مراكز البيانات لدينا لتلبية احتياجات عملائنا”. TechCrunch في وقت سابق من هذا الأسبوع. “على النطاق الذي نعمل فيه، من المهم بالنسبة لنا تحسين ودمج كل طبقة من مجموعة البنية التحتية لتحقيق أقصى قدر من الأداء، وتنويع سلسلة التوريد لدينا ومنح العملاء خيار البنية التحتية.”
تقول Microsoft إن كلاً من Maia 100 وCobalt 100 سيبدأان في طرحهما في أوائل العام المقبل في مراكز بيانات Azure، حيث يعملان في البداية على تشغيل خدمات Microsoft AI مثل Copilot، وهي عائلة Microsoft من منتجات الذكاء الاصطناعي التوليدية، وخدمة Azure OpenAI، وهي عروض الشركة المُدارة بالكامل لنماذج OpenAI. . قد يكون هذا في الأيام الأولى، لكن مايكروسوفت تؤكد أن الرقائق ليست لمرة واحدة. الجيل الثاني من أجهزة Maia وCobalt قيد العمل بالفعل.
بنيت من الألف إلى الياء
إن قيام Microsoft بإنشاء شرائح ذكاء اصطناعي مخصصة لا يشكل مفاجأة بالضبط. لقد بدأت العجلات في التحرك منذ بعض الوقت، وتم نشرها.
وفي أبريل، ذكرت صحيفة The Information أن مايكروسوفت كانت تعمل على شرائح الذكاء الاصطناعي سرًا منذ عام 2019 كجزء من مشروع يحمل الاسم الرمزي Athena. وبالعودة إلى عام 2020، كشفت بلومبرج أن مايكروسوفت صممت مجموعة من الرقائق بناءً على بنية ARM لمراكز البيانات والأجهزة الأخرى، بما في ذلك الأجهزة الاستهلاكية (مثل Surface Pro).
لكن الإعلان في Ignite يعطي نظرة شاملة حتى الآن على جهود مايكروسوفت في مجال أشباه الموصلات.
الأول هو مايا 100.
تقول مايكروسوفت إن Maia 100 – وهي شريحة بحجم 5 نانومتر تحتوي على 105 مليار ترانزستور – تم تصميمها “خصيصًا لمجموعة أجهزة Azure” و”لتحقيق أقصى استفادة مطلقة من الأجهزة”. تعد الشركة بأن Maia 100 سوف “يعمل على تشغيل بعض أكبر أنظمة الذكاء الاصطناعي الداخلية [and generative AI] أعباء العمل التي تعمل على Microsoft Azure، بما في ذلك أعباء العمل لـ Bing وMicrosoft 365 وAzure OpenAI Service (ولكن ليس عملاء السحابة العامة – حتى الآن).

اعتمادات الصورة: مايكروسوفت
هذا كثير من المصطلحات، على أية حال. ماذا يعني كل هذا؟ حسنًا، لكي نكون صادقين تمامًا، فإن الأمر ليس واضحًا تمامًا لهذا المراسل – على الأقل ليس من خلال التفاصيل التي قدمتها Microsoft في موادها الصحفية. في الواقع، ليس من الواضح حتى أي نوع من شرائح Maia 100 يكون؛ وقد اختارت مايكروسوفت إبقاء هذه البنية طي الكتمان، على الأقل في الوقت الحالي.
في تطور آخر مخيب للآمال، لم تقدم Microsoft Maia 100 إلى مجموعات اختبار قياس الأداء العامة مثل MLCommons، لذلك لا توجد مقارنة لأداء الشريحة بأداء شرائح تدريب الذكاء الاصطناعي الأخرى الموجودة هناك، مثل Google TPU، وAmazon’s Tranium، وMeta’s MTIA. والآن بعد أن خرجت القطة من الحقيبة، نأمل أن يتغير ذلك في وقت قصير.
إحدى الحقائق المثيرة للاهتمام هي أن Microsoft كان على استعداد للكشف هو أن شريكها الوثيق في مجال الذكاء الاصطناعي وهدفها الاستثماري، OpenAI، قدم تعليقات على تصميم Maia 100.
إنه تطور في علاقات البنية التحتية الحاسوبية بين الشركتين.
في عام 2020، عملت OpenAI مع Microsoft للمشاركة في تصميم “كمبيوتر فائق الذكاء الاصطناعي” مستضاف على Azure – وهو عبارة عن مجموعة تحتوي على أكثر من 285000 نواة معالج و10000 بطاقة رسوميات. بعد ذلك، قامت OpenAI وMicrosoft ببناء العديد من أنظمة الحوسبة الفائقة المدعومة بـ Azure – والتي تستخدمها OpenAI حصريًا لأبحاثها وواجهة برمجة التطبيقات ومنتجاتها – لتدريب نماذج OpenAI.
وقال ألتمان في بيان جاهز: “منذ الشراكة الأولى مع مايكروسوفت، تعاونا في التصميم المشترك للبنية التحتية للذكاء الاصطناعي الخاصة بـ Azure في كل طبقة لنماذجنا واحتياجاتنا التدريبية غير المسبوقة”. “لقد كنا متحمسين عندما شاركت Microsoft لأول مرة تصميماتها لشريحة Maia، وعملنا معًا لتحسينها واختبارها باستخدام نماذجنا. إن بنية الذكاء الاصطناعي الشاملة من Azure، والتي تم تحسينها الآن وصولاً إلى السيليكون باستخدام Maia، تمهد الطريق لتدريب نماذج أكثر قدرة وجعل هذه النماذج أرخص لعملائنا.
لقد طلبت توضيحًا من Microsoft، وقال المتحدث الرسمي: “باعتبارنا المزود السحابي الحصري لشركة OpenAI، فإننا نعمل معًا بشكل وثيق لضمان تلبية بنيتنا التحتية لمتطلباتهم اليوم وفي المستقبل. لقد قدموا اختبارات وتعليقات قيمة حول Maia، وسنواصل استشارة خارطة الطريق الخاصة بهم في تطوير أجيال السيليكون الخاصة بالذكاء الاصطناعي الخاصة بالطرف الأول من Microsoft.
نحن نعلم أيضًا أن الحزمة المادية لـ Maia 100 أكبر من وحدات معالجة الرسومات النموذجية.
تقول Microsoft إنها اضطرت إلى بناء رفوف خادم مركز البيانات من الصفر والتي تحتوي على شرائح Maia 100، بهدف استيعاب كل من الرقائق وكابلات الطاقة والشبكات اللازمة. يتطلب Maia 100 أيضًا حل تبريد فريد يعتمد على السائل نظرًا لأن الرقائق تستهلك كمية أعلى من المتوسط من الطاقة ولم يتم تصميم مراكز بيانات Microsoft للمبردات السائلة الكبيرة.

اعتمادات الصورة: مايكروسوفت
“يتدفق السائل البارد من [a ‘sidekick’] “للألواح الباردة المتصلة بسطح شرائح Maia 100″، يوضح هذا المنشور الذي كتبته شركة Microsoft. “تحتوي كل لوحة على قنوات يتم من خلالها تدوير السائل لامتصاص الحرارة ونقلها. يتدفق ذلك إلى الصاحب، الذي يزيل الحرارة من السائل ويرسلها مرة أخرى إلى الحامل لامتصاص المزيد من الحرارة، وهكذا.
كما هو الحال مع Maia 100، أبقت Microsoft معظم التفاصيل الفنية لـ Cobalt 100 غامضة في كشف النقاب عن Ignite، باستثناء أن Cobalt 100 عبارة عن شريحة ذات 128 نواة موفرة للطاقة ومبنية على بنية Arm Neoverse CSS و”محسنة لتقديم كفاءة وأداء أكبر في السحابة”. العروض المحلية.”

اعتمادات الصورة: مايكروسوفت
كانت رقائق استدلال الذكاء الاصطناعي القائمة على الذراع بمثابة اتجاه، وهو الاتجاه الذي تعمل مايكروسوفت على إدامةه الآن. أحدث شريحة مركز بيانات للاستدلال من أمازون، Graviton3E (والتي تكمل Inferentia، شريحة الاستدلال الأخرى للشركة)، مبنية على بنية Arm. يقال إن جوجل تقوم بإعداد شرائح خادم Arm مخصصة خاصة بها، في هذه الأثناء.
وقال ويس ماكولو، نائب الرئيس التنفيذي لتطوير منتجات الأجهزة، عن كوبالت في بيان: “تم تصميم البنية والتنفيذ مع وضع كفاءة الطاقة في الاعتبار”. “نحن نحقق الاستخدام الأكثر كفاءة للترانزستورات الموجودة على السيليكون. قم بمضاعفة مكاسب الكفاءة هذه في الخوادم عبر جميع مراكز البيانات لدينا، مما يصل إلى رقم كبير جدًا.
قال متحدث باسم Microsoft إن Cobalt 100 سيعمل على تشغيل أجهزة افتراضية جديدة للعملاء في العام المقبل.
لكن لماذا؟
لذلك قامت مايكروسوفت بصناعة رقائق الذكاء الاصطناعي. لكن لماذا؟ ما هو الدافع؟
حسنًا، هناك خط الشركة – “تحسين كل طبقة من [the Azure] “مكدس التكنولوجيا” ، يقرأ أحد منشورات مدونة Microsoft المنشورة اليوم. لكن المعنى الضمني هو أن مايكروسوفت تتنافس لتظل قادرة على المنافسة – واعية بالتكلفة – في السباق الذي لا هوادة فيه من أجل هيمنة الذكاء الاصطناعي.
إن ندرة وحدات معالجة الرسومات وعدم إمكانية الاستغناء عنها جعلت الشركات في مجال الذكاء الاصطناعي، كبيرة وصغيرة، بما في ذلك شركة مايكروسوفت، مدينة بالفضل لبائعي الرقائق. في شهر مايو، وصلت شركة Nvidia إلى قيمة سوقية تزيد عن تريليون دولار أمريكي على شرائح الذكاء الاصطناعي والإيرادات ذات الصلة (13.5 مليار دولار أمريكي في الربع المالي الأخير)، لتصبح شركة التكنولوجيا السادسة في التاريخ التي تقوم بذلك. حتى مع وجود جزء صغير من قاعدة التثبيت، تتوقع AMD، المنافس الرئيسي لـ Nvidia، أن تتجاوز إيرادات مركز بيانات GPU وحده 2 مليار دولار في عام 2024.
ولا شك أن مايكروسوفت غير راضية عن هذا الترتيب. من المؤكد أن OpenAI هي تقنية OpenAI – وهي تقنية OpenAI التي تقود العديد من منتجات وتطبيقات وخدمات الذكاء الاصطناعي الرائدة من Microsoft اليوم.
وفي اجتماع خاص مع المطورين هذا الصيف، اعترف ألتمان بأن نقص وحدة معالجة الرسومات وتكاليفها يعيق تقدم OpenAI؛ اضطرت الشركة هذا الأسبوع إلى إيقاف عمليات الاشتراك مؤقتًا في ChatGPT بسبب مشكلات تتعلق بالسعة. وللتأكيد على هذه النقطة، قال ألتمان في مقابلة هذا الأسبوع مع صحيفة فايننشال تايمز إنه “يأمل” أن تزيد مايكروسوفت، التي استثمرت أكثر من 10 مليارات دولار في OpenAI على مدى السنوات الأربع الماضية، استثماراتها للمساعدة في دفع تكاليف التدريب النموذجي “الضخم” الوشيك. التكاليف.
حذرت Microsoft نفسها المساهمين في وقت سابق من هذا العام من انقطاع خدمة Azure AI المحتملة إذا لم تتمكن من الحصول على ما يكفي من الرقائق لمراكز البيانات الخاصة بها. اضطرت الشركة إلى اتخاذ إجراءات جذرية في هذه الأثناء، مثل تحفيز عملاء Azure الذين لديهم حجوزات GPU غير المستخدمة للتخلي عن تلك الحجوزات مقابل استرداد الأموال والتعهد بما يزيد عن مليارات الدولارات لموفري GPU السحابيين التابعين لجهات خارجية مثل CoreWeave.
إذا قامت شركة OpenAI بتصميم شرائح الذكاء الاصطناعي الخاصة بها كما يشاع، فقد يؤدي ذلك إلى وضع الطرفين على خلاف. لكن من المرجح أن ترى مايكروسوفت أن التوفير المحتمل في التكاليف الناتج عن الأجهزة الداخلية – والقدرة التنافسية في السوق السحابية – يستحق المخاطرة في استباق حليفتها.
يقال إن أحد منتجات الذكاء الاصطناعي الأولى من Microsoft، وهو GitHub Copilot، الذي ينشئ التعليمات البرمجية، يكلف الشركة ما يصل إلى 80 دولارًا لكل مستخدم شهريًا، ويرجع ذلك جزئيًا إلى تكاليف الاستدلال على النماذج. إذا لم يتغير الوضع، فإن شركة الاستثمار UBS ترى أن مايكروسوفت تكافح من أجل توليد تدفقات إيرادات الذكاء الاصطناعي في العام المقبل.
بالطبع، الأجهزة صعبة، وليس هناك ما يضمن نجاح مايكروسوفت في إطلاق شرائح الذكاء الاصطناعي حيث فشل الآخرون.
واجهت جهود شركة Meta في وقت مبكر لشرائح الذكاء الاصطناعي المخصصة مشاكل، مما دفع الشركة إلى التخلص من بعض أجهزتها التجريبية. وفي مكان آخر، لم تتمكن Google من مواكبة الطلب على وحدات TPU الخاصة بها، وفقًا لتقارير Wired – وواجهت مشكلات في التصميم مع أحدث جيل من الرقائق.
ومع ذلك، فإن مايكروسوفت تحاول تجربة الكلية القديمة. وانها ناز مع الثقة.
“تتجه ابتكارات Microsoft إلى مزيد من التقدم مع هذا العمل السيليكوني لضمان مستقبل أعباء عمل عملائنا على Azure، مع إعطاء الأولوية للأداء وكفاءة الطاقة والتكلفة،” قال بات ستيمن، مدير البرنامج الشريك في أنظمة أجهزة Azure وفريق البنية التحتية من Microsoft. ، قال في منشور بالمدونة اليوم. “لقد اخترنا هذا الابتكار عمدًا حتى يحصل عملاؤنا على أفضل تجربة يمكنهم الحصول عليها مع Azure اليوم وفي المستقبل…إننا نحاول تقديم أفضل مجموعة من الخيارات [customers]سواء كان ذلك يتعلق بالأداء أو التكلفة أو أي بُعد آخر يهتمون به.”