إن صعود نماذج “التفكير” يجعل القياس أكثر تكلفة

تدعي مختبرات AI مثل Openai أن ما يسمى نماذج “التفكير” ، والتي يمكن أن “يفكر” من خلال المشكلات خطوة بخطوة ، أكثر قدرة من نظرائها غير المتجولين في مجالات محددة ، مثل الفيزياء. ولكن على الرغم من أن هذا هو الحال عمومًا ، إلا أن نماذج التفكير هي أيضًا أكثر تكلفة بكثير للمعايير ، مما يجعل من الصعب التحقق من هذه المطالبات بشكل مستقل.

وفقًا للبيانات من التحليل الاصطناعي ، وهي جماعة اختبار منظمة العفو الدولية من طرف ثالث ، فإنها تكلف 2767.05 دولارًا لتقييم نموذج التفكير O1 من Openai عبر مجموعة من سبعة معايير AI الشعبية: MMLU-PRO ، GPQA Diamond ، Exam’s Humanity Last ، LiveCodeBench ، Scicode ، Aime 2024 ، Math-500.

تكلف كلود 3.7 سونيت مؤخراً من قبل كلود 3.7 ، وهو نموذج التفكير “المختلط” ، في نفس المجموعة من الاختبارات ، 1،485.35 دولار ، بينما تكلف اختبار Openai من Openai 344.59 دولار ، لكل تحليل اصطناعي.

بعض نماذج التفكير أرخص في القياس من غيرها. أنفق التحليل الاصطناعي 141.22 دولار في تقييم Openai’s O1-Mini ، على سبيل المثال. ولكن في المتوسط ، فإنها تميل إلى أن تكون باهظة الثمن. أخيرًا ، أنفق التحليل الاصطناعي حوالي 5200 دولار في التقييم حول عشرات النماذج المنطقية ، على مقربة من ضعف المبلغ الذي أنفقت عليه الشركة في تحليل أكثر من 80 طرازًا غير موسع (2400 دولار).

تكلف طراز GPT-4O من Openai ، الذي تم إصداره في مايو 2024 ، التحليل الاصطناعي 108.85 دولارًا فقط للتقييم ، في حين أن كلود 3.6 Sonnet-Claude 3.7 Sonnet غير موسع-تكلف 81.41 دولار.

أخبر جورج كاميرون ، المؤسس المشارك لجامعة التحليل الاصطناعي ، TechCrunch أن المنظمة تخطط لزيادة إنفاقها القياسي مع تطوير المزيد من مختبرات الذكاء الاصطناعي.

وقال كاميرون: “في التحليل الاصطناعي ، ندير مئات التقييمات شهريًا ونكرس ميزانية كبيرة لها”. “نحن نخطط لزيادة هذا الإنفاق حيث يتم إصدار النماذج بشكل متكرر.”

التحليل الاصطناعي ليس هو الزي الوحيد من نوعه الذي يتعامل مع ارتفاع تكاليف القياس من الذكاء الاصطناعي.

وقال روس تايلور ، الرئيس التنفيذي لشركة AI Startup Reasoning ، إنه أنفق مؤخرًا 580 دولارًا في تقييم كلود 3.7 Sonnet على حوالي 3700 مطالبة فريدة. تقدر تايلور مجموعة واحدة من MMLU Pro ، وهي مجموعة أسئلة مصممة لقياس مهارات فهم اللغة النموذجية ، كانت تكلف أكثر من 1800 دولار.

وقال تايلور في منشور حديث على X. “إننا ننتقل إلى عالم حيث يبلغ أحد المختبرات X ٪ عن معيار حيث ينفقون قدرًا من الحساب ، ولكن حيث تكون الموارد للأكاديميين << y".[N]يا أحده سيكون قادرا على إعادة إنتاج النتائج. "

لماذا نماذج التفكير باهظة الثمن للاختبار؟ أساسا لأنها تولد الكثير من الرموز. تمثل الرموز أجزاء من النص الخام ، مثل كلمة “Fantastic” مقسمة إلى المقاطع “مروحة” و “TAS” و “Tic”. وفقًا للتحليل الاصطناعي ، حقق Openai من Openai أكثر من 44 مليون رمز خلال اختبارات المعايير للشركة ، حوالي ثمانية أضعاف المبلغ الذي تم إنشاؤه GPT-4O.

تتقاضى الغالبية العظمى من شركات الذكاء الاصطناعى استخدام النموذج من خلال الرمز المميز ، حتى تتمكن من معرفة كيف يمكن أن تضيف هذه التكلفة.

تميل المعايير الحديثة أيضًا إلى استنباط الكثير من الرموز من النماذج لأنها تحتوي على أسئلة تتضمن مهام معقدة متعددة الخطوات ، وفقًا لـ Jean-Stanislas Denain ، باحث كبير في Epoch AI ، الذي يطور معاييره النموذجية.

“[Today’s] المعايير أكثر تعقيدًا [even though] وقال دينين: “لقد انخفض عدد الأسئلة في المعيار بشكل عام”.

وأضاف Denain أن أغلى النماذج أصبحت أكثر تكلفة لكل رمز متأخر , بعد فوات الوقت. على سبيل المثال ، كان كلود 3 Opus من الأنثروبور هو أكثر طرازات دفعة عندما تم إصداره في مايو 2024 ، بتكلفة 70 دولارًا لكل مليون رموز إخراج. تكلف GPT-4.5 و O1-PRO من Openai ، وكلاهما تم إطلاقهما في وقت سابق من هذا العام ، 150 دولارًا لكل مليون رموز إخراج و 600 دولار لكل مليون رموز الإخراج ، على التوالي.

“[S]وقالت Denain: “لا يزال من الصحيح أن نماذج Ince قد تحسنت مع مرور الوقت ، فلا يزال صحيحًا أن تكلفة الوصول إلى مستوى معين من الأداء قد انخفضت مع مرور الوقت”. ولكن إذا كنت ترغب في تقييم أفضل النماذج في أي وقت ، فأنت لا تزال تدفع أكثر “.

تمنح العديد من مختبرات الذكاء الاصطناعي ، بما في ذلك Openai ، منظمات القياس وصولًا مجانيًا أو مدعومًا إلى نماذجها لأغراض الاختبار. لكن هذا يلون النتائج ، كما يقول بعض الخبراء – حتى لو لم يكن هناك دليل على التلاعب ، فإن مجرد اقتراح بمشاركة مختبر الذكاء الاصطناعى يهدد بإلحاق الأذى بنزاهة تسجيل التقييم.

“من [a] وجهة النظر العلمية ، إذا قمت بنشر نتيجة لا يمكن لأحد أن يتكرر مع نفس النموذج ، فهل هو العلم حتى الآن؟ ” كتب تايلور في منشور متابعة على X. “هل كان العلم؟”

مرتبط

الوسوم

إن صعود نماذج “التفكير” يجعل القياس أكثر تكلفة

معجب بهذه:

مرتبط

اترك تعليقاً إلغاء الرد

أساءت برامج التجسس “Landfall” استغلال يوم الصفر لاختراق هواتف Samsung Galaxy

مكتب حقوق الإنسان: تقارير مقلقة عن عشرات حالات الاختطاف والاختفاء القسري في سوريا

“إمكانات الفضاء اللامحدودة” تجبر البشرية على التعاون

يقول الرئيس التنفيذي لشركة Reddit إن برامج الدردشة الآلية ليست محركًا لحركة المرور

“المرأة الحديدية” الباكستانية تقود النضال من أجل مستقبل أكثر عدلا للجميع

نوفمبر 2025
س	د	ن	ث	أرب	خ	ج
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

شارك هذا الموضوع:

معجب بهذه:

مرتبط

مقالات ذات صلة

اترك تعليقاً إلغاء الرد