تكشف OpenAI عن نموذج يمكنه التحقق من الحقائق بنفسه

أعلن صانع ChatGPT OpenAI عن إصدار منتجه الرئيسي التالي: نموذج ذكاء اصطناعي توليدي يحمل الاسم الرمزي Strawberry، ويُسمى رسميًا OpenAI o1.
لنكون أكثر دقة، o1 هي في الواقع عائلة من النماذج. يتوفر اثنان منها اليوم: o1-preview ونموذج أصغر وأرخص، o1 mini، في كل من شكل chatbot وعبر واجهة برمجة التطبيقات الخاصة بـ OpenAI. لاحظ أن برنامج الدردشة الآلي مجرد مجردًا إلى حد ما في الوقت الحالي؛ على عكس ChatGPT، لا يستطيع o1 تصفح الويب أو تحليل الملفات (حتى الآن).
يتجنب o1 بعض المخاطر المنطقية التي عادةً ما تعوق نماذج الذكاء الاصطناعي التوليدية، على الأقل وفقًا لـ OpenAI. وذلك لأن o1 يمكنه التحقق من صحة الحقائق بشكل فعال من خلال قضاء المزيد من الوقت في النظر في جميع أجزاء الأمر أو السؤال.
تقول OpenAI أن o1، الذي نشأ من مشروع داخلي للشركة يُعرف باسم Q*، بارع بشكل خاص في حل التحديات المتعلقة بالرياضيات والبرمجة. ولكن ما يجعل النص فقط “يشعر” بأنه مختلف نوعيًا عن نماذج الذكاء الاصطناعي التوليدية الأخرى هو قدرته على “التفكير” قبل الرد على الاستفسارات.
عندما يُمنح وقتًا إضافيًا “للتفكير”، يستطيع o1 التفكير في مهمة ما بشكل كلي – التخطيط للمستقبل وتنفيذ سلسلة من الإجراءات على مدار فترة زمنية طويلة تساعده في الوصول إلى الإجابات. وهذا يجعل o1 مناسبًا تمامًا للمهام التي تتطلب تجميع نتائج المهام الفرعية المتعددة، مثل اكتشاف رسائل البريد الإلكتروني المميزة في البريد الوارد للمحامي أو تبادل الأفكار حول استراتيجية تسويق المنتج.
وقال نوام براون، عالم الأبحاث في OpenAI، في سلسلة من التغريدات: “تم تدريب o1 من خلال التعلم المعزز على “التفكير” قبل الاستجابة عبر سلسلة فكرية خاصة”. “كلما طال تفكيره، كلما كان أداءه أفضل في مهام التفكير.” وهذا يفتح بعدًا جديدًا للتوسع.”
لم تُتاح الفرصة لـ TechCrunch لاختبار o1 قبل ظهوره لأول مرة؛ ونحن نهدف إلى وضع أيدينا عليه في أقرب وقت ممكن. ولكن وفقا للشخص الذي فعل إمكانية الوصول – Pablo Arredondo، نائب الرئيس في Thomson Reuters – o1 أفضل من نماذج OpenAI السابقة (مثل GPT-4o) في أشياء مثل تحليل الملخصات القانونية وتحديد الحلول للمشكلات في ألعاب المنطق LSAT.
وقال أريدوندو لـ TechCrunch: “لقد رأينا أنه يتعامل مع تحليل أكثر موضوعية ومتعدد الأوجه”. “أظهر اختبارنا الآلي أيضًا مكاسب مقابل مجموعة واسعة من المهام البسيطة.”
في الاختبار التأهيلي لأولمبياد الرياضيات الدولي، وهي مسابقة للرياضيات في المدارس الثانوية، حل o1 بشكل صحيح 83% من المسائل بينما حل GPT-4o 13% فقط، حسبما تدعي OpenAI. وتقول الشركة أيضًا إن o1 يجب أن يؤدي أداءً أفضل في المشكلات المتعلقة بالعلوم والبرمجة.
الآن، هناك يكون الجانب السلبي. o1 يستطيع تكون أبطأ من النماذج الأخرى، يعتمد الاستعلام عليها؛ يخبرنا Arredondo أن النموذج قد يستغرق أكثر من عشر ثوانٍ للإجابة على بعض الأسئلة. (من المفيد أن يُظهر إصدار chatbot من o1 تقدمه من خلال عرض تسمية للمهمة الفرعية الحالية التي يقوم بتنفيذها.)
ونظرًا للطبيعة غير المتوقعة لنماذج الذكاء الاصطناعي التوليدية، فمن المحتمل أن يكون لـ o1 عيوب وقيود أخرى (اعترف براون أن o1 يتعثر أيضًا في ألعاب tic-tac-toe، على سبيل المثال). لا شك أننا سنتعرف على هذه الأمور في الوقت المناسب، وبمجرد أن تتاح لنا الفرصة لاختبار النموذج بأنفسنا.
سنكون مقصرين إذا لم نشير إلى أن OpenAI ليس بائع الذكاء الاصطناعي الوحيد الذي يحقق في هذه الأنواع من أساليب التفكير لتحسين واقعية النموذج. نشر باحثو Google DeepMind مؤخرًا دراسة توضح أنه من خلال منح النماذج مزيدًا من الوقت والتوجيه للحوسبة لتلبية الطلبات أثناء تقديمها، يمكن تحسين أداء هذه النماذج بشكل كبير دون أي تعديلات إضافية.
قد يكون OpenAI أول من يخرج من البوابة بـ o1. ولكن على افتراض أن المنافسين سيتبعون قريبا نماذج مماثلة، فإن الاختبار الحقيقي للشركة سيكون جعل o1 متاحا على نطاق واسع وبسعر معقول.