تقنية

تطلق OpenAI واجهة DALL-E 3 API، وهي نماذج جديدة لتحويل النص إلى كلام


أطلقت OpenAI عددًا كبيرًا من واجهات برمجة التطبيقات الجديدة خلال أول يوم للمطورين على الإطلاق.

DALL-E 3، نموذج OpenAI لتحويل النص إلى صورة، متاح الآن عبر واجهة برمجة التطبيقات (API) بعد وصوله لأول مرة إلى ChatGPT وBing Chat. على غرار الإصدار السابق من DALL-E (مثل DALL-E 2)، تتضمن واجهة برمجة التطبيقات (API) تعديلًا مدمجًا للمساعدة في الحماية من سوء الاستخدام، كما تقول OpenAI.

توفر DALL-E 3 API خيارات مختلفة للتنسيق والجودة ودقة تتراوح من 1024×1024 إلى 1792×1024، وبأسعار تبدأ من 0.04 دولار لكل صورة تم إنشاؤها. لكنها محدودة إلى حد ما مقارنة بـ DALL-E 2 API – على الأقل في الوقت الحاضر.

على عكس واجهة برمجة تطبيقات DALL-E 2، لا يمكن استخدام DALL-E 3 لإنشاء إصدارات معدلة من الصور من خلال جعل النموذج يستبدل بعض المناطق من صورة موجودة مسبقًا أو ينشئ أشكالًا مختلفة من صورة موجودة. وعندما يتم إرسال طلب إنشاء إلى DALL-E 3، تقول OpenAI إنها ستعيد كتابته تلقائيًا “لأسباب تتعلق بالسلامة” و”لإضافة المزيد من التفاصيل” – مما قد يؤدي إلى نتائج أقل دقة اعتمادًا على المطالبة.

وفي مكان آخر، توفر OpenAI الآن واجهة برمجة تطبيقات تحويل النص إلى كلام، وواجهة برمجة التطبيقات الصوتية، التي توفر ستة أصوات محددة مسبقًا – Alloy وEcho وFable وOnyx وNova وShimer – للاختيار من بينها ومتغيران مختلفان لنماذج الذكاء الاصطناعي. بدأ البث المباشر اليوم، بسعر يبدأ من 0.015 دولارًا أمريكيًا لكل إدخال يبلغ 1000 حرف.

قال OpenAI Sam Altman على خشبة المسرح: “هذا أمر طبيعي أكثر بكثير من أي شيء آخر سمعناه هناك، وهو ما يمكن أن يجعل التطبيقات أكثر طبيعية للتفاعل معها ويسهل الوصول إليها”. “كما أنه يفتح الكثير من حالات الاستخدام مثل تعلم اللغة والمساعدة الصوتية.”

على عكس بعض منصات وأدوات تركيب الكلام، لا يوفر OpenAI طريقة للتحكم في التأثير العاطفي للصوت الناتج. في وثائق واجهة برمجة تطبيقات الصوت، تشير الشركة إلى أن “عوامل معينة” قد تؤثر على كيفية ظهور الأصوات التي يتم إنشاؤها، مثل الكتابة بالأحرف الكبيرة أو القواعد النحوية في النص الذي تتم قراءته بصوت عالٍ، ولكن اختبارات OpenAI الداخلية مع هذا قد أسفرت عن “نتائج مختلطة”.

يتطلب OpenAI من المطورين الذين يستخدمون ذلك إبلاغ المستخدمين بأن الصوت يتم إنشاؤه بواسطة الذكاء الاصطناعي.

وفي إعلان ذي صلة، أطلقت OpenAI الإصدار التالي من نموذج التعرف التلقائي على الكلام مفتوح المصدر، Whisper Large-v3، والذي تدعي الشركة أنه يتميز بأداء محسن عبر اللغات. إنه موجود على GitHub، وهو متاح بموجب ترخيص متساهل.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى