تقنية

يقوم Openai بترقية نماذج الذكاء الاصطناعي للنسخ وتوليد الصوت


تقوم Openai بتقديم نماذج جديدة للنسخ وتوليد الصوت إلى API التي تدعي الشركة أن تتحسن في إصداراتها السابقة.

بالنسبة لـ Openai ، تتناسب النماذج مع رؤيتها “Agentic” الأوسع: بناء أنظمة آلية يمكنها إنجاز المهام بشكل مستقل نيابة عن المستخدمين. قد يكون تعريف “الوكيل” في نزاع ، لكن رئيس منتج Openai Olivier Godemont وصف تفسيرًا واحدًا بأنه chatbot يمكنه التحدث مع عملاء الشركات.

وقال جودمونت لـ TechCrunch خلال إحاطة: “سنرى المزيد والمزيد من الوكلاء يطفوون في الأشهر المقبلة”. “وبالتالي فإن الموضوع العام يساعد العملاء والمطورين على الاستفادة من الوكلاء المفيدين والمتاحين والدقيق.”

يدعي Openai أن نموذج النص إلى الكلام الجديد ، “GPT-4O-Mini-TTS” ، لا يوفر خطابًا أكثر دقة وواقعية ، ولكنه “أكثر قابلية” من نماذج التزامات الكلام السابقة. يمكن للمطورين إرشاد GPT-4O-Mini-TTS حول كيفية قول الأشياء باللغة الطبيعية-على سبيل المثال ، “تحدث مثل عالم مجنون” أو “استخدم صوتًا هادئًا ، مثل معلم الذهن”.

إليكم صوت “على غرار الجريمة الحقيقي”:

وهنا عينة من صوت “احترافي” أنثى:

أخبر جيف هاريس ، وهو عضو في موظفي المنتج في Openai ، TechCrunch أن الهدف هو السماح للمطورين بتكييف كل من “التجربة” الصوتية و “السياق”.

“في سياقات مختلفة ، لا تريد فقط صوتًا مسطحًا ورتابة” ، تابع هاريس. “إذا كنت في تجربة دعم العملاء وتريد أن يكون الصوت اعتذاريًا لأنه ارتكب خطأً ، فيمكنك في الواقع أن يكون لديك الصوت […] اعتقادنا الكبير ، هنا ، هو أن المطورين والمستخدمين يرغبون في التحكم في حقًا ليس فقط ما يتم التحدث به ، ولكن كيف يتم التحدث بالأشياء “.

أما بالنسبة لنماذج Openai الجديدة للكلام إلى النص ، فإن “GPT-4O Transcribe” و “GPT-4O-Mini-Ranscribe” ، يحلون بفعالية محل نموذج النسخ الهمس الطويل في الشركة. تدرب على “مجموعات بيانات صوتية عالية الجودة عالية الجودة” ، يمكن للموديلات الجديدة التقاط خطاب معلم ومتنوع بشكل أفضل ، ومطالبات Openai ، حتى في البيئات الفوضوية.

وأضاف هاريس أنهم أقل عرضة للهلوسة. كان الهمس يميل إلى تصنيع الكلمات – وحتى الممرات الكاملة – في المحادثات ، وإدخال كل شيء من التعليقات العنصرية إلى العلاجات الطبية المتخيلة إلى نصوص.

“[T]وقال هاريس: “تم تحسين نماذج Hese إلى حد كبير مقابل هذا الجبهة. التأكد من أن النماذج دقيقة أمر ضروري تمامًا للحصول على تجربة صوتية موثوقة ودقيقة [in this context] يعني أن النماذج تسمع الكلمات بدقة [and] لا تملأ التفاصيل التي لم يسمعوا بها. “

ومع ذلك ، قد يختلف عدد الأميال الخاصة بك اعتمادًا على اللغة التي يتم نسخها.

وفقًا للمعايير الداخلية لـ Openai ، فإن GPT-4O Transcribe ، وهو أكثر دقة بين نموذجين للنسخ ، له “معدل خطأ في الكلمات” يقترب من 30 ٪ من اللغات المؤسسة والدرافيدية مثل التاميل ، التيلجو ، مالايالام ، والكانادا. هذا يعني أن النموذج يفتقد حوالي ثلاث كلمات من كل 10 كلمات في تلك اللغات.

نتائج معايير التعرف على الكلام الداخلية في Openai.ائتمانات الصورة:Openai

في استراحة من التقليد ، لا يخطط Openai لإتاحة نماذج النسخ الجديدة علانية. أصدرت الشركة تاريخيا إصدارات جديدة من Whisper للاستخدام التجاري بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.

قال هاريس إن GPT-4O Transcribe و GPT-4O-Mini-Ranscribe “أكبر بكثير من الهمس” وبالتالي ليسوا مرشحين جيدين لإصدار مفتوح.

“[T]لم يكن نوع النموذج الذي يمكنك تشغيله محليًا على جهاز الكمبيوتر المحمول الخاص بك ، مثل Whisper “.[W]نريد أن تتأكد من أننا إذا نطلقنا الأمور في مفتوح المصدر ، فنحن نفعل ذلك بعناية ، ولدينا نموذج يتم شحذه حقًا لهذه الحاجة المحددة. ونعتقد أن أجهزة المستخدم النهائي هي واحدة من أكثر الحالات إثارة للاهتمام لنماذج المصدر المفتوح. “

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى