تقنية

Amazon تكشف النقاب عن نموذج صوتي جديد لـ AI ، Nova Sonic


في يوم الثلاثاء ، ظهرت أمازون لأول مرة في نموذج AI توليدي جديد ، Nova Sonic ، قادر على معالجة الصوت أصلاً وتوليد خطاب طبيعية. تدعي Amazon أن أداء Sonic قادر على المنافسة مع نماذج Frontier Voice من Openai و Google على المعايير التي تقيس السرعة ، والتعرف على الكلام ، وجودة المحادثة.

Nova Sonic هي إجابة Amazon على النماذج الصوتية الأحدث من الذكاء الاصطناعى مثل وضع صوتي في طراز ChatGpt ، والذي يشعر بأنه أكثر طبيعية للتحدث مع النماذج الأكثر صلابة من الأيام الأولى لـ Amazon Alexa. لقد صنعت الاختراقات التكنولوجية الحديثة نماذج قديمة ، ويبدو أن المساعدين الرقميين الذين يدعمونه ، مثل Alexa و Apple’s Siri ، مغرمين بشكل لا يصدق بالمقارنة.

تتوفر Nova Sonic من خلال Bedrock ، منصة مطور Amazon لبناء تطبيقات AI للمؤسسات ، عبر واجهة برمجة تطبيقات جديدة ثنائية الاتجاه. في بيان صحفي ، وصفت Amazon Nova Sonic “النموذج الصوتي الأكثر كفاءة من حيث التكلفة” في السوق ، وحوالي 80 ٪ أقل تكلفة من GPT-4O من Openai.

تعمل مكونات Nova Sonic بالفعل على تشغيل Alexa+، مساعد الصوت الرقمي الذي تمت ترقيته من Amazon ، وفقًا لـ Amazon SVP ورئيس عالم Agi Rohit Prasad.

في مقابلة ، أخبر براساد TechCrunch أن نوفا سونيك تبني خبرة أمازون في “أنظمة التزامن الكبيرة” ، السقالة الفنية التي تشكل أليكسا. وقال براساد إن نوفا سونيك تتفوق في توجيه طلبات المستخدمين إلى واجهات برمجة التطبيقات المختلفة. تساعد هذه الإمكانية “معرفة” Nova Sonic عندما تحتاج إلى جلب معلومات في الوقت الفعلي من الإنترنت ، أو تحليل مصدر بيانات خاص ، أو اتخاذ إجراء في تطبيق خارجي-واستخدم الأداة المناسبة للقيام بذلك.

خلال حوار ثنائي الاتجاه ، تنتظر نوفا سونيك التحدث “في الوقت المناسب” ، مع مراعاة توقف المتحدث وانقطاع المتحدث. كما أنه ينشئ نسخة نصية لخطاب المستخدم ، والتي يمكن للمطورين استخدامها لمختلف التطبيقات.

Nova Sonic أقل عرضة لأخطاء التعرف على الكلام من النماذج الصوتية الأخرى من الذكاء الاصطناعي ، وفقًا لـ Prasad ، مما يعني أن النموذج جيد نسبيًا في فهم نية المستخدم حتى لو كانت غامضة أو أخطاء أخطاء أو في إعداد صاخب. على معيار قياس التعرف على الكلام عبر اللغات واللهجات ، Librispeech متعددة اللغات ، تقول Amazon إن Nova Sonic حققت معدل خطأ في الكلمات (WER) بنسبة 4.2 ٪ فقط عندما يتم حساب متوسطه عبر اللغة الإنجليزية والفرنسية والإيطالية والألمانية والإسبانية. هذا يعني أن ما يقرب من أربعة من بين كل 100 كلمة عن النموذج تختلف عن النسخ البشري في تلك اللغات.

في معيار آخر يقيس التفاعلات الصاخبة مع العديد من المشاركين ، التفاعل المتعدد الأطراف المعزز ، تقول أمازون إن نوفا سونيك كانت أكثر دقة بنسبة 46.7 ٪ من حيث WER من طراز GPT-4O من Openai. لدى Nova Sonic أيضًا سرعة رائدة في الصناعة ، حيث يبلغ متوسط ​​زمن الوصول المتصور 1.09 ثانية ، وفقًا لـ Amazon. هذا يجعلها أسرع من طراز GPT-4O الذي يعمل على تشغيل واجهة برمجة تطبيقات Openai في الوقت الفعلي ، والذي يستجيب في 1.18 ثانية ، لكل قياس من خلال التحليل الاصطناعي.

يقول براساد إن نوفا سونيك هي جزء من استراتيجية أمازون الأوسع لبناء AGI (الذكاء العام الاصطناعي) ، والتي تعرفها الشركة بأنها “أنظمة منظمة العفو الدولية التي يمكن أن تفعل أي شيء يمكن للإنسان القيام به على الكمبيوتر”. يقول براساد ، إن Amazon تخطط لإصدار المزيد من نماذج الذكاء الاصطناعي التي يمكنها فهم الطرائق المختلفة ، بما في ذلك الصور والفيديو والصوت ، وكذلك “البيانات الحسية الأخرى ذات الصلة إذا جلبت الأمور إلى العالم المادي”.

يبدو أن قسم أمازون AGI ، الذي يشرف عليه براساد ، يلعب دورًا أكبر في استراتيجية منتج الشركة هذه الأيام. في الأسبوع الماضي فقط ، أطلقت Amazon معاينة لـ Nova Act ، وهو نموذج من الذكاء الاصطناعي الذي يستخدم المتصفح والذي يبدو أنه يعمل على تشغيل عناصر Alexa+ و Amazon’s Buy for Me. بدءًا من Nova Sonic ، تقول براساد إن الشركة ترغب في تقديم المزيد من نماذج الذكاء الاصطناعى الداخلية للمطورين للبناء معها.


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading