أكبر نموذج للذكاء الاصطناعي لتحويل النص إلى كلام يظهر حتى الآن “قدرات ناشئة”

قام الباحثون في أمازون بتدريب أكبر نموذج لتحويل النص إلى كلام حتى الآن، والذي يزعمون أنه يعرض صفات “ناشئة” تعمل على تحسين قدرته على التحدث حتى بالجمل المعقدة بشكل طبيعي. قد يكون هذا الاختراق هو ما تحتاجه التكنولوجيا للهروب من الوادي الغريب.

كانت هذه النماذج دائمًا تنمو وتتحسن، لكن الباحثين كانوا يأملون على وجه التحديد في رؤية نوع القفزة في القدرة التي لاحظناها بمجرد تجاوز نماذج اللغة حجمًا معينًا. لأسباب غير معروفة لنا، بمجرد أن يتجاوز حاملو ماجستير إدارة الأعمال نقطة معينة، فإنهم يصبحون أكثر قوة وتنوعًا، ويكونون قادرين على أداء المهام التي لم يتم تدريبهم عليها.

هذا لا يعني أنهم يكتسبون الوعي أو أي شيء من هذا القبيل، ولكن هذا يعني فقط أن أدائهم في بعض مهام الذكاء الاصطناعي التحادثية يتجاوز نقطة معينة. اعتقد فريق Amazon AGI – وليس سرًا ما يهدفون إليه – أن نفس الشيء قد يحدث مع نمو نماذج تحويل النص إلى كلام أيضًا، وتشير أبحاثهم إلى أن هذا هو الحال في الواقع.

يُطلق على النموذج الجديد اسم Big Adaptive Streamable TTS مع القدرات الناشئة، والتي تم تحويلها إلى اختصار BASE TTS. وتستخدم النسخة الأكبر من النموذج 100 ألف ساعة من الخطاب العام، 90% منها باللغة الإنجليزية، والباقي باللغة الألمانية والهولندية والإسبانية.

مع 980 مليون معلمة، يبدو أن BASE-Large هو النموذج الأكبر في هذه الفئة. قاموا أيضًا بتدريب نماذج ذات 400 مليون و150 مليون معلمة استنادًا إلى 10000 و1000 ساعة من الصوت على التوالي، للمقارنة – الفكرة هي أنه إذا أظهر أحد هذه النماذج سلوكيات ناشئة ولكن الآخر لا يظهر ذلك، يكون لديك نطاق حيث تبدأ تلك السلوكيات لينحرف.

كما اتضح، أظهر النموذج المتوسط الحجم القفزة في القدرات التي كان الفريق يبحث عنها، ليس بالضرورة في جودة الكلام العادية (تتم مراجعتها بشكل أفضل ولكن من خلال بضع نقاط فقط) ولكن في مجموعة القدرات الناشئة التي لاحظوها وقاسوها . فيما يلي أمثلة على النص الصعب المذكور في الورقة:

أسماء مركبه: قررت عائلة بيكهام استئجار منزل ريفي ساحر ومبني بالحجارة لقضاء العطلات.
العواطف: “يا الهي! هل سنذهب حقاً إلى جزر المالديف؟ هذا لا يصدق!” صرخت جيني وهي تقفز على أصابع قدميها بسعادة لا يمكن السيطرة عليها.
كلمات اجنبية: “السيد. هنري، المشهور بـ ميز أون بليس، قام بتنسيق وجبة مكونة من سبعة أطباق، كل طبق عبارة عن قطعة مقاومة.
علم اللغة (أي غير الكلمات المقروءة): “صه، لوسي، صهش، لا يجب أن نوقظ أخيك الصغير،” همس توم، وهما يسيران على أطراف أصابعهما بجوار الحضانة.
علامات الترقيم: تلقت رسالة نصية غريبة من شقيقها: ‘الطوارئ @ المنزل؛ اتصل في اسرع وقت ممكن! أمي وأبي قلقان…#familymatters.’
أسئلةلكن يبقى سؤال خروج بريطانيا من الاتحاد الأوروبي: بعد كل التجارب والمحن، هل سيجد الوزراء الإجابات في الوقت المناسب؟
التعقيدات النحوية: حقق الفيلم الذي حصل دي مويا مؤخرًا على جائزة الإنجاز مدى الحياة عام 2022، نجاحًا كبيرًا في شباك التذاكر، على الرغم من الآراء المتباينة.

“تم تصميم هذه الجمل لتحتوي على مهام صعبة – تحليل جمل مسار الحديقة، أو وضع ضغط الجمل الفعلية على الأسماء المركبة الطويلة، أو إنتاج كلام عاطفي أو هامس، أو إنتاج الصوتيات الصحيحة للأسماء الأجنبية
“كلمات مثل “qi” أو علامات الترقيم مثل “@” – لم يتم تدريب BASE TTS بشكل صريح على أداء أي منها”، كما كتب المؤلفون.

عادةً ما تؤدي مثل هذه الميزات إلى تعطيل محركات تحويل النص إلى كلام، والتي قد تخطئ في نطق الكلمات أو تخطي الكلمات أو استخدام نغمات غريبة أو ارتكاب بعض الأخطاء الفادحة. لا تزال BASE TTS تواجه مشكلات، لكنها كانت أفضل بكثير من معاصريها – نماذج مثل Tortoise وVALL-E.

هناك مجموعة من الأمثلة على هذه النصوص الصعبة التي يتم نطقها بشكل طبيعي تمامًا بواسطة النموذج الجديد في الموقع الذي قاموا بإنشائه من أجله. بالطبع تم اختيار هذه الأشياء من قبل الباحثين، لذا فهي بالضرورة منتقاة بعناية، ولكن بغض النظر عن ذلك، فإن الأمر مثير للإعجاب. إليك زوجين، إذا كنت لا ترغب في النقر فوق:

نظرًا لأن نماذج BASE TTS الثلاثة تشترك في البنية، يبدو من الواضح أن حجم النموذج ومدى بيانات التدريب الخاصة به هو السبب في قدرة النموذج على التعامل مع بعض التعقيدات المذكورة أعلاه. ضع في اعتبارك أن هذا لا يزال نموذجًا وعملية تجريبية، وليس نموذجًا تجاريًا أو أي شيء من هذا القبيل. سيتعين على الأبحاث اللاحقة تحديد نقطة انعطاف القدرة الناشئة وكيفية تدريب ونشر النموذج الناتج بكفاءة.

والجدير بالذكر أن هذا النموذج “قابل للبث”، كما يقول الاسم – مما يعني أنه لا يحتاج إلى إنشاء جمل كاملة مرة واحدة ولكنه يعمل لحظة بلحظة بمعدل بت منخفض نسبيًا. لقد حاول الفريق أيضًا تجميع البيانات الوصفية للكلام مثل العاطفة والعروض وما إلى ذلك في تدفق منفصل ذي نطاق ترددي منخفض يمكن أن يصاحب صوت الفانيليا.

يبدو أن نماذج تحويل النص إلى كلام قد تشهد لحظة انطلاق في عام 2024 – في الوقت المناسب تمامًا للانتخابات! ولكن ليس هناك من ينكر فائدة هذه التكنولوجيا، فيما يتعلق بإمكانية الوصول على وجه الخصوص. لاحظ الفريق أنه رفض نشر مصدر النموذج والبيانات الأخرى بسبب خطر استغلال الجهات الفاعلة السيئة له. ومع ذلك، ستخرج القطة من تلك الحقيبة في النهاية.