يقوم الذكاء الاصطناعي المستقر بإصدار مولد صوت

أصدرت شركة Stability AI، الشركة الناشئة التي تقف وراء المولد الفني المدعم بالذكاء الاصطناعي Stable Diffusion، نموذجًا مفتوحًا للذكاء الاصطناعي لتوليد الأصوات والأغاني التي تدعي أنه تم تدريبها حصريًا على تسجيلات خالية من حقوق الملكية.

النموذج التوليدي الذي يُطلق عليه اسم Stable Audio Open، والذي تم تدريبه باستخدام ما يقرب من 486000 عينة من مكتبات الموسيقى المجانية FreeSound وأرشيف الموسيقى المجانية، يأخذ وصفًا نصيًا (على سبيل المثال “عزف موسيقى الروك في استوديو مُعالج، وجلسة قرع الطبول على مجموعة صوتية”) والمخرجات تسجيل يصل طوله إلى 47 ثانية.

تقول تقنية Stability AI أنه يمكن استخدام النموذج لإنشاء إيقاعات الطبول، ونغمات الآلات الموسيقية، والضوضاء المحيطة و”عناصر الإنتاج” لمقاطع الفيديو والأفلام والبرامج التلفزيونية، بالإضافة إلى “تحرير” الأغاني الموجودة أو تطبيق نمط أغنية واحدة (على سبيل المثال سلسة). الجاز) إلى آخر.

“من المزايا الرئيسية لهذا الإصدار مفتوح المصدر أنه يمكن للمستخدمين ضبط النموذج على بياناتهم الصوتية المخصصة،” كتبت Stability AI في منشور على مدونة الشركة الخاصة بها. “على سبيل المثال، يمكن لعازف الطبول ضبط عينات من تسجيلات الطبلة الخاصة به لتوليد إيقاعات جديدة.”

ومع ذلك، فإن الصوت الثابت المفتوح له حدوده. ولا يمكنها إنتاج أغانٍ أو ألحان أو غناء كاملة، على الأقل ليست جيدة. يقول Stability AI أنه لم يتم تحسينه لهذا الغرض، ويقترح على المستخدمين البحث عنه أولئك تختار القدرات خدمة الصوت الثابت المتميزة للشركة.

لا يمكن أيضًا استخدام الصوت الثابت المفتوح تجاريًا؛ شروط الخدمة الخاصة به تحظر ذلك. كما أنه لا يؤدي أداءً جيدًا بنفس القدر عبر الأنماط والثقافات الموسيقية أو مع الوصف بلغات أخرى غير الإنجليزية، وهي تحيزات يلقي الذكاء الاصطناعي باللوم فيها على بيانات التدريب.

وكتب Stability AI في وصف النموذج: “من المحتمل أن يفتقر مصدر البيانات إلى التنوع، كما أن جميع الثقافات ليست ممثلة بشكل متساوٍ في مجموعة البيانات”. “إن العينات التي تم إنشاؤها من النموذج سوف تعكس التحيزات من بيانات التدريب.”

أصبح الذكاء الاصطناعي المستقر – الذي ناضل منذ فترة طويلة لتحويل أعماله المتعثرة – موضوعًا للجدل مؤخرًا بعد استقالة نائب الرئيس للصوت التوليدي، إد نيوتن ريكس، بسبب عدم الاتفاق مع موقف الشركة بأن تدريب نماذج الذكاء الاصطناعي التوليدي على الأعمال المحمية بحقوق الطبع والنشر يشكل “عادلاً” يستخدم.” يبدو أن Stable Audio Open هو محاولة لتغيير هذا السرد – وفي الوقت نفسه لا يتم الإعلان بمهارة عن منتجات Stability AI المدفوعة.