صممت OpenAI أداة لاستنساخ الصوت، لكن لا يمكنك استخدامها… حتى الآن

مع انتشار التزييف العميق، تعمل شركة OpenAI على تحسين التقنية المستخدمة لاستنساخ الأصوات، لكن الشركة تصر على أنها تفعل ذلك بطريقة مسؤولة.

يصادف اليوم ظهور المعاينة الأولى لمحرك الصوت الخاص بـ OpenAI، وهو توسيع لواجهة برمجة التطبيقات الحالية لتحويل النص إلى كلام الخاصة بالشركة. قيد التطوير لمدة عامين تقريبًا، يسمح Voice Engine للمستخدمين بتحميل أي عينة صوتية مدتها 15 ثانية لإنشاء نسخة اصطناعية من ذلك الصوت. ولكن لا يوجد موعد لإتاحته للعامة حتى الآن، مما يمنح الشركة الوقت للرد على كيفية استخدام النموذج وإساءة استخدامه.

قال جيف هاريس، عضو فريق المنتج في OpenAI: “نريد التأكد من أن الجميع يشعرون بالرضا تجاه كيفية نشرها – وأننا نفهم المشهد الذي تمثل فيه هذه التكنولوجيا خطورة ولدينا إجراءات تخفيف لذلك”. تك كرانش في مقابلة.

تدريب النموذج

قال هاريس إن نموذج الذكاء الاصطناعي الذي يعمل على تشغيل المحرك الصوتي كان مختبئًا على مرأى من الجميع لبعض الوقت.

ويدعم النموذج نفسه إمكانات الصوت و”القراءة بصوت عالٍ” في ChatGPT، وروبوت الدردشة المدعوم بالذكاء الاصطناعي من OpenAI، بالإضافة إلى الأصوات المعدة مسبقًا المتوفرة في واجهة برمجة تطبيقات تحويل النص إلى كلام من OpenAI. ويستخدمه Spotify منذ أوائل سبتمبر لدبلجة ملفات podcast للمضيفين البارزين مثل Lex Fridman بلغات مختلفة.

سألت هاريس من أين جاءت بيانات التدريب الخاصة بالنموذج، وكان موضوعًا حساسًا بعض الشيء. سيقول فقط أن نموذج Voice Engine تم تدريبه على مزيج من البيانات المرخصة والمتاحة للجمهور.

يتم تدريب نماذج مثل المحرك الصوتي الذي يعمل على تشغيل عدد هائل من الأمثلة – في هذه الحالة، تسجيلات الكلام – التي يتم الحصول عليها عادةً من المواقع العامة ومجموعات البيانات حول الويب. العديد من التوليد ينظر بائعو الذكاء الاصطناعي إلى بيانات التدريب على أنها ميزة تنافسية، وبالتالي يحتفظون بها والمعلومات المتعلقة بها بالقرب من الصندوق. لكن تفاصيل بيانات التدريب تشكل أيضًا مصدرًا محتملاً للدعاوى القضائية المتعلقة بالملكية الفكرية، وهو ما يشكل عائقًا آخر للكشف عن الكثير.

OpenAI هو يجري بالفعل رفع دعوى قضائية ضد بسبب مزاعم بأن الشركة انتهكت قانون الملكية الفكرية من خلال تدريب الذكاء الاصطناعي الخاص بها على المحتوى المحمي بحقوق الطبع والنشر بما في ذلك الصور والأعمال الفنية والأكواد والمقالات والكتب الإلكترونية دون منح المبدعين أو المالكين رصيدًا أو أجرًا.

لدى OpenAI اتفاقيات ترخيص معمول بها مع بعض موفري المحتوى، مثل Shutterstock وناشر الأخبار Axel Springer، وتسمح لمشرفي المواقع بمنع زاحف الويب الخاص به من استخراج بيانات موقعهم للحصول على بيانات التدريب. تتيح OpenAI أيضًا للفنانين “إلغاء الاشتراك” وإزالة أعمالهم من مجموعات البيانات التي تستخدمها الشركة لتدريب نماذج توليد الصور الخاصة بها، بما في ذلك أحدث إصدار لها من DALL-E 3.

لكن شركة OpenAI لا تقدم مثل هذا المخطط لإلغاء الاشتراك في منتجاتها الأخرى. وفي بيان صدر مؤخرًا أمام مجلس اللوردات في المملكة المتحدة، اقترحت شركة OpenAI أنه “من المستحيل” إنشاء نماذج ذكاء اصطناعي مفيدة دون مواد محمية بحقوق الطبع والنشر، مؤكدة أن الاستخدام العادل – وهو المبدأ القانوني الذي يسمح باستخدام الأعمال المحمية بحقوق الطبع والنشر لإنشاء أعمال ثانوية باعتبارها طالما أنها تحويلية – فهي تحميها فيما يتعلق بالتدريب النموذجي.

توليف الصوت

والمثير للدهشة أن المحرك الصوتي ليس كذلك مدربين أو مضبوطين على بيانات المستخدم. ويرجع ذلك جزئيًا إلى الطريقة سريعة الزوال التي يولد بها النموذج – وهو مزيج من عملية الانتشار والمحول – الكلام.

قال هاريس: “نأخذ عينة صوتية صغيرة ونصًا وننتج خطابًا واقعيًا يطابق المتحدث الأصلي”. “يتم إسقاط الصوت المستخدم بعد اكتمال الطلب.”

وكما أوضح، يقوم النموذج في الوقت نفسه بتحليل بيانات الكلام التي يسحب منها والبيانات النصية المراد قراءتها بصوت عالٍ، مما يؤدي إلى إنشاء صوت مطابق دون الحاجة إلى إنشاء نموذج مخصص لكل مكبر صوت.

إنها ليست تقنية جديدة. قام عدد من الشركات الناشئة بتقديم منتجات استنساخ الصوت لسنوات، من ElevenLabs إلى Replica Studios إلى Papercup إلى Deepdub إلى Respeecher. وكذلك الأمر بالنسبة لشركات التكنولوجيا الكبرى مثل أمازون، وجوجل، ومايكروسوفت – وآخرها مستثمر رئيسي في OpenAI.

ادعى هاريس أن نهج OpenAI يقدم خطابًا عالي الجودة بشكل عام.

ونحن نعلم أيضًا أنه سيتم تسعيره بقوة. على الرغم من أن OpenAI أزالت تسعير Voice Engine من المواد التسويقية التي نشرتها اليوم، إلا أنه في المستندات التي شاهدتها TechCrunch، تم إدراج Voice Engine على أنه يكلف 15 دولارًا لكل مليون حرف، أو 162.500 كلمة تقريبًا. وهذا من شأنه أن يناسب رواية ديكنز “أوليفر تويست” مع وجود مساحة صغيرة إضافية. (يكلف خيار الجودة “HD” ضعف ذلك، ولكن بشكل مربك، أخبر متحدث باسم OpenAI موقع TechCrunch أنه لا يوجد فرق بين الأصوات عالية الدقة والأصوات غير عالية الدقة. افعل ذلك كما تريد.)

وهذا يُترجم إلى حوالي 18 ساعة من الصوت، مما يجعل السعر إلى حد ما يصل إلى دولار واحد في الساعة. وهذا بالفعل أرخص مما يتقاضاه أحد البائعين المنافسين الأكثر شهرة، ElevenLabs – 11 دولارًا لكل 100000 حرف شهريًا. لكنه يفعل تأتي على حساب بعض التخصيص.

لا يوفر Voice Engine عناصر تحكم لضبط نغمة الصوت أو درجة صوته أو إيقاعه. في الحقيقة، لا يقدم أي ضبط المقابض أو الأقراص في الوقت الحالي، على الرغم من أن هاريس يشير إلى أن أي تعبير في العينة الصوتية التي تبلغ مدتها 15 ثانية سوف يستمر عبر الأجيال اللاحقة (على سبيل المثال، إذا كنت تتحدث بنبرة متحمسة، فإن الصوت الاصطناعي الناتج سيبدو متحمسًا باستمرار) . سنرى كيف يمكن مقارنة جودة القراءة بالنماذج الأخرى عندما يمكن مقارنتها مباشرة.

الموهبة الصوتية كسلعة

تتراوح رواتب الممثلين الصوتيين على ZipRecruiter من 12 دولارًا إلى 79 دولارًا في الساعة – وهي أغلى بكثير من Voice Engine، حتى عند الحد الأدنى (سيتطلب الممثلون الذين لديهم وكلاء سعرًا أعلى بكثير لكل مشروع). إذا نجحت أداة OpenAI في تحويل العمل الصوتي إلى سلعة. إذًا، أين يترك ذلك الممثلين؟

لن يفاجأ قطاع المواهب، فهو يتصارع مع التهديد الوجودي للذكاء الاصطناعي التوليدي لبعض الوقت. يُطلب من الممثلين الصوتيين بشكل متزايد التوقيع على حقوق أصواتهم حتى يتمكن العملاء من استخدام الذكاء الاصطناعي لإنشاء نسخ اصطناعية يمكن أن تحل محلهم في النهاية. إن العمل الصوتي – وخاصة العمل الرخيص على مستوى المبتدئين – معرض لخطر التخلص منه لصالح الكلام الناتج عن الذكاء الاصطناعي.

الآن، تحاول بعض منصات الذكاء الاصطناعي الصوتية تحقيق التوازن.

وقعت Replica Studios العام الماضي صفقة مثيرة للجدل إلى حد ما مع SAG-AFTRA لإنشاء وترخيص نسخ من أصوات أعضاء اتحاد الفنانين الإعلاميين. وقالت المنظمات إن الترتيب وضع شروطًا وأحكامًا عادلة وأخلاقية لضمان موافقة المؤدي أثناء التفاوض على شروط استخدام الأصوات الاصطناعية في الأعمال الجديدة بما في ذلك ألعاب الفيديو.

وفي الوقت نفسه، تستضيف ElevenLabs سوقًا للأصوات الاصطناعية التي تتيح للمستخدمين إنشاء صوت والتحقق منه ومشاركته بشكل عام. عندما يستخدم الآخرون صوتًا، يحصل المبدعون الأصليون على تعويض، وهو مبلغ محدد بالدولار لكل 1000 حرف.

لن تنشئ شركة OpenAI مثل هذه الصفقات أو الأسواق النقابية العمالية، على الأقل ليس في المدى القريب، وتتطلب فقط أن يحصل المستخدمون على “موافقة صريحة” من الأشخاص الذين تم استنساخ أصواتهم، وتقديم “إفصاحات واضحة” تشير إلى الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي و الموافقة على عدم استخدام أصوات القاصرين أو المتوفين أو الشخصيات السياسية في أجيالهم.

قال هاريس: “كيف يتقاطع هذا مع اقتصاد الممثل الصوتي هو أمر نراقبه عن كثب ونشعر بالفضول تجاهه”. “أعتقد أنه سيكون هناك الكثير من الفرص لتوسيع نطاق وصولك كممثل صوتي من خلال هذا النوع من التكنولوجيا. ولكن هذه هي كل الأشياء التي سنتعلمها عندما ينشر الأشخاص التكنولوجيا ويلعبون بها قليلاً.

الأخلاق والتزييف العميق

من الممكن أن يتم إساءة استخدام تطبيقات استنساخ الصوت بطرق تتجاوز مجرد تهديد سبل عيش الممثلين.

استخدمت لوحة الرسائل سيئة السمعة 4chan، والمعروفة بمحتواها التآمري، منصة ElevenLabs لمشاركة رسائل الكراهية التي تحاكي المشاهير مثل إيما واتسون. تمكن جيمس فنسنت من The Verge من الاستفادة من أدوات الذكاء الاصطناعي لاستنساخ الأصوات بشكل ضار وسريع، وإنشاء عينات تحتوي على كل شيء بدءًا من التهديدات العنيفة وحتى الملاحظات العنصرية والمعادية للمتحولين جنسيًا. وفي موقع Vice، قام المراسل جوزيف كوكس بتوثيق إنشاء نسخة صوتية مقنعة بما يكفي لخداع نظام المصادقة الخاص بالبنك.

وهناك مخاوف من أن يحاول ممثلون سيئون التأثير على الانتخابات من خلال استنساخ الصوت. وهي لا أساس لها من الصحة: في يناير/كانون الثاني، استخدمت حملة هاتفية الرئيس بايدن المزيف لردع مواطني نيو هامبشاير عن التصويت، مما دفع لجنة الاتصالات الفيدرالية إلى التحرك لجعل مثل هذه الحملات المستقبلية غير قانونية.

إذن، بصرف النظر عن حظر التزييف العميق على مستوى السياسة، ما هي الخطوات التي تتخذها OpenAI، إن وجدت، لمنع إساءة استخدام Voice Engine؟ ذكر هاريس القليل.

أولاً، يتم توفير Voice Engine فقط لمجموعة صغيرة جدًا من المطورين – حوالي 100 – للبدء. يقول هاريس إن OpenAI تعطي الأولوية لحالات الاستخدام “منخفضة المخاطر” و”المفيدة اجتماعيًا”، مثل تلك الموجودة في الرعاية الصحية وإمكانية الوصول، بالإضافة إلى تجربة الوسائط الاصطناعية “المسؤولة”.

من بين عدد قليل من مستخدمي Voice Engine الأوائل، Age of Learning، وهي شركة تكنولوجيا تعليمية تستخدم الأداة لإنشاء تعليقات صوتية من الممثلين الذين تم اختيارهم سابقًا، وHeyGen، وهو تطبيق لسرد القصص يستفيد من Voice Engine للترجمة. تستخدم Livox وLifespan Voice Engine لإنشاء أصوات للأشخاص الذين يعانون من صعوبات في النطق وإعاقات، وتقوم Dimagi ببناء أداة تعتمد على Voice Engine لتقديم تعليقات للعاملين في مجال الصحة بلغاتهم الأساسية.

إليك الأصوات المولدة من Lifespan:

وهذه واحدة من Livox:

ثانيًا، يتم وضع علامة مائية على النسخ التي تم إنشاؤها باستخدام Voice Engine باستخدام تقنية طورتها OpenAI والتي تتضمن معرفات غير مسموعة في التسجيلات. (يستخدم البائعون الآخرون، بما في ذلك Resemble AI وMicrosoft، علامات مائية مماثلة.) ولم يعد هاريس بعدم وجود طرق للتحايل على العلامة المائية، لكنه وصفها بأنها “مقاومة للتلاعب”.

“إذا كان هناك مقطع صوتي، فمن السهل علينا أن ننظر إلى هذا المقطع ونحدد أنه تم إنشاؤه بواسطة نظامنا والمطور الذي قام بالفعل بإنشاء هذا الجيل،” هاريس قال. “حتى الآن، هذا ليس مفتوح المصدر، بل لدينا داخليًا في الوقت الحالي. نحن مهتمون بإتاحتها للجمهور، ولكن من الواضح أن ذلك يأتي مع مخاطر إضافية من حيث التعرض لها وكسرها.

ثالثًا، تخطط OpenAI لتزويد أعضاء شبكة الفريق الأحمر الخاصة بها، وهي مجموعة متعاقدة من الخبراء الذين يساعدون في إعلام تقييم مخاطر نموذج الذكاء الاصطناعي الخاص بالشركة واستراتيجيات التخفيف منها، بإمكانية الوصول إلى Voice Engine لرصد الاستخدامات الضارة.

يجادل بعض الخبراء بأن الفريق الأحمر للذكاء الاصطناعي ليس شاملاً بما فيه الكفاية وأنه يتعين على البائعين تطوير أدوات للدفاع ضد الأضرار التي قد يسببها الذكاء الاصطناعي الخاص بهم. لا تذهب شركة OpenAI إلى هذا الحد مع Voice Engine، لكن هاريس يؤكد أن “المبدأ الأسمى” للشركة هو إطلاق التكنولوجيا بأمان.

الإفراج العام

اعتمادًا على كيفية سير المعاينة والاستقبال العام لـ Voice Engine، قد تطلق OpenAI الأداة لقاعدة المطورين الأوسع، ولكن في الوقت الحالي، الشركة مترددة في الالتزام بأي شيء ملموس.

هاريس فعل قم بإلقاء نظرة خاطفة على خريطة طريق Voice Engine، مع الكشف عن أن OpenAI تختبر آلية أمان تجعل المستخدمين يقرأون النص الذي تم إنشاؤه عشوائيًا كدليل على أنهم حاضرون وعلى دراية بكيفية استخدام أصواتهم. وقال هاريس إن هذا يمكن أن يمنح OpenAI الثقة التي يحتاجها لجلب Voice Engine إلى عدد أكبر من الأشخاص، أو ربما تكون هذه مجرد البداية.

وقال: “ما سيستمر في دفعنا للأمام فيما يتعلق بتكنولوجيا مطابقة الصوت الفعلية سيعتمد حقًا على ما نتعلمه من الطيار، وقضايا السلامة التي تم الكشف عنها وإجراءات التخفيف التي قمنا بها”. “لا نريد أن يخلط الناس بين الأصوات الاصطناعية والأصوات البشرية الفعلية.”

وعلى هذه النقطة الأخيرة يمكننا أن نتفق.