OpenAI يمنح ChatGPT صوتًا للمحادثات اللفظية

يتطور ChatGPT إلى أكثر من مجرد محرك بحث قائم على النصوص، حيث أعلنت OpenAI اليوم أنها تضيف ذكاءً جديدًا قائمًا على الصوت والصورة إلى هذا المزيج.

لقد كان مساعد الذكاء الاصطناعي التوليدي الذي يحظى بشعبية كبيرة أحد أكبر قصص النجاح التكنولوجي في الآونة الأخيرة منذ ظهوره لأول مرة قبل حوالي تسعة أشهر، مما يسمح لأي شخص بإنشاء مقالات وقصائد وملخصات من مطالبات نصية بسيطة. ولكن الآن، فإن ChatGPT على وشك أن يصبح أكثر تفاعلية، حيث سيتمكن المستخدمون قريبًا من إجراء محادثة صوتية مع chatbot.

يأتي هذا الإعلان في نفس اليوم الذي التزمت فيه أمازون باستثمار ما يصل إلى 4 مليارات دولار في شركة Anthropic المنافسة لـ OpenAI، مما يشكل جزءًا من معركة ذكاء اصطناعي أكبر بين عمالقة التكنولوجيا في العالم والتي تشمل محاولة Google اللحاق بالركب عبر برنامج Bard chatbot الخاص بها، واعتماد Meta روح ثابتة مفتوحة المصدر لمساعدتها على التقدم، وتتوافق Microsoft بشكل وثيق مع OpenAI نفسها.

بدء المحادثات

يمثل اليوم تطورًا ملحوظًا في حركة الذكاء الاصطناعي التوليدي، حيث تقوم OpenAI بربط العالم المألوف للمساعدين الصوتيين بنماذجها اللغوية الكبيرة القوية (LLMs).

على سبيل المثال، سيتمكن المستخدم من أن يطلب شفهيًا من ChatGPT تأليف قصة قبل النوم على الفور، مع بعض المطالبات الصوتية لتوجيه السرد. أو يمكنهم ببساطة طرح سؤال عليه، مع تقديم ChatGPT إجابته في شكل كلمة منطوقة.

وفي مكان آخر، سيتمكن مستخدمو ChatGPT أيضًا من البحث عن الإجابات باستخدام الصور، على سبيل المثال تحميل صورة لشيء ما ومطالبة ChatGPT بشرح ماهيته، أو تقديم تعليمات لإكمال الهدف.

البحث عن الصور ChatGPT اعتمادات الصورة: أوبن آي

سيبدأ طرح الميزات الجديدة لمشتركي Premium وEnterprise خلال الأسبوعين المقبلين. ولتفعيل الميزات الصوتية، يحتاج المستخدمون إلى التوجه إلى قائمة “الإعدادات” في التطبيق، ثم التوجه إلى “الميزات الجديدة” والاشتراك في المحادثات الصوتية. يتعين عليهم بعد ذلك النقر على زر سماعة الرأس في الزاوية العلوية اليمنى، والاختيار من بين خمسة أصوات مختلفة.

يتم تمكين هذه الميزة من خلال مجموعة من نموذج تحويل النص إلى كلام الجديد الذي يمكنه إنشاء أصوات تشبه الأصوات البشرية من النص وبضع ثوانٍ من عينات الكلام. قالت OpenAI إنها تعاونت مع ممثلين صوتيين معروفين لإنشاء كل صوت من الأصوات الخمسة، باستخدام نظام التعرف على الكلام Whisper مفتوح المصدر الذي يستخدم لتحويل الكلام اللفظي إلى نص.

تم الكشف أيضًا عن Spotify كشريك إطلاق، حيث قدم عملاق بث الموسيقى ميزة جديدة رائعة لمنشئي البودكاست تسمح لهم بأخذ عينات من أصواتهم وترجمة عروضهم من الإنجليزية إلى الإسبانية أو الفرنسية أو الألمانية – مع الاحتفاظ بصوتهم الأصلي . ومع ذلك، يبدو أن OpenAI تحرص على عدم جذب الانتقادات، لأنها لا تجعل هذه التكنولوجيا متاحة لأي شخص – فقد عملت بشكل خاص مع مدونين صوتيين بما في ذلك Dax Shepard، وMonica Padman، وLex Fridman، وBill Simmons، وSteven Bartlett من أجل الإطلاق.

وكتبت الشركة في منشور بالمدونة: “إن تقنية الصوت الجديدة – القادرة على صياغة أصوات اصطناعية واقعية من بضع ثوانٍ فقط من الكلام الحقيقي – تفتح الأبواب أمام العديد من التطبيقات الإبداعية التي تركز على إمكانية الوصول”. “ومع ذلك، فإن هذه القدرات تمثل أيضًا مخاطر جديدة، مثل احتمال قيام الجهات الفاعلة الخبيثة بانتحال شخصيات عامة أو ارتكاب عمليات احتيال.”

سيقتصر الصوت على تطبيقات ChatGPT Android وiOS على أساس الاشتراك التجريبي في البداية، بينما سيتم توفير البحث عن الصور على جميع الأنظمة الأساسية افتراضيًا.