تمنح هالة Deepgram عملاء الذكاء الاصطناعي صوتًا

لقد صنعت Deepgram اسمًا لنفسها كواحدة من الشركات الناشئة في مجال التعرف على الصوت. اليوم، أعلنت الشركة ذات التمويل الجيد عن إطلاق Aura، واجهة برمجة التطبيقات الجديدة الخاصة بها لتحويل النص إلى كلام في الوقت الفعلي. تجمع Aura بين نماذج صوتية واقعية للغاية مع واجهة برمجة التطبيقات (API) ذات زمن الوصول المنخفض للسماح للمطورين ببناء وكلاء الذكاء الاصطناعي للمحادثة في الوقت الفعلي. وبدعم من نماذج اللغات الكبيرة (LLMs)، يمكن لهؤلاء الوكلاء أن يحلوا محل وكلاء خدمة العملاء في مراكز الاتصال وغيرها من المواقف التي تواجه العملاء.

كما أخبرني سكوت ستيفنسون، المؤسس المشارك والرئيس التنفيذي لشركة Deepgram، أنه كان من الممكن منذ فترة طويلة الوصول إلى نماذج صوتية رائعة، لكنها كانت باهظة الثمن واستغرقت وقتًا طويلاً لحسابها. وفي الوقت نفسه، تميل نماذج الكمون المنخفض إلى أن تبدو وكأنها روبوتية. تجمع تقنية Deepgram’s Aura بين نماذج صوتية شبيهة بالإنسان والتي تصدر بسرعة كبيرة (عادةً في أقل من نصف ثانية)، وكما أشار ستيفنسون مرارًا وتكرارًا، فإنها تفعل ذلك بسعر منخفض.

اعتمادات الصورة: ديبجرام

وقال: “الجميع الآن يقول: مهلاً، نحن بحاجة إلى روبوتات ذكاء اصطناعي صوتية في الوقت الفعلي يمكنها إدراك ما يقال ويمكنها فهم الاستجابة وتوليدها – ومن ثم يمكنهم الرد عليها”. من وجهة نظره، يتطلب الأمر مزيجًا من الدقة (التي وصفها بأنها رهانات على الطاولة لخدمة مثل هذه)، وزمن الوصول المنخفض والتكاليف المقبولة لجعل منتج مثل هذا جديرًا بالاهتمام للشركات، خاصة عندما يقترن بالتكلفة المرتفعة نسبيًا للوصول إلى ماجستير إدارة الأعمال. .

يجادل Deepgram بأن سعر Aura يتفوق حاليًا على جميع منافسيه تقريبًا بسعر 0.015 دولارًا لكل 1000 حرف. هذا ليس بعيدًا جدًا عن تسعير Google لأصوات WaveNet الخاصة بها عند 0.016 لكل 1000 حرف وأصوات Polly Neural من Amazon عند نفس 0.016 دولار لكل 1000 حرف، ولكن – بالطبع – أرخص. ومع ذلك، فإن الطبقة الأعلى في أمازون أغلى بكثير.

“عليك أن تصل إلى نقطة سعر جيدة حقًا على الإطلاق [segments]، ولكن بعد ذلك يجب أن يكون لديك أيضًا زمن استجابة وسرعة مذهلة – ومن ثم دقة مذهلة أيضًا. قال ستيفنسون عن منهج Deepgram العام في بناء منتجه: “لذلك، من الصعب حقًا تحقيق ذلك”. “لكن هذا هو ما ركزنا عليه منذ البداية ولهذا السبب بنينا لمدة أربع سنوات قبل أن نطلق أي شيء لأننا كنا نبني البنية التحتية الأساسية لتحقيق ذلك.”

تقدم Aura حوالي عشرة نماذج صوتية في هذه المرحلة، تم تدريبها جميعًا بواسطة مجموعة بيانات Deepgram التي تم إنشاؤها بالتعاون مع الممثلين الصوتيين. تم تدريب نموذج Aura، مثل جميع الموديلات الأخرى للشركة، داخل الشركة. وهنا ما يبدو وكأنه:

يمكنك تجربة العرض التوضيحي لـ Aura هنا. لقد قمت باختباره لبعض الوقت وعلى الرغم من أنك قد تصادف أحيانًا بعض النطق الغريب، إلا أن السرعة هي ما يبرز حقًا، بالإضافة إلى نموذج تحويل الكلام إلى نص عالي الجودة الموجود في Deepgram. لتسليط الضوء على السرعة التي يولد بها الاستجابات، يلاحظ Deepgram الوقت الذي استغرقه النموذج لبدء التحدث (أقل من 0.3 ثانية بشكل عام) والمدة التي استغرقها LLM لإنهاء توليد استجابته (والتي عادة ما تكون أقل بقليل من ثانية).