تقنية

تعتقد Gladia أن المعالجة في الوقت الفعلي هي الحدود التالية لواجهات برمجة تطبيقات النسخ الصوتي


قامت شركة Gladia الفرنسية الناشئة، التي تقدم واجهة برمجة تطبيقات التعرف على الكلام (API)، بجمع 16 مليون دولار في جولة تمويل من السلسلة A. في الأساس، تتيح لك واجهة برمجة التطبيقات الخاصة بـ Gladia تحويل أي ملف صوتي إلى نص بمستوى عالٍ من الدقة ووقت تنفيذ منخفض.

في حين أن أمازون ومايكروسوفت وجوجل تقدم جميعها واجهات برمجة تطبيقات تحويل الكلام إلى نص كجزء من مجموعات منتجات الاستضافة السحابية الخاصة بها، إلا أنها لا تؤدي أداءً جيدًا مثل النماذج الأحدث التي تقدمها الشركات الناشئة المتخصصة.

لقد حدث تقدم هائل في هذا المجال خلال العامين الماضيين، خاصة بعد إصدار Whisper بواسطة OpenAI. تتنافس شركة Gladia مع شركات أخرى جيدة التمويل في هذا المجال، مثل AssemblyAI وDeepgram وSpeechmatics.

عرضت Gladia في الأصل نسخة معدلة من نموذج تحويل الكلام إلى نص من Whisper مع بعض التحسينات المطلوبة بشدة. على سبيل المثال، تدعم الشركة الناشئة خاصية تسجيل اليوميات خارج الصندوق، حيث يمكنها اكتشاف وجود عدة متحدثين في المحادثة وفصل التسجيل والنص المكتوب، اعتمادًا على من يتحدث.

تدعم Gladia 100 لغة ومجموعة واسعة من اللهجات. يمكن لهذا المراسل أن يؤكد نجاح الأمر، حيث كنا نستخدم Gladia لتدوين بعض المقابلات، ولم تكن اللهجات مشكلة.

تقدم الشركة الناشئة نموذج تحويل الكلام إلى نص كواجهة برمجة تطبيقات مستضافة يمكن للمستخدمين الاستفادة منها في تطبيقاتهم وخدماتهم الخاصة. أكثر من 600 شركة تستخدم Gladia، بما في ذلك العديد من مسجلات الاجتماعات ومساعدي تدوين الملاحظات مثل Attention وCircleback وMethod Financial وRecall وSana وVeed.io.

تعتبر حالة الاستخدام هذه مثيرة للاهتمام، لأن العديد من الشركات يتعين عليها إجراء تسلسل لاستدعاءات واجهة برمجة التطبيقات (API). يقومون أولاً بتحويل الكلام إلى نص، ثم يقومون بإدخاله في نموذج لغة كبير (LLM)، مثل GPT-4o أو Claude 3.5 Sonnet، لاستخراج المعرفة من جدران النص الكبيرة.

ومن خلال التمويل الجديد، تريد Gladia تبسيط هذا المسار من خلال دمج الذكاء الصوتي والمهام المستندة إلى LLM في استدعاء واحد لواجهة برمجة التطبيقات (API). على سبيل المثال، يمكن للعميل الحصول على ملخص محادثة تم إنشاؤه من مجموعة من النقاط دون الحاجة إلى الاعتماد على LLM API لجهة خارجية.

المشكلة الأخرى التي تتطلع غلاديا إلى حلها هي زمن الوصول. ربما تكون قد شاهدت بعض العروض التوضيحية للمحادثات الصوتية في الوقت الفعلي مع وكيل اتصال قائم على الذكاء الاصطناعي (11x لديه عرض توضيحي جيد على موقعه على الويب)، ويجب أن تكون هذه الأنظمة قادرة على النسخ في الوقت الفعلي تقريبًا لجعل مثل هذه المحادثات تبدو وكأنها محادثات بشرية -مثل قدر الإمكان.

“لقد أدركنا أن الوقت الفعلي لم يكن جيدًا جدًا من حيث الجودة في السوق بشكل عام. وكان لدى الناس حالة استخدام غريبة. لقد كانوا يقومون بالمعالجة في الوقت الفعلي، ثم قاموا بالتقاط الصوت وتشغيله دفعة واحدة. تساءلنا: لماذا تفعلون هذا؟ قالوا لنا: “الجودة ليست جيدة في المعالجة في الوقت الفعلي، لذلك نقوم بنسخها دفعة واحدة بعد ذلك،” قال المؤسس المشارك والرئيس التنفيذي جان لويس كويجينر (في الصورة أعلاه؛ على اليمين) لـ TechCrunch.

اختارت Gladia معالجة هذه المشكلة، ويمكنها حاليًا نسخ محادثة مباشرة بزمن انتقال أقل من 300 مللي ثانية. تدعي الشركة أن المعالجة في الوقت الفعلي أصبحت الآن جيدة إلى حد ما مثل واجهة برمجة التطبيقات الافتراضية للنسخ الدفعي غير المتزامن، ولكن من الصعب علينا الحكم دون إجراء بعض الاختبارات المناسبة. وكما يقول Quéguiner، تهدف الشركة الناشئة إلى “جودة الدفعة مع إمكانات الوقت الفعلي”.

وبغض النظر عن وكلاء الاتصال الذين يعملون بتقنية الذكاء الاصطناعي، يمكنك أن تتخيل مركز اتصال يستخدم هذه الإمكانات في الوقت الفعلي لمساعدة وكلاء الاتصال في العثور على المعلومات ذات الصلة في منتصف المكالمة. قال المؤسس المشارك والرئيس التنفيذي للتكنولوجيا جوناثان سوتو (في الصورة أعلاه، على اليسار) في بيان: “واجهة برمجة التطبيقات (API) الخاصة بنا متوافقة مع جميع مجموعات وبروتوكولات التكنولوجيا الحالية، بما في ذلك SIP وVoIP وFreeSwitch وAsterisk”.

تقود XAnge جولة التمويل من السلسلة A. وشاركت أيضًا Illuminate Financial وXTX Ventures وAthletico Ventures وGaingels وMana Ventures وMotier Ventures وRoosh Ventures وSoma Capital.

تعتقد جلاديا أننا على شفا “لحظة ChatGPT” للتطبيقات الصوتية. لقد كانت تقنية GPT موجودة منذ سنوات، لكن ChatGPT قامت بالفعل بنشر LLMs من خلال واجهة تشبه دردشة المستهلك.

عندما تبدأ Apple أو Google في تضمين نماذج النسخ داخل نظام التشغيل iOS أو Android، سيبدأ المستهلكون في فهم قيمة النسخ الآلي داخل التطبيقات التي يستخدمونها. ومن المرجح أن يقوم المطورون بعد ذلك بدمج ميزات الصوت في منتجاتهم، وهنا يأتي دور موفري واجهة برمجة التطبيقات مثل Gladia.


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading