تطبيق إنتاجي مدعوم من YC محاور فائقة القوة لتصبح منصة API الصوتية للروبوتات

تعد تطبيقات التقويم ضرورية للإنتاجية ولكن من الصعب التمييز بينها بما يكفي لتحقيق نمو مستدام من الاستخدام الأساسي فقط. لقد وصل برنامج Y Combinator المدعوم Superpowered، وهو عبارة عن تدوين ملاحظات مدعوم بالذكاء الاصطناعي لاجتماعاتك ولا يتضمن تسجيل الروبوتات، إلى هذا الحاجز ويتحول الآن ليصبح Vapi، وهو مزود واجهة برمجة التطبيقات (API) حتى يتمكن أي شخص من إنشاء محادثة صوتية طبيعية بسهولة مساعد يعمل بالذكاء الاصطناعي.
تأسست شركة Superpowered في عام 2020 على يد جوردان ديرسلي ونيخيل جوبتا. ولكن بعد ثلاث سنوات من العمل عليه، قال ديرسلي إن الفريق يريد العمل على المنتج الأكثر تحديًا. لم تقم الشركة بإيقاف المنتج الأولي حيث قالت الشركة الناشئة أن Superpowered مربح – فهي بصدد جلب شخص ما لتشغيله. وقالت Y Combinator في يونيو/حزيران إن أكثر من 10000 شخص يستخدمون المنتج أسبوعيًا، لكن الشركة لم تقدم أي أرقام محدثة.
اعتمادات الصورة: فابي
حتى الآن، جمعت شركة Superpowered/Vapi 2.1 دولارًا أمريكيًا من الأموال الأولية من مستثمرين بما في ذلك Kleiner Perkins وAbstract Ventures.
المحور إلى فابي
تقدم الشركة Vapi كواجهة برمجة تطبيقات للسماح للمطورين بإنشاء روبوت باستخدام المطالبات فقط، ثم يضعه خلف رقم هاتف. بالإضافة إلى ذلك، فهو يوفر تكامل SDK حتى يتمكن المطورون من تضمين الروبوت على مواقع الويب وتطبيقات الهاتف المحمول.
أخبر ديرسلي موقع TechCrunch عبر البريد الإلكتروني أن فكرة إنشاء Vapi تنبع من مشكلة شخصية. لقد انتقل إلى سان فرانسيسكو وبدأ يفتقد أصدقائه وعائلته، الذين كانوا في منطقة زمنية مختلفة. لقد قام ببناء روبوت ذكاء اصطناعي متصل برقم هاتف على الطرف الآخر للتحدث مع شخص ما من أجل فرز أفكاره.
“لقد أحببت ذلك، لكنني كنت أشعر بالإحباط المستمر بسبب مدى عدم طبيعيته. لم يكن الأمر مثل التحدث إلى شخص ما. الصوت خافت، يتأخر كتير قبل ما يجيب، ويقاطعني وأنا أتكلم». هو قال.
“لذلك واصلت العمل عليه والذهاب للتنزه معه. في نهاية المطاف، أصبحنا مفتونين بمشكلة المحادثة هذه. من الصعب حقًا أن تجعل شيئًا ما يبدو إنسانيًا. مساعدين صوتيين اليوم إنها قديمة الطراز وتعتمد على الأدوار، ونحن نريد أن نبني شيئًا يبدو إنسانيًا.
من الناحية الفنية، يقوم Vapi حاليًا بربط مجموعة من واجهات برمجة التطبيقات التابعة لجهات خارجية لإنشاء منصة محادثة صوتية قوية. على سبيل المثال، يستخدم حلولاً من Twilio للاتصالات الهاتفية، وDeepgram للنسخ، وDaily لتدفق الصوت، وOpenAI للردود، وPlayHT لتحويل النص إلى كلام.
تستخدم شركة ScaleConvo، وهي شركة ناشئة ضمن دفعة YC الشتوية لعام 2024، بالفعل Vapi لإطلاق روبوتات المحادثة لفرق المبيعات وشركات إدارة العقارات. ومع ذلك، لم تكشف شركة Vapi عن عملائها الآخرين. تقوم الشركة بفتح واجهة برمجة التطبيقات (API) الخاصة بها مع منتجات Vapi Phone و Vapi Web اليوم.
التحديات لفابي
أحد أكبر التحديات التي تواجهها الشركة الناشئة هو تقليل زمن الوصول، وفقًا لما ذكره ماغنوس ريفان، وهو محلل سابق في شركة Gartner وكبير مسؤولي المنتجات في شركة Openstream.ai الناشئة للمحادثات متعددة الوسائط.
“تحتاج نماذج OpenAI إلى ما بين 2 إلى 10 ثوانٍ لتوليد إجابة – بينما المعيار الذهبي على الهاتف هو أن يكون هناك 700 مللي ثانية بين انتهاء المستخدم من الحديث ثم بدء “الروبوت” في التحدث. وقال ريفان: “إن الوصول إلى زمن الوصول أقل من ثانية واحدة مع النماذج القادرة (نماذج مفتوحة المصدر ذات عدد كبير من المعلمات مثل LLaMA2 70B) أمر صعب للغاية”.
حاليًا، يتمتع Vapi بزمن انتقال يتراوح بين 1.2 إلى 2 ثانية اعتمادًا على عوامل مختلفة. ويتوقع ديرسلي خفض زمن الوصول إلى أقل من ثانية واحدة في الشهر المقبل بفضل عمل Vapi وتحسينات OpenAI.
وقال محمد مصباح، وهو مستثمر ملائكي في Vapi، إن حل الشركة الناشئة سوف يتحسن مع التقدم العام في واجهة برمجة التطبيقات (API).
“مع قيام OpenAI وآخرين بتحسين نماذجهم، ستصبح منصة Vapi أكثر قوة، ومجهزة بقواعد معرفية أفضل، وقدرات تنفيذ التعليمات البرمجية، ونوافذ سياق أكبر. إن تركيز Vapi على حل أكبر مجالات الاحتكاك في الاتصالات الصوتية سيكون ميزة له مع تزايد طلب المستخدمين على المساعدين الصوتيين.
ومع ذلك، فإن هذا يضع العبء على تحسين الحلول الأخرى بدلاً من Vapi نفسه. قال ديرسلي إن الاعتماد على واجهات برمجة التطبيقات الأخرى يقلل من إمكانية الدفاع عن Vapi إذا بدأت الشركات الكبرى في الانتقال إلى تلك المنطقة. ومع ذلك، قال الفريق إن لديه ميزة من حيث بناء بنية تحتية للتعامل مع آلاف المكالمات في وقت واحد. وأكد ديرسلي أنه مع إطلاق واجهة برمجة تطبيقات الويب والهاتف الخاصة بـ Vapi للجمهور، سيتطلع الفريق أيضًا إلى بناء نماذجه الخاصة لحلول الصوت إلى الصوت.