تعد جودة الأصوات التي تم إنشاؤها من الذكاء الاصطناعي جيدة بما يكفي لأشياء مثل إنشاء الكتب الصوتية والبودكاست ، ووجود مقالات قراءة بصوت عالٍ ، ودعم العملاء الأساسي. لكن العديد من الشركات لا تعتقد أن تكنولوجيا الصوت من الذكاء الاصطناعي موثوقة للغاية بما يكفي للنشر.

لهذا السبب ، أسست اثنان من خريجي معهد ماساتشوستس للتكنولوجيا ، وهما موين ناديم ونيخيل مورثي (في الصورة أعلاه) ، شركة فوتوني ، وهي شركة تقدم مجموعة صوتية شاملة لزيادة الموثوقية الصوتية الاصطناعية مع تقليل الكمون.

التقى ناديم ومورثي في ​​معهد ماساتشوستس للتكنولوجيا ، وعرفوا بعضهما البعض لأكثر من سبع سنوات. عندما بدأ الثنائي في بناء صوتي في العام الماضي ، شعروا أنه لم يكن هناك العديد من الشركات التي تصنع حلولًا كاملة للتكنولوجيا الصوتية.

“Voice AI في مكان تقوم فيه بربط أجزاء مختلفة ، مثل التعرف على الصوت التلقائي [and] نص إلى كلام ، و [then integrate] أخبر مورثي TechCrunch: “ومع ذلك ، عندما تحدثنا إلى العملاء الفعليين ، وجدنا أن هناك نقصًا في [solutions] الذي – التي [are] موثوقة على نطاق واسع. “

قال ناديم ، الذي كان يعمل سابقًا في Mosaicml ، وهي شركة Databricks التي تم الحصول عليها بمبلغ 1.3 مليار دولار في عام 2023 ، إن الكثير من الشركات التي تبني في مساحة AI الصوتي (مثل VAPI ، Rounded) تقوم بإنشاء سير عمل لتجميع طرز AI منفصلة.

يتخذ Phonic نهجًا مختلفًا: إنه يدرب نماذجه في المنزل. قال مورثي أن هناك بعض المزايا لهذا.

“امتلاك النماذج يتيح لنا دمج بعض […] قطع الموثوقية في [models themselves]قال: “إذا كنت لا تملك تلك الطبقة […] أنت مجرد ربط قطع متباينة لا تتناسب بسلاسة. “

وأضاف مورثي أن طريقة Phonic تتيح للشركة أيضًا استضافة وتشغيل النماذج بشكل فعال من حيث التكلفة. وهو يدعي أن تدريب النماذج الصوتية على مجموعة من التسجيلات ، بما في ذلك تسجيلات الكلام المعلم والمكتوبة ، لجعل النماذج قوية للغاية.

تعمل Phonic حاليًا مع مجموعة محدودة من الشركاء ، بما في ذلك الشركات في مساحات التأمين والرعاية الصحية ، ولكنها تخطط لإطلاق منتجاتها على نطاق واسع في غضون بضعة أشهر. قريباً ، سيتمكن العملاء المحتملين من تجربة تقنية Phonic من موقعها على الويب.

جمعت Phonic 4 ملايين دولار في جولة بذرة بقيادة لوكس بمشاركة من المؤسس المشارك Amjad Masad ، وعانق المؤسس المشارك Clem Delangue ، المؤسس المشارك للحدس القسار يونس ، ومؤسس Modal Labs Erik Bernhardsson.

قالت جريس إيسفورد ، وهي شريك في لوكس كابيتال ، إن طريقة تدريب الشركة في النماذج التدريبية كانت جذابة لشركة الاستثمار.

“نعتقد أن كل من Moin و Nikhil من الفنيين لا يصدق” ، قالت. أسسوا [a] نادي التعلم الآلي في معهد ماساتشوستس للتكنولوجيا. وقد عملوا على نماذج التدريب لفترة من الوقت الآن. بالإضافة إلى ذلك ، فإن مقاربتهم في الجمع بين النماذج الناشئة والنماذج الملكية في قطاع AI Voice هو جديد. “


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

شاركها.
اترك تعليقاً

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading