تقنية

يعمل الزجاج على تعزيز كاميرات الهواتف الذكية باستخدام الذكاء الاصطناعي، دون الهلوسة


تعد كاميرا هاتفك بمثابة برامج بقدر ما هي أجهزة، وتأمل شركة Glass في تحسين كليهما. ولكن بينما تزحف عدستها المشوهة إلى السوق، أصدرت الشركة (التي تبلغ رأسمالها الجديد 9.3 مليون دولار) ترقية لكاميرا تعمل بالذكاء الاصطناعي تقول إنها تعمل على تحسين جودة الصورة بشكل كبير – دون أي أدوات غريبة لرفع مستوى الذكاء الاصطناعي.

GlassAI هو نهج برمجي بحت لتحسين الصور، وهو ما يسمونه معالج إشارة الصورة العصبية (ISP). إن مزودي خدمة الإنترنت هم في الأساس من يأخذون مخرجات المستشعر الخام – التي غالبًا ما تكون مسطحة وصاخبًا ومشوهة – ويحولونها إلى صور حادة وملونة نراها.

كما أصبح مزود خدمة الإنترنت معقدًا بشكل متزايد، كما ترغب شركات تصنيع الهواتف مثل Apple وGoogle في إظهار ذلك، حيث يقوم بتجميع التعريضات المتعددة، والكشف السريع عن الوجوه وشحذها، والتكيف مع الحركات الصغيرة، وما إلى ذلك. وعلى الرغم من أن العديد منها يتضمن شكلاً من أشكال التعلم الآلي أو الذكاء الاصطناعي، إلا أنه يجب عليهم توخي الحذر: فاستخدام الذكاء الاصطناعي لتوليد التفاصيل يمكن أن يؤدي إلى هلوسة أو أعمال فنية حيث يحاول النظام إنشاء معلومات مرئية لا وجود لها. مثل هذه النماذج “فائقة الدقة” مفيدة في مكانها، ولكن يجب مراقبتها بعناية.

يصنع Glass نظامًا كاملاً للكاميرا يعتمد على عنصر أمامي غير عادي على شكل معين، ومزود خدمة الإنترنت لدعمه. وبينما يعمل الأول على التواجد في السوق مع بعض الأجهزة القادمة، يبدو أن الأخير هو منتج يستحق البيع في حد ذاته.

“تقوم شبكات الاستعادة الخاصة بنا بتصحيح الانحرافات البصرية ومشكلات أجهزة الاستشعار مع إزالة الضوضاء بكفاءة، وتتفوق على خطوط أنابيب معالجة إشارات الصور التقليدية في استعادة الأنسجة الدقيقة،” أوضح CTO والمؤسس المشارك Tom Bishop في بيانهم الصحفي.

الرسوم المتحركة المفاهيمية توضح عملية الانتقال من صورة RAW إلى صورة معالجة بالزجاج.

كلمة “التعافي” هي المفتاح، لأن التفاصيل لا يتم إنشاؤها فحسب، بل يتم إنشاؤها مستخرج من الصور الخام. اعتمادًا على كيفية عمل مجموعة الكاميرا لديك بالفعل، قد تعلم أنه يمكن حل بعض المؤثرات أو الزوايا أو أنماط الضوضاء بشكل موثوق أو حتى الاستفادة منها. يعد تعلم كيفية تحويل هذه التفاصيل الضمنية إلى تفاصيل حقيقية – أو الجمع بين التفاصيل من تعريضات ضوئية متعددة – جزءًا كبيرًا من أي حزمة تصوير حاسوبي. يقول المؤسس المشارك والرئيس التنفيذي زيف عطار إن مزود خدمة الإنترنت العصبي الخاص بهم أفضل من أي مزود خدمة آخر في الصناعة.

وأشار إلى أنه حتى شركة Apple لا تمتلك مجموعة كاملة من الصور العصبية، وتستخدمها فقط في ظروف محددة حيث تكون هناك حاجة إليها، ونتائجها (في رأيه) ليست رائعة. لقد قدم مثالاً على فشل مزود خدمة الإنترنت العصبي الخاص بشركة Apple في تفسير النص بشكل صحيح، وكان أداء Glass أفضل بكثير:

صورة مقدمة من Ziv Attar تُظهر هاتف iPhone 15 Pro Max مُكبرًا إلى 5x، والنسخة المعالجة بالزجاج من صور RAW للهاتف.

وقال: “أعتقد أنه من العدل أيضًا افتراض أنه إذا لم تتمكن شركة أبل من الحصول على نتائج جيدة، فسيكون من الصعب حل هذه المشكلة”. “لا يتعلق الأمر بالمكدس الفعلي بقدر ما يتعلق بكيفية تدريبك. لدينا طريقة فريدة جدًا للقيام بذلك، والتي تم تطويرها لأنظمة العدسات المشوهة وهي فعالة في أي كاميرا. في الأساس، لدينا مختبرات تدريب تتضمن أنظمة روبوتية وأنظمة معايرة بصرية قادرة على تدريب شبكة لتوصيف انحراف العدسات بطريقة شاملة للغاية، وعكس أي تشويه بصري بشكل أساسي.

على سبيل المثال، قدم دراسة حالة حيث طلبوا من DXO تقييم الكاميرا على Moto Edge 40، ثم القيام بذلك مرة أخرى مع تثبيت GlassAI. تم تحسين جميع الصور المعالجة بالزجاج بشكل واضح، وأحيانًا بشكل كبير.

اعتمادات الصورة: زجاج / دي اكس او

في مستويات الإضاءة المنخفضة، يكافح مزود خدمة الإنترنت المدمج في التمييز بين الخطوط الدقيقة والأنسجة وتفاصيل الوجه في الوضع الليلي. باستخدام GlassAI، يكون حادًا مثل المسار حتى مع نصف وقت التعرض.

يمكنك إلقاء نظرة سريعة على وحدات البكسل في بعض الصور الاختبارية المتوفرة في Glass عن طريق التبديل بين الصور الأولية والنهائية.

يتعين على الشركات التي تقوم بتجميع الهواتف والكاميرات أن تقضي الكثير من الوقت في ضبط مزود خدمة الإنترنت بحيث يعمل المستشعر والعدسة والأجزاء والأجزاء الأخرى معًا بشكل صحيح للحصول على أفضل صورة ممكنة. ومع ذلك، يبدو أن عملية جلاس ذات الحجم الواحد الذي يناسب الجميع قد تؤدي عملاً أفضل في جزء صغير من الوقت.

“الوقت الذي يستغرقه تدريب البرامج القابلة للشحن منذ أن نضع أيدينا على نوع جديد من الأجهزة… يتراوح بين بضع ساعات إلى بضعة أيام. كمرجع، يقضي صانعو الهواتف شهورًا في ضبط جودة الصورة، مع فرق ضخمة. قال العطار: “عمليتنا مؤتمتة بالكامل حتى نتمكن من دعم أجهزة متعددة في غضون أيام قليلة”.

يعد مزود خدمة الإنترنت العصبي أيضًا شاملاً، مما يعني في هذا السياق أنه ينتقل مباشرة من مستشعر RAW إلى الصورة النهائية دون الحاجة إلى عمليات إضافية مثل تقليل التشويش والتوضيح وما إلى ذلك.

اليسار: خام، اليمين: زجاج معالج.

عندما سألتها، كان العطار حريصًا على التمييز بين عملهم وبين خدمات الذكاء الاصطناعي فائقة الدقة، التي تلتقط صورة نهائية وترقيتها. وهذه في كثير من الأحيان لا تهدف إلى “استعادة” التفاصيل بقدر ما تكون اختراعًا لها حيثما يبدو ذلك مناسبًا، وهي عملية يمكن أن تؤدي في بعض الأحيان إلى نتائج غير مرغوب فيها. على الرغم من أن Glass يستخدم الذكاء الاصطناعي، إلا أنه ليس منتجًا كما هو الحال مع العديد من أنظمة الذكاء الاصطناعي المتعلقة بالصور.

يمثل اليوم توفر المنتج بشكل عام، ومن المفترض أن يكون ذلك بعد فترة اختبار طويلة مع الشركاء. إذا كنت تصنع هاتفًا يعمل بنظام Android، فقد يكون من الجيد أن تجربه على الأقل.

من ناحية الأجهزة، سيتعين على الهاتف المزود بكاميرا بصرية مشوهة غريبة الشكل أن ينتظر حتى تصبح الشركة المصنعة جاهزة للطرح للعامة.

بينما تعمل شركة Glass على تطوير تقنياتها وتجربة العملاء، كانت أيضًا مشغولة بتوفير التمويل. أغلقت الشركة للتو “تمهيدًا ممتدًا” بقيمة 9.3 مليون دولار، وقد وضعته ضمن عروض الأسعار لأن الجولة التمهيدية كانت في عام 2021. وقد قاد التمويل الجديد شركة GV، بمشاركة Future Ventures وAbstract Ventures وLDV Capital.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى