أهم إعلانات الذكاء الاصطناعي من Google I/O

تعمل Google بكل ما في وسعها على الذكاء الاصطناعي، وتريدك أن تعرف ذلك. خلال الكلمة الرئيسية للشركة في مؤتمر المطورين I/O يوم الثلاثاء، ذكرت جوجل كلمة “AI” أكثر من 120 مرة. هذا كثير!

ولكن لم تكن جميع إعلانات جوجل حول الذكاء الاصطناعي مهمة في حد ذاتها. وكان بعضها تدريجيًا. تم إعادة صياغة الآخرين. لذا، للمساعدة في فرز القمح من القشر، قمنا بتجميع أفضل منتجات وميزات الذكاء الاصطناعي الجديدة التي تم الكشف عنها في Google I/O 2024.

الذكاء الاصطناعي التوليدي في البحث

تخطط Google لاستخدام الذكاء الاصطناعي التوليدي لتنظيم صفحات نتائج بحث Google بأكملها.

كيف ستبدو الصفحات المنظمة بواسطة الذكاء الاصطناعي؟ حسنا، ذلك يعتمد على استعلام البحث. لكنها قد تعرض ملخصات للمراجعات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، والمناقشات من مواقع التواصل الاجتماعي مثل Reddit وقوائم الاقتراحات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، حسبما قالت جوجل.

في الوقت الحالي، تخطط جوجل لعرض صفحات النتائج المحسنة بالذكاء الاصطناعي عندما تكتشف أن المستخدم يبحث عن الإلهام – على سبيل المثال، عندما يخططون لرحلة. وقريبًا، سيعرض أيضًا هذه النتائج عندما يبحث المستخدمون عن خيارات ووصفات الطعام، مع نتائج للأفلام والكتب والفنادق والتجارة الإلكترونية والمزيد في المستقبل.

مشروع أسترا و الجوزاء لايف

اعتمادات الصورة: جوجل / جوجل

تعمل Google على تحسين برنامج الدردشة الآلي Gemini الذي يعمل بالذكاء الاصطناعي حتى يتمكن من فهم العالم من حوله بشكل أفضل.

واستعرضت الشركة تجربة جديدة في Gemini تسمى Gemini Live، والتي تتيح للمستخدمين إجراء محادثات صوتية “متعمقة” مع Gemini على هواتفهم الذكية. يمكن للمستخدمين مقاطعة Gemini أثناء حديث Chatbot لطرح أسئلة توضيحية، وسوف يتكيف مع أنماط كلامهم في الوقت الفعلي. ويمكن لـ Gemini رؤية المناطق المحيطة بالمستخدمين والاستجابة لها، إما عبر الصور أو مقاطع الفيديو التي تلتقطها كاميرات هواتفهم الذكية.

يمكن لـ Gemini Live – الذي لن يتم إطلاقه حتى وقت لاحق من هذا العام – الإجابة على أسئلة حول الأشياء التي تقع ضمن نطاق الرؤية (أو التي أصبحت متاحة مؤخرًا) لكاميرا الهاتف الذكي، مثل الحي الذي قد يتواجد فيه المستخدم أو اسم جزء من دراجة مكسورة. تنبع الابتكارات التقنية التي تقود البث المباشر جزئيًا من Project Astra، وهي مبادرة جديدة ضمن DeepMind لإنشاء تطبيقات و”وكلاء” مدعومين بالذكاء الاصطناعي لتحقيق فهم متعدد الوسائط في الوقت الفعلي.

جوجل فيو

تسعى Google إلى الحصول على Sora من OpenAI باستخدام Veo، وهو نموذج ذكاء اصطناعي يمكنه إنشاء مقاطع فيديو بدقة 1080 بكسل مدتها دقيقة تقريبًا في ضوء مطالبة نصية.

يستطيع Veo التقاط أنماط بصرية وسينمائية مختلفة، بما في ذلك لقطات المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات وتعديلات على اللقطات التي تم إنشاؤها بالفعل. يفهم النموذج حركات الكاميرا والمؤثرات البصرية بشكل جيد من خلال المطالبات (فكر في الواصفات مثل “pan” و”zoom” و”explosion”). ويتمتع Veo بقدر كبير من المعرفة بالفيزياء – أشياء مثل ديناميكيات السوائل والجاذبية – والتي تساهم في واقعية مقاطع الفيديو التي ينشئها.

يدعم Veo أيضًا التحرير المقنع لإجراء تغييرات على مناطق محددة من الفيديو ويمكنه إنشاء مقاطع فيديو من صورة ثابتة، وهي نماذج توليدية مثل Stable Video الخاص بـ Stability AI. ولعل الأمر الأكثر إثارة للاهتمام، هو أنه بالنظر إلى سلسلة من المطالبات التي تحكي معًا قصة، يمكن لـ Veo إنشاء مقاطع فيديو أطول – مقاطع فيديو يتجاوز طولها الدقيقة.

اسأل الصور

تحصل صور Google على مزيج من الذكاء الاصطناعي مع إطلاق ميزة تجريبية، Ask Photos، مدعومة من عائلة Gemini من Google لنماذج الذكاء الاصطناعي الإبداعية.

سيسمح تطبيق Ask Photos، الذي سيتم طرحه في وقت لاحق من هذا الصيف، للمستخدمين بالبحث عبر مجموعة صور Google الخاصة بهم باستخدام استعلامات اللغة الطبيعية التي تعزز فهم Gemini لمحتوى صورهم – والبيانات الوصفية الأخرى.

على سبيل المثال، بدلاً من البحث عن شيء محدد في صورة ما، مثل “One World Trade”، سيتمكن المستخدمون من إجراء عمليات بحث أكثر اتساعًا وتعقيدًا، مثل العثور على “أفضل صورة من كل من المتنزهات الوطنية التي قمت بزيارتها”. ” في هذا المثال، ستستخدم Gemini الإشارات بما في ذلك الإضاءة والضبابية وعدم تشويه الخلفية لتحديد ما الذي يجعل الصورة “الأفضل” في مجموعة معينة ودمج ذلك مع فهم معلومات الموقع الجغرافي والتواريخ لإرجاع الصور ذات الصلة.

الجوزاء في Gmail

سيتمكن مستخدمو Gmail قريبًا من البحث عن رسائل البريد الإلكتروني وتلخيصها وصياغتها، بفضل Gemini – بالإضافة إلى اتخاذ إجراء بشأن رسائل البريد الإلكتروني للمهام الأكثر تعقيدًا، مثل المساعدة في معالجة المرتجعات.

في أحد العروض التوضيحية في I/O، أظهرت Google كيف يمكن لأحد الوالدين الذي يريد متابعة ما يحدث في مدرسة طفله أن يطلب من Gemini تلخيص جميع رسائل البريد الإلكتروني الأخيرة من المدرسة. بالإضافة إلى نص رسائل البريد الإلكتروني نفسها، سيقوم Gemini أيضًا بتحليل المرفقات، مثل ملفات PDF، ويصدر ملخصًا يتضمن النقاط الرئيسية وعناصر العمل.

من الشريط الجانبي في Gmail، يمكن للمستخدمين أن يطلبوا من Gemini مساعدتهم في تنظيم الإيصالات من رسائل البريد الإلكتروني الخاصة بهم وحتى وضعها في مجلد Google Drive، أو استخراج المعلومات من الإيصالات ولصقها في جدول بيانات. إذا كان هذا شيئًا تفعله كثيرًا – على سبيل المثال، كمسافر عمل يتتبع النفقات – فيمكن أن يعرض عليك Gemini أيضًا أتمتة سير العمل لاستخدامه في المستقبل.

كشف عمليات الاحتيال أثناء المكالمات

قامت Google بمعاينة ميزة مدعومة بالذكاء الاصطناعي لتنبيه المستخدمين إلى عمليات الاحتيال المحتملة أثناء المكالمة.

تستخدم هذه الإمكانية، التي سيتم دمجها في إصدار مستقبلي من Android، Gemini Nano، وهو أصغر إصدار من عرض الذكاء الاصطناعي التوليدي من Google، والذي يمكن تشغيله بالكامل على الجهاز، للاستماع إلى “أنماط المحادثة المرتبطة عادةً بعمليات الاحتيال” في الوقت الفعلي. .

لم يتم تحديد تاريخ إصدار محدد لهذه الميزة. مثل العديد من هذه الأشياء، تقوم Google بمعاينة مقدار ما سيتمكن Gemini Nano من القيام به في وقت ما. ومع ذلك، نحن نعلم أن الميزة سيتم تمكينها – وهو أمر جيد. في حين أن استخدام Nano يعني أن النظام لن يقوم بتحميل الصوت تلقائيًا إلى السحابة، إلا أن النظام لا يزال يستمع بشكل فعال إلى محادثات المستخدمين – وهو خطر محتمل على الخصوصية.

الذكاء الاصطناعي لسهولة الوصول

تعمل Google على تحسين ميزة إمكانية الوصول إلى TalkBack لنظام Android مع القليل من سحر الذكاء الاصطناعي التوليدي.

قريبًا، سوف يقوم TalkBack بالضغط على Gemini Nano لإنشاء أوصاف سمعية للأشياء للمستخدمين ضعاف البصر والمكفوفين. على سبيل المثال، قد يشير TalkBack إلى مقالة ملابس باسم “لقطة مقربة لفستان من القماش القطني باللونين الأبيض والأسود. الفستان قصير، ذو ياقة وأكمام طويلة. وهو مربوط عند الخصر بقوس كبير.”

وفقًا لجوجل، يواجه مستخدمو TalkBack حوالي 90 صورة غير مصنفة أو نحو ذلك يوميًا. باستخدام Nano، سيكون النظام قادرًا على تقديم نظرة ثاقبة للمحتوى، مما قد يغني عن الحاجة إلى قيام شخص ما بإدخال تلك المعلومات يدويًا.