تقنية

تخطط Vana للسماح للمستخدمين بتأجير بيانات Reddit الخاصة بهم لتدريب الذكاء الاصطناعي


في التوليد طفرة الذكاء الاصطناعي، البيانات هي النفط الجديد. فلماذا لا تكون قادرًا على بيع منتجاتك الخاصة؟

من شركات التكنولوجيا الكبرى إلى الشركات الناشئة، يقوم صانعو الذكاء الاصطناعي بترخيص الكتب الإلكترونية والصور ومقاطع الفيديو والصوت والمزيد من وسطاء البيانات، كل ذلك في السعي إلى تدريب منتجات أكثر قدرة (ويمكن الدفاع عنها قانونيًا) مدعومة بالذكاء الاصطناعي. أبرمت Shutterstock صفقات مع Meta وGoogle وAmazon وApple لتزويد ملايين الصور لتدريب النماذج، بينما وقعت OpenAI اتفاقيات مع العديد من المؤسسات الإخبارية لتدريب نماذجها على أرشيفات الأخبار.

في كثير من الحالات، لم يشاهد المبدعون الأفراد ومالكو تلك البيانات أي سنت من الأموال النقدية التي يتم تداولها. تريد شركة ناشئة تدعى Vana تغيير ذلك.

آنا كازلاوسكاس وآرت أبال، اللذان التقيا في فصل دراسي في مختبر الوسائط بمعهد ماساتشوستس للتكنولوجيا ركز على بناء التكنولوجيا للأسواق الناشئة، شاركا في تأسيس شركة فانا في عام 2021. قبل فانا، درس كازلاوسكاس علوم الكمبيوتر والاقتصاد في معهد ماساتشوستس للتكنولوجيا، ثم غادر في النهاية لإطلاق شركة للتكنولوجيا المالية. بدء التشغيل الآلي، Iambiq، من Y Combinator. كان أبال، وهو محامي شركات من خلال التدريب والتعليم، زميلًا في مجموعة Cadmus Group، وهي شركة استشارية مقرها بوسطن، قبل أن يترأس مصادر التأثير في شركة Appen لتعليق البيانات.

مع Vana، شرع Kazlauskas وAbal في بناء منصة تتيح للمستخدمين “تجميع” بياناتهم – بما في ذلك المحادثات وتسجيلات الكلام والصور – في مجموعات البيانات التي يمكن استخدامها بعد ذلك للتدريب على نماذج الذكاء الاصطناعي التوليدية. إنهم يريدون أيضًا إنشاء تجارب أكثر تخصيصًا – على سبيل المثال، البريد الصوتي التحفيزي اليومي استنادًا إلى أهدافك الصحية، أو تطبيق لإنشاء أعمال فنية يفهم تفضيلات أسلوبك – من خلال ضبط النماذج العامة بناءً على تلك البيانات.

وقال Kazlauskas لـ TechCrunch: “إن البنية التحتية لـ Vana تخلق في الواقع خزانة بيانات مملوكة للمستخدم”. “إنها تفعل ذلك من خلال السماح للمستخدمين بتجميع بياناتهم الشخصية بطريقة غير احتجازية… تتيح Vana للمستخدمين امتلاك نماذج الذكاء الاصطناعي واستخدام بياناتهم عبر تطبيقات الذكاء الاصطناعي.”

إليك كيفية عرض Vana لنظامها الأساسي وواجهة برمجة التطبيقات (API) للمطورين:

تقوم Vana API بتوصيل البيانات الشخصية للمستخدم عبر الأنظمة الأساسية… للسماح لك بتخصيص تطبيقك. يتمتع تطبيقك بإمكانية الوصول الفوري إلى نموذج الذكاء الاصطناعي المخصص للمستخدم أو البيانات الأساسية، مما يبسط عملية الإعداد ويزيل المخاوف المتعلقة بتكلفة الحوسبة … نعتقد أنه يجب أن يكون المستخدمون قادرين على جلب بياناتهم الشخصية من الحدائق المسورة، مثل Instagram وFacebook وGoogle، إلى تطبيقك، لذلك يمكنك إنشاء تجربة شخصية مذهلة من المرة الأولى التي يتفاعل فيها المستخدم مع تطبيق الذكاء الاصطناعي الخاص بالمستهلك.

إنشاء حساب مع Vana أمر بسيط إلى حد ما. بعد تأكيد بريدك الإلكتروني، يمكنك إرفاق البيانات بالصورة الرمزية الرقمية (مثل الصور الشخصية ووصفك والتسجيلات الصوتية) واستكشاف التطبيقات التي تم إنشاؤها باستخدام منصة Vana ومجموعات البيانات. يتراوح اختيار التطبيق من روبوتات الدردشة على غرار ChatGPT والكتب القصصية التفاعلية إلى منشئ ملف التعريف المفصلي.

اعتمادات الصورة: فانا

الآن، قد تتساءل لماذا – في هذا العصر الذي يتسم بزيادة الوعي بخصوصية البيانات وهجمات برامج الفدية – هل يمكن لأي شخص أن يتطوع بمعلوماته الشخصية لشركة ناشئة مجهولة، ناهيك عن شركة مدعومة بمشروع؟ (لقد جمعت شركة Vana حتى الآن 20 مليون دولار من Paradigm وPolychain Capital وغيرهم من الداعمين.) هل يمكن الوثوق حقًا بأي شركة تسعى إلى الربح في عدم إساءة استخدام أو إساءة التعامل مع أي بيانات قابلة للتسييل تحصل عليها؟

فانا رديت DAO

اعتمادات الصورة: فانا

ردًا على هذا السؤال، شدد Kazlauskas على أن الهدف الأساسي من Vana هو أن “يستعيد المستخدمون السيطرة على بياناتهم”، مشيرًا إلى أن مستخدمي Vana لديهم خيار استضافة بياناتهم ذاتيًا بدلاً من تخزينها على خوادم Vana والتحكم في كيفية عمل بياناتهم. تتم مشاركة البيانات مع التطبيقات والمطورين. وقالت أيضًا إنه نظرًا لأن Vana تجني الأموال عن طريق فرض اشتراك شهري على المستخدمين (يبدأ من 3.99 دولارًا أمريكيًا) وفرض رسوم “معاملة البيانات” على المطورين (على سبيل المثال لنقل مجموعات البيانات للتدريب على نماذج الذكاء الاصطناعي)، يتم تثبيط الشركة من استغلال المستخدمين و البيانات الشخصية التي يجلبونها معهم.

قال كازلاوسكاس: “نريد إنشاء نماذج يملكها ويحكمها مستخدمون يساهمون جميعًا ببياناتهم، ونسمح للمستخدمين بإحضار بياناتهم ونماذجهم معهم إلى أي تطبيق”.

الآن، بينما فانا لا تبيع الشركة بيانات المستخدمين إلى الشركات للتدريب على نماذج الذكاء الاصطناعي (أو هكذا تدعي)، فهي تريد السماح للمستخدمين بالقيام بذلك بأنفسهم إذا اختاروا ذلك – بدءًا من منشوراتهم على Reddit.

أطلقت Vana هذا الشهر ما تسميه Reddit Data DAO (المنظمة الرقمية المستقلة)، وهو برنامج يجمع بيانات Reddit الخاصة بالعديد من المستخدمين (بما في ذلك الكارما الخاصة بهم وتاريخ النشر) ويتيح لهم أن يقرروا معًا كيفية استخدام هذه البيانات المجمعة. بعد الانضمام إلى حساب Reddit، وإرسال طلب إلى Reddit للحصول على بياناتهم وتحميل تلك البيانات إلى DAO، يحصل المستخدمون على حق التصويت جنبًا إلى جنب مع الأعضاء الآخرين في DAO على قرارات مثل ترخيص البيانات المجمعة لشركات الذكاء الاصطناعي التوليدية لتحقيق ربح مشترك. .

إنها إجابة من نوع ما على تحركات Reddit الأخيرة لتسويق البيانات على منصتها.

لم يكن موقع Reddit في السابق يتيح الوصول إلى المنشورات والمجتمعات لأغراض التدريب على الذكاء الاصطناعي. لكنها عكست مسارها في أواخر العام الماضي، قبل الاكتتاب العام. منذ تغيير السياسة، حصل Reddit على أكثر من 203 مليون دولار من رسوم الترخيص من الشركات بما في ذلك Google.

“الفكرة الواسعة [with the DAO is] قال كازلاوسكاس: “لتحرير بيانات المستخدم من المنصات الرئيسية التي تسعى إلى تخزينها وتحقيق الدخل منها”. “هذه هي المرة الأولى وهي جزء من جهودنا لمساعدة الأشخاص على تجميع بياناتهم في مجموعات البيانات المملوكة للمستخدم لتدريب نماذج الذكاء الاصطناعي.”

ليس من المستغرب أن Reddit – الذي لا يعمل مع Vana بأي صفة رسمية – ليس سعيدًا بـ DAO.

قام موقع Reddit بحظر موقع Vana الفرعي المخصص للمناقشة حول DAO. واتهم متحدث باسم Reddit شركة Vana بـ “استغلال” نظام تصدير البيانات الخاص بها، والذي تم تصميمه للامتثال للوائح خصوصية البيانات مثل اللائحة العامة لحماية البيانات وقانون خصوصية المستهلك في كاليفورنيا.

وقال المتحدث لـ TechCrunch: “تسمح لنا ترتيبات البيانات لدينا بوضع حواجز حماية على مثل هذه الكيانات، حتى على المعلومات العامة”. “لا يشارك Reddit البيانات الشخصية غير العامة مع المؤسسات التجارية، وعندما يطلب Redditors تصدير بياناتهم منا، فإنهم يتلقون منا بيانات شخصية غير عامة وفقًا للقوانين المعمول بها. الشراكات المباشرة بين Reddit والمنظمات التي تم فحصها، بشروط ومساءلة واضحة، وهذه الشراكات والاتفاقيات تمنع إساءة استخدام بيانات الأشخاص وإساءة استخدامها.

ولكن هل لدى Reddit أي سبب حقيقي للقلق؟

يتصور Kazlauskas أن DAO ينمو إلى الحد الذي يؤثر فيه على المبلغ الذي يمكن لـ Reddit تحصيله من العملاء مقابل بياناته. وهذا أمر بعيد المنال، على افتراض حدوثه على الإطلاق؛ يضم DAO ما يزيد قليلاً عن 141000 عضو، وهو جزء صغير من قاعدة مستخدمي Reddit البالغة 73 مليونًا. وقد يكون بعض هؤلاء الأعضاء روبوتات أو حسابات مكررة.

ثم هناك مسألة كيفية توزيع المدفوعات التي قد تتلقاها DAO من مشتري البيانات بشكل عادل.

حاليًا، تمنح DAO “الرموز المميزة” – العملة المشفرة – للمستخدمين المتوافقين مع Reddit karma الخاص بهم. لكن الكارما قد لا تكون المقياس الأفضل لجودة المساهمات في مجموعة البيانات – خاصة في مجتمعات ريديت الأصغر حجمًا التي لديها فرص أقل لكسبها.

يطرح Kazlauskas فكرة أن أعضاء DAO يمكنهم اختيار مشاركة بياناتهم عبر الأنظمة الأساسية والديموغرافية، مما يجعل DAO أكثر قيمة ويحفز عمليات الاشتراك. ولكن هذا يتطلب أيضًا من المستخدمين وضع المزيد من الثقة في Vana للتعامل مع بياناتهم الحساسة بطريقة مسؤولة.

أنا شخصياً لا أرى DAO الخاص بـ Vana يصل إلى الكتلة الحرجة. إن الحواجز التي تقف في الطريق كثيرة جداً. ومع ذلك، أعتقد أنها لن تكون المحاولة الشعبية الأخيرة لتأكيد السيطرة على البيانات المستخدمة بشكل متزايد لتدريب نماذج الذكاء الاصطناعي التوليدية.

تعمل الشركات الناشئة مثل Spawning على إيجاد طرق للسماح للمبدعين بفرض قواعد لتوجيه كيفية استخدام بياناتهم للتدريب بينما يواصل البائعون مثل Getty Images وShutterstock وAdobe تجربة أنظمة التعويض. لكن لم يتمكن أحد من فك الكود بعد. هل يمكن حتى يكون متصدع؟ ونظرًا للطبيعة العنيفة لصناعة الذكاء الاصطناعي التوليدي، فمن المؤكد أنها مهمة صعبة. ولكن ربما يجد شخص ما طريقة ما، أو قد يفرضها صناع السياسات.



اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى