تقنية

بعد نجاح AgentGPT، تركز Reworkd على وكلاء الذكاء الاصطناعي لاستخلاص الويب


انتشر مؤسسو Reworkd على GitHub العام الماضي باستخدام AgentGPT، وهي أداة مجانية لبناء عملاء الذكاء الاصطناعي والتي اكتسبت أكثر من 100000 مستخدم يوميًا في أسبوع واحد. وقد أكسبهم هذا مكانًا في مجموعة Y Combinator لصيف 2023، لكن المؤسسين المشاركين أدركوا بسرعة أن بناء وكلاء الذكاء الاصطناعي العامين كان واسعًا للغاية. حتى الآن Reworkd هي شركة لتجميع الويب، وتقوم على وجه التحديد ببناء وكلاء الذكاء الاصطناعي لاستخراج البيانات المنظمة من الويب العام.

قدم AgentGPT واجهة بسيطة في المتصفح حيث يمكن للمستخدمين إنشاء وكلاء الذكاء الاصطناعي المستقلين. وسرعان ما أصبح الجميع يهتفون حول كيف أن الوكلاء هم مستقبل الحوسبة.

عندما انطلقت الأداة، كان عاصم شريستا وآدم واتكينز وسريجان سوبيدي لا يزالون يعيشون في كندا ولم يكن Reworkd موجودًا. لقد فاجأهم التدفق الهائل للمستخدمين. قال Subedi، الذي يشغل الآن منصب المدير التنفيذي للعمليات في Reworkd، إن الأداة كانت تكلفهم 2000 دولار يوميًا في مكالمات API. لهذا السبب، كان عليهم إنشاء Reworkd والحصول على التمويل بسرعة. كانت إحدى حالات الاستخدام الأكثر شيوعًا لـ AgentGPT هي إنشاء أدوات استخراج بيانات الويب، وهي مهمة بسيطة نسبيًا ولكنها كبيرة الحجم، لذلك جعل Reworkd هذا محور تركيزه الوحيد.

أصبحت كاشطات الويب لا تقدر بثمن في عصر الذكاء الاصطناعي. السبب الأول وراء استخدام المؤسسات لبيانات الويب العامة في عام 2024 هو بناء نماذج الذكاء الاصطناعي، وفقًا لأحدث تقرير لشركة Bright Data. تكمن المشكلة في أن برامج كاشطات الويب يتم إنشاؤها تقليديًا بواسطة البشر ويجب تخصيصها لصفحات ويب معينة، مما يجعلها باهظة الثمن. لكن يمكن لعملاء الذكاء الاصطناعي في Reworkd استخراج المزيد من الويب مع وجود عدد أقل من البشر في الحلقة.

يمكن للعملاء إعطاء Reworkd قائمة بمئات، أو حتى آلاف، مواقع الويب لاستخراجها ثم تحديد أنواع البيانات التي يهتمون بها. بعد ذلك، يستخدم وكلاء الذكاء الاصطناعي في Reworkd إنشاء تعليمات برمجية متعددة الوسائط لتحويل ذلك إلى بيانات منظمة. يقوم الوكلاء بإنشاء كود فريد لاستخراج كل موقع ويب، واستخراج تلك البيانات ليستخدمها العملاء كما يحلو لهم.

على سبيل المثال، لنفترض أنك تريد إحصائيات عن كل لاعب في الدوري الوطني لكرة القدم الأمريكية، ولكن موقع الويب الخاص بكل فريق له تصميم مختلف. بدلاً من إنشاء أداة استخراج البيانات لكل موقع ويب، يقوم وكلاء Reworkd بذلك نيابةً عنك، وذلك من خلال توفير الروابط ووصف البيانات التي تريد استخراجها فقط. مع 32 فريقًا، يمكن أن يوفر لك ذلك ساعات – ولكن إذا كان هناك 1000 فريق، فقد يوفر لك أسابيع.

جمعت شركة Reworkd مبلغًا جديدًا قدره 2.75 مليون دولار من التمويل الأولي من Paul Graham وAI Grant (مسرع الشركات الناشئة التابع لـ Nat Friedman وDaniel Gross) وSV Angel و General Catalyst وPanache Ventures، من بين آخرين، حسبما صرحت الشركة الناشئة حصريًا لـ TechCrunch. بالاشتراك مع استثمار ما قبل التأسيس بقيمة 1.25 مليون دولار في العام الماضي من Panache Ventures وY Combinator، يصل إجمالي تمويل Reworkd الذي تم جمعه حتى الآن إلى 4 ملايين دولار.

الذكاء الاصطناعي الذي يمكنه استخدام الإنترنت

بعد وقت قصير من تشكيل Reworkd والانتقال إلى سان فرانسيسكو، قام الفريق بتعيين روهان باندي كمهندس أبحاث مؤسس. يعيش حاليًا في AGI House SF، وهو أحد بيوت القرصنة الأكثر شهرة في منطقة الخليج في عصر الذكاء الاصطناعي. وصف أحد المستثمرين شركة Pandey بأنها “مختبر أبحاث لشخص واحد داخل Reworkd”.

وقال باندي في مقابلة مع موقع TechCrunch: “إننا نرى أنفسنا تتويجًا لحلم الويب الدلالي الذي دام 30 عامًا”، في إشارة إلى رؤية مخترع شبكة الإنترنت العالمية تيم بيرنرز لي، والتي يمكن لأجهزة الكمبيوتر من خلالها قراءة الإنترنت بالكامل. “على الرغم من أن بعض مواقع الويب لا تحتوي على ترميز، إلا أن LLMs يمكنهم فهم مواقع الويب بنفس الطرق التي يستطيع البشر فهمها، بحيث يمكننا كشف أي موقع ويب بشكل أساسي كواجهة برمجة تطبيقات. لذا، فإن Reworkd، إلى حد ما، يشبه طبقة واجهة برمجة التطبيقات العالمية للإنترنت.

تقول Reworkd إنها قادرة على التقاط احتياجات بيانات العملاء الطويلة، مما يعني أن وكلاء الذكاء الاصطناعي الخاصين بها جيدون بشكل خاص في استخراج الآلاف من مواقع الويب العامة الأصغر حجمًا والتي غالبًا ما يتخطاها المنافسون الكبار. لدى شركات أخرى، مثل Bright Data، أدوات استخراج لمواقع الويب الكبيرة مثل LinkedIn أو Amazon تم إنشاؤها بالفعل، ولكن قد لا يستحق الأمر عناء إنشاء أداة استخراج لكل موقع ويب صغير. يعالج Reworkd هذا القلق، ولكن من المحتمل أن يثير مخاوف أخرى.

ما هي بيانات الويب “العامة” بالضبط؟

على الرغم من وجود أدوات استخراج البيانات على الويب منذ عقود، إلا أنها أثارت الجدل في عصر الذكاء الاصطناعي. وقد أدى الاستخلاص غير المقيد لكميات ضخمة من البيانات إلى إلقاء شركتي OpenAI وPerplexity في مشاكل قانونية: حيث تزعم المؤسسات الإخبارية والإعلامية أن شركات الذكاء الاصطناعي انتزعت الملكية الفكرية من وراء نظام حظر الاشتراك غير المدفوع، وأعادت إنتاجها على نطاق واسع دون مقابل. Reworkd يتخذ الاحتياطات اللازمة لتجنب هذه المشكلات.

قال شريستا، المؤسس المشارك والرئيس التنفيذي لشركة Reworkd، في مقابلة مع TechCrunch: “نحن ننظر إليها على أنها تعمل على تحسين إمكانية الوصول إلى المعلومات المتاحة للجمهور”. “نحن نسمح فقط بالمعلومات المتاحة للجمهور، ولا نمر عبر جدران تسجيل الدخول أو أي شيء من هذا القبيل.”

وللمضي قدمًا إلى أبعد من ذلك، تقول Reworkd إنها تتجنب حذف الأخبار تمامًا، وتكون انتقائية بشأن الأشخاص الذين يعملون معهم. يقول واتكينز، مدير التكنولوجيا التنفيذي بالشركة، إن هناك أدوات أفضل لتجميع محتوى الأخبار في أماكن أخرى، وهذا ليس محور اهتمامهم.

وكمثال على ذلك، وصف Reworkd عملهم مع شركة Axis، وهي شركة تساعد فرق السياسة على الامتثال للوائح الحكومية. يستخدم Axis الذكاء الاصطناعي الخاص بـ Reworkd لاستخراج البيانات من آلاف الوثائق التنظيمية الحكومية للعديد من البلدان في جميع أنحاء الاتحاد الأوروبي. تقوم Axis بعد ذلك بتدريب نموذج الذكاء الاصطناعي وضبطه بناءً على هذه البيانات، وتقديمه للعملاء كمنتج.

إن إنشاء شركة لتجميع البيانات على الويب هذه الأيام يمكن اعتباره خوضًا في منطقة خطيرة، وفقًا لآرون فيسك، الشريك في شركة المحاماة Gunderson Dettmer التي يقع مقرها في Silicon-Valley. يبدو المشهد مائعًا إلى حد ما في الوقت الحالي، ولا تزال هيئة المحلفين غير متأكدة من مدى كون بيانات الويب “العامة” حقًا بالنسبة لنماذج الذكاء الاصطناعي. ومع ذلك، يقول فيسك إن نهج Reworkd، حيث يقرر العملاء مواقع الويب التي يريدون حذفها، قد يعزلهم عن المسؤولية القانونية.

قال فيسك في مقابلة مع TechCrunch: “يبدو الأمر كما لو أنهم اخترعوا آلة النسخ، وهناك حالة استخدام واحدة لصنع نسخ تبين أنها ذات قيمة اقتصادية كبيرة، ولكنها أيضًا مشكوك فيها من الناحية القانونية”. “لا يبدو الأمر وكأن برامج استخراج البيانات على الويب التي تخدم شركات الذكاء الاصطناعي أمر محفوف بالمخاطر بالضرورة، ولكن العمل مع شركات الذكاء الاصطناعي المهتمة حقًا بحصد المحتوى المحمي بحقوق الطبع والنشر ربما يمثل مشكلة.”

لهذا السبب تحرص Reworkd على تحديد الأشخاص الذين تعمل معهم. لقد حجبت أدوات استخراج الويب الكثير من اللوم في حالات انتهاك حقوق الطبع والنشر المحتملة المتعلقة بالذكاء الاصطناعي حتى الآن. وفي قضية OpenAI، يشير فيسك إلى أن صحيفة نيويورك تايمز لم ترفع دعوى قضائية ضد أداة استخراج البيانات من الويب التي جمعت مقالاتها، بل الشركة التي يُزعم أنها أعادت إنتاج عملها. ولكن حتى هناك، لم يتم بعد تحديد ما إذا كان ما فعلته OpenAI يمثل انتهاكًا حقيقيًا لحقوق الطبع والنشر.

هناك المزيد من الأدلة على أن برامج كاشطات الويب أصبحت غير قانونية من الناحية القانونية أثناء طفرة الذكاء الاصطناعي. حكمت المحكمة مؤخرًا لصالح شركة Bright Data بعد أن قامت بحذف الملفات الشخصية على Facebook وInstagram عبر الويب. أحد الأمثلة في قضية المحكمة كان عبارة عن مجموعة بيانات مكونة من 615 مليون سجل لبيانات مستخدم Instagram، والتي تبيعها شركة Bright Data مقابل 860 ألف دولار. رفعت Meta دعوى قضائية ضد الشركة، زاعمة أن هذا ينتهك شروط الخدمة الخاصة بها. لكن المحكمة قضت بأن هذه البيانات عامة وبالتالي متاحة للاستخلاص منها.

يعتقد المستثمرون أن موازين Reworkd مع اللاعبين الكبار

وقد اجتذبت شركة Reworkd أسماء كبيرة كمستثمرين مبكرين، من Y Combinator وPaul Graham إلى Daniel Gross وNat Friedman. يقول بعض المستثمرين إن السبب في ذلك هو أن تقنية Reworkd ستتحسن وتصبح أرخص إلى جانب النماذج الجديدة. تقول الشركة الناشئة إن GPT-4o من OpenAI هو الأفضل حاليًا لتوليد التعليمات البرمجية متعددة الوسائط، وأن الكثير من تقنيات Reworkd لم تكن ممكنة إلا قبل بضعة أشهر فقط.

يقول فيت لو من شركة General Catalyst في مقابلة مع TechCrunch: “إذا حاولت التنافس مع معدل التقدم التكنولوجي – وليس البناء عليه – فأعتقد أنك ستواجه صعوبة في ذلك كمؤسس”. “تمتلك Reworkd عقلية تعتمد على حلها على معدل التقدم.”

تعمل شركة Reworkd على إنشاء عوامل الذكاء الاصطناعي التي تعالج فجوة معينة في السوق؛ تحتاج الشركات إلى المزيد من البيانات لأن الذكاء الاصطناعي يتقدم بسرعة. مع قيام المزيد من الشركات ببناء نماذج ذكاء اصطناعي مخصصة خاصة بأعمالها، فإن Reworkd قادر على كسب المزيد من العملاء. تتطلب نماذج الضبط الدقيق الجودة والبيانات المنظمة والكثير منها.

تقول شركة Reworkd أن منهجها هو “الشفاء الذاتي”، مما يعني أن أدوات استخراج الويب الخاصة بها لن تتعطل بسبب تحديث صفحة الويب. تدعي الشركة الناشئة أنها تتجنب مشكلات الهلوسة المرتبطة تقليديًا بنماذج الذكاء الاصطناعي لأن وكلاء Reworkd يقومون بإنشاء تعليمات برمجية لاستخراج موقع ويب. من الممكن أن يرتكب الذكاء الاصطناعي خطأ، ويحصل على بيانات خاطئة من موقع ويب، لكن فريق Reworkd أنشأ Banana-lyzer، وهو إطار تقييم مفتوح المصدر، لتقييم دقته بانتظام.

لا تمتلك شركة Reworkd رواتب كبيرة – يتكون الفريق من أربعة أشخاص فقط – ولكن يتعين عليها أن تتحمل تكاليف استدلال كبيرة لتشغيل وكلاء الذكاء الاصطناعي لديها. تتوقع الشركة الناشئة أن تصبح أسعارها تنافسية بشكل متزايد مع اتجاه هذه التكاليف نحو الانخفاض. أصدرت OpenAI للتو GPT-4o mini، وهو نسخة أصغر من نموذجها الرائد في الصناعة مع معايير تنافسية. مثل هذه الابتكارات يمكن أن تجعل Reworkd أكثر قدرة على المنافسة.

لم يستجب Paul Graham وAI Grant لطلب TechCrunch للتعليق.


اكتشاف المزيد من موقع fffm

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من موقع fffm

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading