يتنافس عمالقة التكنولوجيا، من أجل الحصول على بيانات تدريب عالية الجودة، وأحد الأساليب الأساسية لتحقيق ذلك هو إرسال الروبوتات البرمجية إلى مواقع الويب لجمع المحتوى عبر تقنية “حصد البيانات Scraping”، والتي تستخدمها العديد من الشركات، بما في ذلك جوجل وOpenAI وAnthropic، لتدريب نماذجها الذكية، وفقًا للشرق.
وتواصل «ميتا» استخدام تكنولوجيا الذكاء الاصطناعي في مشروعاتها، وأطلقت مؤخرًا روبوتات برمجية تجمع البيانات من الإنترنت لدعم نماذج الذكاء الاصطناعي الخاصة بها والمنتجات ذات الصلة، ولكنها مزودة بقدرات تجعل من الصعب على أصحاب المواقع الإلكترونية منعها من جمع المحتوى الخاص بهم.
فهرسة المحتوى
وأكدت «ميتا» أن الروبوت الجديد Meta-ExternalAgent مصمم لاستخدامات مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات من خلال فهرسة المحتوى بشكل مباشر، وهناك روبوت آخر هو Meta-ExternalFetcher، مرتبط بعروض الشركة للمساعدات الذكية ويجمع الروابط لدعم وظائف محددة للمنتجات.
وإذا كان أصحاب المحتوى يرغبون في منع هذه الروبوتات من جمع المحتوى المنشور على صفحات مواقعهم الإلكترونية، فإنهم يعتمدون على قاعدة قديمة تُعرف بملف “robots.txt”، والذي تكتب فيه المواقع مجموعة من الأوامر والإرشادات التي توضح ما هو مسموح ومحظور على تلك الروبوتات القيام به، ويُعتبر هذا الملف جزءاً أساسياً من القواعد غير الرسمية التي تدعم بنية الويب منذ أواخر التسعينيات.
ومع ذلك، فقد تسببت الحاجة الماسة لبيانات تدريب الذكاء الاصطناعي في تقويض هذا النظام، ففي يونيو الماضي تبين أن OpenAI وAnthropic تتجاهلان القواعد المذكورة داخل ملف “robots.txt” المتواجدة داخل مواقع الويب.
منع ميتا من الميزة الجديدة
ويبدو أن ميتا تتبع نهجاً مشابهاً، إذ حذرت الشركة من أن روبوتها الجديد Meta-ExternalFetcher قد “يتجاوز قواعد ملف robots.txt”، إضافة إلى أنه روبوتها Meta-ExternalAgent ينجز وظيفتين مختلفتين، إحداهما جمع بيانات تدريب الذكاء الاصطناعي، والأخرى فهرسة المحتوى على مواقع الويب مما يعقد عملية حظره.
اقرأ أيضا| تطور تكنولوجي هائل.. روبوتات تؤدي مهام بشرية
فقد يرغب أصحاب المواقع في منع ميتا من استخدام بياناتهم لتدريب نماذج الذكاء الاصطناعي، لكنهم في الوقت نفسه قد يرحبون بفهرسة مواقعهم لزيادة عدد زوارها، وبالتالي لجوء ميتا لدمج الوظيفتين في روبوت واحد يجعل من الصعب حظره.
وظهرت هذه الروبوتات لأول مرة في يوليو الماضي، وفقاً لما أظهرته صفحات ميتا المؤرشفة التي حللتها شركة “Originality.ai”، وهي شركة ناشئة متخصصة في اكتشاف المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي، حسب ما نقله موقع Business Insider.
على النقيض من ذلك، فإن الروبوت الأقدم لشركة ميتا “FacebookBot”، الذي يجمع البيانات منذ سنوات لتدريب نماذج اللغة الكبيرة وتقنيات التعرف على الصوت، تم منعه من قبل حوالي 10% من المواقع الكبرى بما في ذلك منصة إكس وياهوو، حسبما أفادت “Originality.ai”.




