«ميتا» تطلق روبوتات لجمع البيانات لتدريب نماذجها الذكية.. تتخطى الحظر

كتب nour mohamed في السبت, 24 أغسطس , 2024

من أجل الحصول على بيانات تدريب عالية الجودة، أطلقت “ميتا” روبوتات برمجية تجمع البيانات من الإنترنت لدعم نماذج الذكاء الاصطناعي الخاصة بها.

وزودت “ميتا” الروبوتات بقدرات تجعل من الصعب على أصحاب المواقع الإلكترونية منعها من جمع المحتوى الخاص بهم، أي أنها تتخطى حظر المواقع لتنفيذ المهمة الموكلة إليها.

وقالت “ميتا” إن الروبوت الجديد Meta-ExternalAgent مصمم “لاستخدامات مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات من خلال فهرسة المحتوى بشكل مباشر”.

والروبوت الثاني Meta-ExternalFetcher، مرتبط بعروض الشركة للمساعدات الذكية ويجمع الروابط لدعم وظائف محددة للمنتجات.

وبحسب ما نقله موقع Business Insider، ظهرت هذه الروبوتات لأول مرة في يوليو الماضي، وفقاً لما أظهرته صفحات ميتا المؤرشفة التي حللتها شركة “Originality.ai”، وهي شركة ناشئة متخصصة في اكتشاف المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي.

يأتي ذلك في إطار السباق لبناء أقوى نماذج الذكاء الاصطناعي، حيث تتنافس الشركات الناشئة وعمالقة التكنولوجيا من أجل الحصول على بيانات تدريب عالية الجودة.

وأحد الأساليب الأساسية لتحقيق ذلك هو إرسال الروبوتات البرمجية إلى مواقع الويب لجمع المحتوى عبر تقنية “حصد البيانات Scraping”، والتي تستخدمها العديد من الشركات، بما في ذلك جوجل وOpenAI وAnthropic، لتدريب نماذجها الذكية.

وأشارت ميتا إلى أن روبوتها الجديد Meta-ExternalFetcher قد يتجاوز قواعد ملف robots.txt”، إضافة إلى أن روبوتها Meta-ExternalAgent ينجز وظيفتين مختلفتين، إحداهما جمع بيانات تدريب الذكاء الاصطناعي، والأخرى فهرسة المحتوى على مواقع الويب مما يعقد عملية حظره.

وملف “robots.txt”، عبارة عن مجموعة من الأوامر والإرشادات التي توضح ما هو مسموح ومحظور على تلك الروبوتات القيام به.

ورغم ذلك، تسببت الحاجة الشديدة لبيانات تدريب الذكاء الاصطناعي في تقويض هذا النظام، ففي يونيو الماضي تبين أن OpenAI وAnthropic تتجاهلان القواعد المذكورة داخل “robots.txt”.

The short URL of the present article is: https://followict.news/hvbz