نگرانی در مورد عدم وجود راهی آسان برای انصراف از داشتن محتوای مورد استفاده برای آموزش مدل های زبان بزرگ (LLM) مانند ChatGPT وجود دارد. راهی برای انجام آن وجود دارد، اما این کار نه ساده است و نه تضمین شده است.
چگونه هوش مصنوعی از محتوای شما یاد می گیرد
مدلهای زبان بزرگ (LLM) بر روی دادههایی که از منابع متعدد نشات میگیرند آموزش داده میشوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.
برخی از منابع مورد استفاده عبارتند از:
- ویکیپدیا
- سوابق دادگاه های دولتی
- کتاب ها
- ایمیل ها
- وب سایت های خزیده شده
در واقع پورتالها، وبسایتهایی که مجموعه دادهها را ارائه میدهند، وجود دارند که حجم وسیعی از اطلاعات را ارائه میکنند.
یکی از پورتال ها توسط آمازون میزبانی می شود و هزاران مجموعه داده را در آن ارائه می دهد رجیستری داده های باز در AWS.
پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از بسیاری دیگر است که شامل مجموعه داده های بیشتری است.
ویکی پدیا 28 پورتال را فهرست کرده است برای دانلود مجموعه داده ها، از جمله مجموعه داده های Google و پورتال Hugging Face برای یافتن هزاران مجموعه داده.
مجموعه داده های محتوای وب
OpenWebText
مجموعه داده محبوب محتوای وب OpenWebText نام دارد. OpenWebText شامل URL هایی است که در پست های Reddit یافت می شوند که حداقل سه رای موافق داشتند.
ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند. من نتوانستم اطلاعاتی در مورد یک عامل کاربر برای خزنده آنها پیدا کنم، شاید فقط به عنوان Python شناسایی شده باشد، مطمئن نیستم.
با این وجود، ما می دانیم که اگر سایت شما از Reddit با حداقل سه رأی موافق پیوند داده شده باشد، احتمال زیادی وجود دارد که سایت شما در مجموعه داده OpenWebText باشد.
اطلاعات بیشتر در مورد OpenWebText در اینجا.
کرال مشترک
یکی از متداول ترین مجموعه داده های مورد استفاده برای محتوای اینترنتی توسط یک سازمان غیرانتفاعی به نام ارائه می شود کرال مشترک.
دادههای رایج Crawl از رباتی میآید که کل اینترنت را میخزد.
داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود می شود و سپس از سایت های هرزنامه و غیره پاک می شود.
نام ربات Common Crawl، CCBot است.
CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.
با این حال، اگر سایت شما قبلاً خزیده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است.
با این وجود، با مسدود کردن Common Crawl، میتوانید محتوای وبسایت خود را از گنجاندن در مجموعه دادههای جدید که از دادههای Common Crawl جدیدتر منبع میشوند، انصراف دهید.
رشته CCBot User-Agent است:
CCBot/2.0
موارد زیر را به فایل robots.txt خود اضافه کنید تا ربات Common Crawl را مسدود کنید:
User-agent: CCBot Disallow: /
یک راه اضافی برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس های IP آمازون AWS خزیده شود.
CCBot همچنین از دستورالعملهای متا تگ روباتهای nofollow تبعیت میکند.
از این در متا تگ روبات خود استفاده کنید:
<meta name="robots" content="nofollow">
مسدود کردن هوش مصنوعی از استفاده از محتوای شما
موتورهای جستجو به وبسایتها اجازه میدهند از خزیدن انصراف دهند. Common Crawl همچنین اجازه انصراف را می دهد. اما در حال حاضر هیچ راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.
علاوه بر این، دانشمندان تحقیقاتی به نظر نمیرسد راهی برای انصراف از خزیدن به ناشران وبسایت ارائه دهند.
مقاله، آیا استفاده ChatGPT از محتوای وب منصفانه است؟ این موضوع را بررسی می کند که آیا استفاده از داده های وب سایت بدون اجازه یا راهی برای انصراف اخلاقی است یا خیر.
بسیاری از ناشران ممکن است قدردانی کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود.
اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.
تصویر برجسته توسط Shutterstock/ViDI Studio
منبع: https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/