مدلهای زبان بزرگ (LLM) مانند ChatGPT با استفاده از منابع اطلاعاتی متعدد، از جمله محتوای وب، آموزش میدهند. این دادهها اساس خلاصههای آن محتوا را در قالب مقالاتی تشکیل میدهد که بدون ذکر منبع یا سود به کسانی که محتوای اصلی مورد استفاده برای آموزش ChatGPT را منتشر کردهاند، تولید میشوند.
موتورهای جستجو محتوای وب سایت (به نام خزیدن و نمایه سازی) را دانلود می کنند تا پاسخ ها را در قالب پیوندهایی به وب سایت ها ارائه دهند.
ناشران وب سایت می توانند از خزیدن و فهرست بندی محتوای خود توسط موتورهای جستجو از طریق پروتکل حذف روبات ها که معمولاً به آن Robots.txt می گویند، انصراف دهند.
پروتکل محرومیت روبات ها یک استاندارد رسمی اینترنتی نیست، اما استانداردی است که خزنده های وب قانونی از آن تبعیت می کنند.
آیا ناشران وب باید بتوانند از پروتکل Robots.txt برای جلوگیری از استفاده مدل های زبان بزرگ از محتوای وب سایت خود استفاده کنند؟
مدل های زبان بزرگ از محتوای وب سایت بدون ذکر منبع استفاده می کنند
برخی از کسانی که با بازاریابی جستجو درگیر هستند از نحوه استفاده از داده های وب سایت برای آموزش ماشین ها بدون ارائه هیچ چیزی، مانند تأیید یا ترافیک، ناراحت هستند.
هانس پتر بلینهایم (پروفایل لینکدین)، کارشناس ارشد کورماندو نظرات خود را با من در میان گذاشت.
هانس نظر داد:
زمانی که نویسنده ای پس از آموختن چیزی از یک مقاله در سایت شما چیزی می نویسد، اغلب به اثر اصلی شما لینک نمی دهد زیرا اعتبار و احترام حرفه ای را ارائه می دهد.
به آن استناد می گویند.
اما مقیاسی که ChatGPT در آن محتوا را جذب میکند و چیزی را پس نمیدهد، آن را هم از Google و هم از مردم متمایز میکند.
یک وب سایت به طور کلی با یک دستورالعمل تجاری ایجاد می شود.
گوگل به افراد کمک میکند محتوا را پیدا کنند و ترافیکی را ارائه میکنند که برای آن سود متقابل دارد.
اما اینطور نیست که مدل های زبان بزرگ برای استفاده از محتوای شما از شما اجازه بگیرند، آنها فقط از آن به معنایی گسترده تر از آنچه در هنگام انتشار محتوای شما انتظار می رفت استفاده می کنند.
و اگر مدلهای زبان هوش مصنوعی در ازای آن ارزشی را ارائه نمیدهند، چرا ناشران باید به آنها اجازه دهند محتوا را بخزند و استفاده کنند؟
آیا استفاده آنها از محتوای شما با استانداردهای استفاده منصفانه مطابقت دارد؟
وقتی ChatGPT و مدلهای ML/AI خود گوگل بدون اجازه محتوای شما را آموزش میدهند، آنچه را که یاد میگیرد در آنجا میچرخاند و از آن استفاده میکند در حالی که مردم را از وبسایتهای شما دور نگه میدارد – آیا صنعت و همچنین قانونگذاران نباید سعی کنند با اجبار کنترل اینترنت را پس بگیرند. آنها برای انتقال به یک مدل “انتخاب کردن”؟
نگرانی هایی که هانس بیان می کند منطقی است.
با توجه به سرعت پیشرفت فناوری، آیا قوانین مربوط به استفاده منصفانه باید بازنگری و به روز شوند؟
از جان رضوی، وکیل ثبت اختراع پرسیدم (پروفایل لینکدین) دارای گواهینامه حقوق مالکیت معنوی، اگر قوانین کپی رایت اینترنت قدیمی باشد.
جان پاسخ داد:
«بله، بدون شک.
یکی از دلایل اصلی اختلاف در مواردی مانند این، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی تکامل مییابد.
در دهه 1800، این شاید چندان اهمیتی نداشت، زیرا پیشرفتها نسبتاً آهسته بود و بنابراین دستگاههای قانونی کم و بیش برای تطبیق با آنها مجهز بودند.
با این حال، امروزه پیشرفتهای فنآوری بسیار فراتر از توانایی قانون برای ادامهدادن است.
به سادگی پیشرفت های زیادی وجود دارد و قطعات متحرک بسیار زیادی وجود دارد که نمی توان قانون را رعایت کرد.
از آنجایی که در حال حاضر، عمدتاً توسط افرادی که به سختی در زمینههای فناوری مورد بحث ما در اینجا بحث میکنیم، تشکیل و اداره میشود، این قانون مجهز یا ساختار ضعیفی برای همگام شدن با فناوری است… و ما باید در نظر بگیریم که این یک کاملاً نیست. چیز بد.
بنابراین، از یک جهت، بله، قانون مالکیت فکری اگر حتی مدعی است، چه برسد به اینکه امیدوار باشد، همگام با پیشرفتهای فناوری باشد، باید تکامل یابد.
مشکل اصلی ایجاد تعادل بین راههایی است که میتوان از اشکال مختلف فناوری استفاده کرد و در عین حال از دستاندازی آشکار یا سانسور آشکار برای منافع سیاسی پوشانده شده در نیات خیرخواهانه خودداری کرد.
قانون همچنین باید مراقب باشد که علیه استفادههای احتمالی از فناوری بهطور گستردهای قانونی وضع نشود تا هر گونه منافع بالقوهای که ممکن است از آنها حاصل شود خفه شود.
شما به راحتی می توانید با اصلاحیه اول و هر تعداد پرونده حل شده که مشخص می کند مالکیت معنوی چگونه، چرا و تا چه میزان و توسط چه کسی می تواند استفاده شود، مخالفت کنید.
و تلاش برای تجسم هر استفاده قابل تصور از فناوری سالها یا دهه ها قبل از اینکه چارچوب وجود داشته باشد تا آن را قابل دوام یا حتی ممکن کند، یک کار احمقانه بسیار خطرناک خواهد بود.
در شرایطی مانند این، قانون واقعاً نمیتواند به نحوه استفاده از فناوری واکنش نشان دهد… نه لزوماً آنطور که در نظر گرفته شده است.
به احتمال زیاد این به این زودی ها تغییر نخواهد کرد، مگر اینکه به یک فلات فناوری عظیم و غیرمنتظره برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.”
بنابراین به نظر می رسد که موضوع قوانین کپی رایت ملاحظات زیادی در مورد نحوه آموزش هوش مصنوعی دارد، پاسخ ساده ای وجود ندارد.
OpenAI و Microsoft Sued
یک مورد جالب که اخیراً تشکیل شده است، موردی است که در آن OpenAI و مایکروسافت از کد منبع باز برای ایجاد محصول CoPilot خود استفاده کردند.
مشکل استفاده از کد منبع باز این است که مجوز Creative Commons نیاز به ذکر منبع دارد.
با توجه به یک مقاله منتشر شده در یک مجله علمی:
شاکیان ادعا میکنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را برای ایجاد کد تولیدی با استفاده از کدهای قابل دسترس عموم که در ابتدا تحت مجوزهای مختلف به سبک «متن باز» در دسترس قرار گرفته بود، جمعآوری و توزیع کردند که بسیاری از آنها شامل الزامات انتساب هستند.
همانطور که GitHub بیان می کند، «…[t]GitHub Copilot با میلیاردها خط کد، درخواستهای زبان طبیعی را به پیشنهادهای کدنویسی در دهها زبان تبدیل میکند.
ظاهراً محصول حاصل هیچ اعتباری را برای سازندگان اصلی حذف کرده است.»
نویسنده آن مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت که بسیاری مجوزهای Creative Commons منبع باز را “رایگان برای همه” می دانند.
برخی نیز ممکن است این عبارت را در نظر بگیرند رایگان برای همه یک توصیف منصفانه از مجموعه دادههای متشکل از محتوای اینترنتی خراشیده شده و برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده میشود.
پیشینه LLM ها و مجموعه داده ها
مدل های زبان بزرگ بر روی مجموعه داده های متعددی از محتوا آموزش می بینند. مجموعه دادهها میتوانند شامل ایمیلها، کتابها، دادههای دولتی، مقالات ویکیپدیا و حتی مجموعه دادههای ایجاد شده از وبسایتهای پیوند شده از پستهایی در Reddit باشند که حداقل سه رأی موافق دارند.
بسیاری از مجموعه داده های مرتبط با محتوای اینترنت منشأ خود را در خزیدن ایجاد شده توسط یک سازمان غیرانتفاعی به نام کرال مشترک.
مجموعه داده آنها، مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.
مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن ایجاد می شود.
به عنوان مثال، GPT-3 از نسخه فیلتر شده Common Crawl (مدل های زبان یادگیرندگان کمی هستند PDF).
به این ترتیب محققان GPT-3 از داده های وب سایت موجود در مجموعه داده Common Crawl استفاده کردند:
«مجموعههای داده برای مدلهای زبان به سرعت گسترش یافتهاند و به مجموعه دادههای Common Crawl که تقریباً یک تریلیون کلمه را تشکیل میدهند، به اوج خود رسیدهاند.
این اندازه مجموعه داده برای آموزش بزرگترین مدلهای ما بدون اینکه روی یک دنباله دو بار بهروزرسانی شود، کافی است.
با این حال، متوجه شدهایم که نسخههای فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه دادههای مدیریتشدهتر کیفیت پایینتری دارند.
بنابراین، ما 3 گام برای بهبود کیفیت متوسط مجموعه داده های خود برداشتیم:
(1) نسخه ای از CommonCrawl را بر اساس شباهت به طیفی از مجموعه های مرجع با کیفیت بالا دانلود و فیلتر کردیم،
(2) برای جلوگیری از افزونگی و حفظ یکپارچگی مجموعه اعتبار سنجی نگهداشته شده خود به عنوان معیار دقیقی از برازش، کپیسازی فازی را در سطح سند، در داخل و بین مجموعههای داده انجام دادیم، و
(3) ما همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعههای مرجع با کیفیت بالا را به ترکیب آموزشی اضافه کردیم.
مجموعه داده های C4 گوگل (Colossal, Cleaned Crawl Corpus) که برای ایجاد تبدیل کننده انتقال متن به متن (T5) استفاده شد، ریشه در مجموعه داده های Common Crawl نیز دارد.
مقاله تحقیقاتی آنها (کاوش در محدودیت های یادگیری انتقال با یک تبدیل متن به متن یکپارچه PDF) توضیح می دهد:
“قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، ما موضوعات زمینه لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورماتور و وظایف پایین دستی که بر روی آنها ارزیابی می کنیم.
ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی بهعنوان یک کار متن به نوشتار معرفی میکنیم و «Colossal Clean Crawled Corpus» (C4)، مجموعه دادههای مبتنی بر خزیدن مشترک را که به عنوان منبع دادههای متنی بدون برچسب ایجاد کردهایم، توصیف میکنیم.
ما به مدل و چارچوب خود به عنوان “تبدیل متن به متن” (T5) اشاره می کنیم.
گوگل مقاله ای را در وبلاگ هوش مصنوعی خود منتشر کرد این بیشتر توضیح میدهد که چگونه دادههای Common Crawl (که حاوی محتوای خراششده از اینترنت است) برای ایجاد C4 استفاده شد.
آنها نوشتند:
یک عنصر مهم برای یادگیری انتقال، مجموعه داده بدون برچسبی است که برای پیشآموزش استفاده میشود.
برای اندازهگیری دقیق تأثیر مقیاسپذیری میزان پیشآموزش، به مجموعهای نیاز دارد که نه تنها با کیفیت و متنوع باشد، بلکه گسترده باشد.
مجموعه دادههای پیشآموزشی موجود، هر سه این معیارها را برآورده نمیکنند – برای مثال، متن ویکیپدیا با کیفیت بالا، اما سبک یکنواخت و برای اهداف ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند، اما نسبتاً کیفیت پایین.
برای برآورده کردن این الزامات، ما Corpus Clean Crawled Colossal (C4) را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکیپدیا است.
فرآیند تمیز کردن ما شامل کپی برداری، دور انداختن جملات ناقص و حذف محتوای توهین آمیز یا پر سر و صدا بود.
این فیلتر منجر به نتایج بهتر در کارهای پایین دستی میشود، در حالی که اندازه اضافی باعث میشود که اندازه مدل بدون نیاز به بیش از حد در طول آموزش افزایش یابد.
گوگل، OpenAI، حتی داده های باز اوراکل از محتوای اینترنتی، محتوای شما، برای ایجاد مجموعه داده هایی استفاده می کنند که سپس برای ایجاد برنامه های هوش مصنوعی مانند ChatGPT استفاده می شود.
Crawl مشترک را می توان مسدود کرد
می توان Common Crawl را مسدود کرد و متعاقباً از همه مجموعه داده هایی که بر اساس Common Crawl هستند انصراف داد.
اما اگر سایت قبلاً خزیده شده باشد، داده های وب سایت از قبل در مجموعه داده ها هستند. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و هر یک از مجموعه داده های مشتق دیگر مانند C4 و .
استفاده از پروتکل Robots.txt فقط خزیدنهای آینده توسط Common Crawl را مسدود میکند و مانع از استفاده محققان از محتوای موجود در مجموعه داده نمیشود.
نحوه مسدود کردن Crawl مشترک از داده های خود
مسدود کردن Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیتهای مورد بحث در بالا، امکانپذیر است.
ربات Common Crawl، CCBot نامیده می شود.
با استفاده از بهروزترین رشته CCBot User-Agent شناسایی میشود: CCBot/2.0
مسدود کردن CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.
در اینجا کد مسدود کردن CCBot با Robots.txt آمده است.
User-agent: CCBot Disallow: /
CCBot از آدرس های IP آمازون AWS می خزد.
CCBot همچنین از متا تگ nofollow Robots پیروی می کند:
<meta name="robots" content="nofollow">
اگر Crawl معمولی را مسدود نکنید، چه؟
محتوای وب را می توان بدون اجازه دانلود کرد، که مرورگرها چگونه کار می کنند، آنها محتوا را دانلود می کنند.
Google یا هر شخص دیگری برای دانلود و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.
ناشران وب سایت گزینه های محدودی دارند
به نظر نمیرسد که رعایت اخلاقی بودن آموزش هوش مصنوعی بر روی محتوای وب، بخشی از هیچ مکالمهای در مورد اخلاقیات نحوه توسعه فناوری هوش مصنوعی نباشد.
به نظر می رسد مسلم است که محتوای اینترنتی را می توان دانلود، خلاصه کرد و به محصولی به نام ChatGPT تبدیل کرد.
آیا این منصفانه به نظر می رسد؟ پاسخ پیچیده است.
تصویر برجسته توسط Shutterstock/Krakenimages.com
منبع: https://www.searchenginejournal.com/is-chatgpt-use-of-web-content-fair/477558/