آیا استفاده ChatGPT از محتوای وب منصفانه است؟


مدل‌های زبان بزرگ (LLM) مانند ChatGPT با استفاده از منابع اطلاعاتی متعدد، از جمله محتوای وب، آموزش می‌دهند. این داده‌ها اساس خلاصه‌های آن محتوا را در قالب مقالاتی تشکیل می‌دهد که بدون ذکر منبع یا سود به کسانی که محتوای اصلی مورد استفاده برای آموزش ChatGPT را منتشر کرده‌اند، تولید می‌شوند.

موتورهای جستجو محتوای وب سایت (به نام خزیدن و نمایه سازی) را دانلود می کنند تا پاسخ ها را در قالب پیوندهایی به وب سایت ها ارائه دهند.

ناشران وب سایت می توانند از خزیدن و فهرست بندی محتوای خود توسط موتورهای جستجو از طریق پروتکل حذف روبات ها که معمولاً به آن Robots.txt می گویند، انصراف دهند.

پروتکل محرومیت روبات ها یک استاندارد رسمی اینترنتی نیست، اما استانداردی است که خزنده های وب قانونی از آن تبعیت می کنند.

آیا ناشران وب باید بتوانند از پروتکل Robots.txt برای جلوگیری از استفاده مدل های زبان بزرگ از محتوای وب سایت خود استفاده کنند؟

مدل های زبان بزرگ از محتوای وب سایت بدون ذکر منبع استفاده می کنند

برخی از کسانی که با بازاریابی جستجو درگیر هستند از نحوه استفاده از داده های وب سایت برای آموزش ماشین ها بدون ارائه هیچ چیزی، مانند تأیید یا ترافیک، ناراحت هستند.

هانس پتر بلینهایم (پروفایل لینکدین)، کارشناس ارشد کورماندو نظرات خود را با من در میان گذاشت.

هانس نظر داد:

زمانی که نویسنده ای پس از آموختن چیزی از یک مقاله در سایت شما چیزی می نویسد، اغلب به اثر اصلی شما لینک نمی دهد زیرا اعتبار و احترام حرفه ای را ارائه می دهد.

به آن استناد می گویند.

اما مقیاسی که ChatGPT در آن محتوا را جذب می‌کند و چیزی را پس نمی‌دهد، آن را هم از Google و هم از مردم متمایز می‌کند.

یک وب سایت به طور کلی با یک دستورالعمل تجاری ایجاد می شود.

گوگل به افراد کمک می‌کند محتوا را پیدا کنند و ترافیکی را ارائه می‌کنند که برای آن سود متقابل دارد.

اما اینطور نیست که مدل های زبان بزرگ برای استفاده از محتوای شما از شما اجازه بگیرند، آنها فقط از آن به معنایی گسترده تر از آنچه در هنگام انتشار محتوای شما انتظار می رفت استفاده می کنند.

و اگر مدل‌های زبان هوش مصنوعی در ازای آن ارزشی را ارائه نمی‌دهند، چرا ناشران باید به آنها اجازه دهند محتوا را بخزند و استفاده کنند؟

آیا استفاده آنها از محتوای شما با استانداردهای استفاده منصفانه مطابقت دارد؟

وقتی ChatGPT و مدل‌های ML/AI خود گوگل بدون اجازه محتوای شما را آموزش می‌دهند، آنچه را که یاد می‌گیرد در آنجا می‌چرخاند و از آن استفاده می‌کند در حالی که مردم را از وب‌سایت‌های شما دور نگه می‌دارد – آیا صنعت و همچنین قانون‌گذاران نباید سعی کنند با اجبار کنترل اینترنت را پس بگیرند. آنها برای انتقال به یک مدل “انتخاب کردن”؟

نگرانی هایی که هانس بیان می کند منطقی است.

با توجه به سرعت پیشرفت فناوری، آیا قوانین مربوط به استفاده منصفانه باید بازنگری و به روز شوند؟

از جان رضوی، وکیل ثبت اختراع پرسیدم (پروفایل لینکدین) دارای گواهینامه حقوق مالکیت معنوی، اگر قوانین کپی رایت اینترنت قدیمی باشد.

جان پاسخ داد:

«بله، بدون شک.

یکی از دلایل اصلی اختلاف در مواردی مانند این، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی تکامل می‌یابد.

در دهه 1800، این شاید چندان اهمیتی نداشت، زیرا پیشرفت‌ها نسبتاً آهسته بود و بنابراین دستگاه‌های قانونی کم و بیش برای تطبیق با آن‌ها مجهز بودند.

با این حال، امروزه پیشرفت‌های فن‌آوری بسیار فراتر از توانایی قانون برای ادامه‌دادن است.

به سادگی پیشرفت های زیادی وجود دارد و قطعات متحرک بسیار زیادی وجود دارد که نمی توان قانون را رعایت کرد.

از آنجایی که در حال حاضر، عمدتاً توسط افرادی که به سختی در زمینه‌های فناوری مورد بحث ما در اینجا بحث می‌کنیم، تشکیل و اداره می‌شود، این قانون مجهز یا ساختار ضعیفی برای همگام شدن با فناوری است… و ما باید در نظر بگیریم که این یک کاملاً نیست. چیز بد.

بنابراین، از یک جهت، بله، قانون مالکیت فکری اگر حتی مدعی است، چه برسد به اینکه امیدوار باشد، همگام با پیشرفت‌های فناوری باشد، باید تکامل یابد.

مشکل اصلی ایجاد تعادل بین راه‌هایی است که می‌توان از اشکال مختلف فناوری استفاده کرد و در عین حال از دست‌اندازی آشکار یا سانسور آشکار برای منافع سیاسی پوشانده شده در نیات خیرخواهانه خودداری کرد.

قانون همچنین باید مراقب باشد که علیه استفاده‌های احتمالی از فناوری به‌طور گسترده‌ای قانونی وضع نشود تا هر گونه منافع بالقوه‌ای که ممکن است از آنها حاصل شود خفه شود.

شما به راحتی می توانید با اصلاحیه اول و هر تعداد پرونده حل شده که مشخص می کند مالکیت معنوی چگونه، چرا و تا چه میزان و توسط چه کسی می تواند استفاده شود، مخالفت کنید.

و تلاش برای تجسم هر استفاده قابل تصور از فناوری سالها یا دهه ها قبل از اینکه چارچوب وجود داشته باشد تا آن را قابل دوام یا حتی ممکن کند، یک کار احمقانه بسیار خطرناک خواهد بود.

در شرایطی مانند این، قانون واقعاً نمی‌تواند به نحوه استفاده از فناوری واکنش نشان دهد… نه لزوماً آنطور که در نظر گرفته شده است.

به احتمال زیاد این به این زودی ها تغییر نخواهد کرد، مگر اینکه به یک فلات فناوری عظیم و غیرمنتظره برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.”

بنابراین به نظر می رسد که موضوع قوانین کپی رایت ملاحظات زیادی در مورد نحوه آموزش هوش مصنوعی دارد، پاسخ ساده ای وجود ندارد.

OpenAI و Microsoft Sued

یک مورد جالب که اخیراً تشکیل شده است، موردی است که در آن OpenAI و مایکروسافت از کد منبع باز برای ایجاد محصول CoPilot خود استفاده کردند.

مشکل استفاده از کد منبع باز این است که مجوز Creative Commons نیاز به ذکر منبع دارد.

با توجه به یک مقاله منتشر شده در یک مجله علمی:

شاکیان ادعا می‌کنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را برای ایجاد کد تولیدی با استفاده از کدهای قابل دسترس عموم که در ابتدا تحت مجوزهای مختلف به سبک «متن باز» در دسترس قرار گرفته بود، جمع‌آوری و توزیع کردند که بسیاری از آنها شامل الزامات انتساب هستند.

همانطور که GitHub بیان می کند، «…[t]GitHub Copilot با میلیاردها خط کد، درخواست‌های زبان طبیعی را به پیشنهادهای کدنویسی در ده‌ها زبان تبدیل می‌کند.

ظاهراً محصول حاصل هیچ اعتباری را برای سازندگان اصلی حذف کرده است.»

نویسنده آن مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت که بسیاری مجوزهای Creative Commons منبع باز را “رایگان برای همه” می دانند.

برخی نیز ممکن است این عبارت را در نظر بگیرند رایگان برای همه یک توصیف منصفانه از مجموعه داده‌های متشکل از محتوای اینترنتی خراشیده شده و برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده می‌شود.

پیشینه LLM ها و مجموعه داده ها

مدل های زبان بزرگ بر روی مجموعه داده های متعددی از محتوا آموزش می بینند. مجموعه داده‌ها می‌توانند شامل ایمیل‌ها، کتاب‌ها، داده‌های دولتی، مقالات ویکی‌پدیا و حتی مجموعه داده‌های ایجاد شده از وب‌سایت‌های پیوند شده از پست‌هایی در Reddit باشند که حداقل سه رأی موافق دارند.

بسیاری از مجموعه داده های مرتبط با محتوای اینترنت منشأ خود را در خزیدن ایجاد شده توسط یک سازمان غیرانتفاعی به نام کرال مشترک.

مجموعه داده آنها، مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.

مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن ایجاد می شود.

به عنوان مثال، GPT-3 از نسخه فیلتر شده Common Crawl (مدل های زبان یادگیرندگان کمی هستند PDF).

به این ترتیب محققان GPT-3 از داده های وب سایت موجود در مجموعه داده Common Crawl استفاده کردند:

«مجموعه‌های داده برای مدل‌های زبان به سرعت گسترش یافته‌اند و به مجموعه داده‌های Common Crawl که تقریباً یک تریلیون کلمه را تشکیل می‌دهند، به اوج خود رسیده‌اند.

این اندازه مجموعه داده برای آموزش بزرگ‌ترین مدل‌های ما بدون اینکه روی یک دنباله دو بار به‌روزرسانی شود، کافی است.

با این حال، متوجه شده‌ایم که نسخه‌های فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه داده‌های مدیریت‌شده‌تر کیفیت پایین‌تری دارند.

بنابراین، ما 3 گام برای بهبود کیفیت متوسط ​​مجموعه داده های خود برداشتیم:

(1) نسخه ای از CommonCrawl را بر اساس شباهت به طیفی از مجموعه های مرجع با کیفیت بالا دانلود و فیلتر کردیم،

(2) برای جلوگیری از افزونگی و حفظ یکپارچگی مجموعه اعتبار سنجی نگهداشته شده خود به عنوان معیار دقیقی از برازش، کپی‌سازی فازی را در سطح سند، در داخل و بین مجموعه‌های داده انجام دادیم، و

(3) ما همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعه‌های مرجع با کیفیت بالا را به ترکیب آموزشی اضافه کردیم.

مجموعه داده های C4 گوگل (Colossal, Cleaned Crawl Corpus) که برای ایجاد تبدیل کننده انتقال متن به متن (T5) استفاده شد، ریشه در مجموعه داده های Common Crawl نیز دارد.

مقاله تحقیقاتی آنها (کاوش در محدودیت های یادگیری انتقال با یک تبدیل متن به متن یکپارچه PDF) توضیح می دهد:

“قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، ما موضوعات زمینه لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورماتور و وظایف پایین دستی که بر روی آنها ارزیابی می کنیم.

ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی به‌عنوان یک کار متن به نوشتار معرفی می‌کنیم و «Colossal Clean Crawled Corpus» (C4)، مجموعه داده‌های مبتنی بر خزیدن مشترک را که به عنوان منبع داده‌های متنی بدون برچسب ایجاد کرده‌ایم، توصیف می‌کنیم.

ما به مدل و چارچوب خود به عنوان “تبدیل متن به متن” (T5) اشاره می کنیم.

گوگل مقاله ای را در وبلاگ هوش مصنوعی خود منتشر کرد این بیشتر توضیح می‌دهد که چگونه داده‌های Common Crawl (که حاوی محتوای خراش‌شده از اینترنت است) برای ایجاد C4 استفاده شد.

آنها نوشتند:

یک عنصر مهم برای یادگیری انتقال، مجموعه داده بدون برچسبی است که برای پیش‌آموزش استفاده می‌شود.

برای اندازه‌گیری دقیق تأثیر مقیاس‌پذیری میزان پیش‌آموزش، به مجموعه‌ای نیاز دارد که نه تنها با کیفیت و متنوع باشد، بلکه گسترده باشد.

مجموعه داده‌های پیش‌آموزشی موجود، هر سه این معیارها را برآورده نمی‌کنند – برای مثال، متن ویکی‌پدیا با کیفیت بالا، اما سبک یکنواخت و برای اهداف ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند، اما نسبتاً کیفیت پایین.

برای برآورده کردن این الزامات، ما Corpus Clean Crawled Colossal (C4) را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکی‌پدیا است.

فرآیند تمیز کردن ما شامل کپی برداری، دور انداختن جملات ناقص و حذف محتوای توهین آمیز یا پر سر و صدا بود.

این فیلتر منجر به نتایج بهتر در کارهای پایین دستی می‌شود، در حالی که اندازه اضافی باعث می‌شود که اندازه مدل بدون نیاز به بیش از حد در طول آموزش افزایش یابد.

گوگل، OpenAI، حتی داده های باز اوراکل از محتوای اینترنتی، محتوای شما، برای ایجاد مجموعه داده هایی استفاده می کنند که سپس برای ایجاد برنامه های هوش مصنوعی مانند ChatGPT استفاده می شود.

Crawl مشترک را می توان مسدود کرد

می توان Common Crawl را مسدود کرد و متعاقباً از همه مجموعه داده هایی که بر اساس Common Crawl هستند انصراف داد.

اما اگر سایت قبلاً خزیده شده باشد، داده های وب سایت از قبل در مجموعه داده ها هستند. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و هر یک از مجموعه داده های مشتق دیگر مانند C4 و .

استفاده از پروتکل Robots.txt فقط خزیدن‌های آینده توسط Common Crawl را مسدود می‌کند و مانع از استفاده محققان از محتوای موجود در مجموعه داده نمی‌شود.

نحوه مسدود کردن Crawl مشترک از داده های خود

مسدود کردن Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیت‌های مورد بحث در بالا، امکان‌پذیر است.

ربات Common Crawl، CCBot نامیده می شود.

با استفاده از به‌روزترین رشته CCBot User-Agent شناسایی می‌شود: CCBot/2.0

مسدود کردن CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.

در اینجا کد مسدود کردن CCBot با Robots.txt آمده است.

User-agent: CCBot
Disallow: /

CCBot از آدرس های IP آمازون AWS می خزد.

CCBot همچنین از متا تگ nofollow Robots پیروی می کند:

<meta name="robots" content="nofollow">

اگر Crawl معمولی را مسدود نکنید، چه؟

محتوای وب را می توان بدون اجازه دانلود کرد، که مرورگرها چگونه کار می کنند، آنها محتوا را دانلود می کنند.

Google یا هر شخص دیگری برای دانلود و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.

ناشران وب سایت گزینه های محدودی دارند

به نظر نمی‌رسد که رعایت اخلاقی بودن آموزش هوش مصنوعی بر روی محتوای وب، بخشی از هیچ مکالمه‌ای در مورد اخلاقیات نحوه توسعه فناوری هوش مصنوعی نباشد.

به نظر می رسد مسلم است که محتوای اینترنتی را می توان دانلود، خلاصه کرد و به محصولی به نام ChatGPT تبدیل کرد.

آیا این منصفانه به نظر می رسد؟ پاسخ پیچیده است.

تصویر برجسته توسط Shutterstock/Krakenimages.com




منبع: https://www.searchenginejournal.com/is-chatgpt-use-of-web-content-fair/477558/