آیا ChatGPT، Bard و Dolly 2.0 بر روی محتوای دزدان دریایی آموزش دیده اند؟
انتشار: فروردین 31، 1402
بروزرسانی: 27 خرداد 1404

آیا ChatGPT، Bard و Dolly 2.0 بر روی محتوای دزدان دریایی آموزش دیده اند؟


مدل های زبان بزرگ (LLM) مانند ChatGPT، Bard و حتی نسخه های منبع باز بر روی محتوای عمومی اینترنت آموزش داده می شوند. اما نشانه هایی نیز وجود دارد مبنی بر اینکه هوش مصنوعی های محبوب ممکن است بر روی مجموعه داده های ایجاد شده از کتاب های دزدی دریایی آموزش ببینند.

آیا Dolly 2.0 بر روی محتوای دزدان دریایی آموزش دیده است؟

Dolly 2.0 یک هوش مصنوعی منبع باز است که به تازگی منتشر شده است. هدف دالی دموکراتیک کردن هوش مصنوعی با در دسترس قرار دادن آن برای همه کسانی است که می خواهند با آن چیزی بسازند، حتی محصولات تجاری.

اما یک مشکل حفظ حریم خصوصی با تمرکز فناوری هوش مصنوعی در دستان سه شرکت بزرگ و اعتماد به آنها با داده های خصوصی وجود دارد.

با توجه به انتخاب، بسیاری از کسب و کارها ترجیح می دهند داده های خصوصی را در اختیار اشخاص ثالثی مانند Google، OpenAI و Meta قرار ندهند.

حتی موزیلا، شرکت مرورگر و برنامه منبع باز، در حال سرمایه گذاری بر روی رشد اکوسیستم AI منبع باز است.

هدف پشت AI منبع باز بدون شک خوب است.

اما در مورد داده هایی که برای آموزش این مدل های زبانی بزرگ استفاده می شود، مشکلی وجود دارد، زیرا برخی از آن ها شامل محتوای غیرقانونی هستند.

کلون منبع باز ChatGPT، Dolly 2.0، توسط شرکتی به نام DataBricks ایجاد شده است (درباره Dolly 2.0 بیشتر بدانید)

Dolly 2.0 بر اساس یک مدل زبان بزرگ منبع باز (LLM) بنا شده است پیتیا (که توسط یک گروه منبع باز به نام، EleutherAI).

EleutherAI هشت نسخه از LLM ها با اندازه های مختلف را در خانواده Pythia LLM ایجاد کرد.

یکی از نسخه های Pythia، یک نسخه 12 میلیارد پارامتری، نسخه ای است که توسط DataBricks برای ایجاد Dolly 2.0 و همچنین با مجموعه داده ای که DataBricks خود ایجاد کرده است (مجموعه مجموعه ای از پرسش ها و پاسخ هایی است که برای آموزش هوش مصنوعی Dolly 2.0 استفاده شده است. دستورالعمل ها)

نکته در مورد EleutherAI Pythia LLM این است که با استفاده از مجموعه داده ای به نام Pile آموزش داده شده است.

مجموعه داده Pile از مجموعه های متعددی از متون زبان انگلیسی تشکیل شده است که یکی از آنها مجموعه داده ای به نام Books3 است. مجموعه داده Books3 شامل متن کتاب هایی است که دزدی دریایی شده و در یک سایت دزدان دریایی به نام bibliotik میزبانی شده اند.

این چیزی است که DataBricks اعلامیه می گوید:

Dolly 2.0 یک مدل زبان پارامتری 12B است که بر اساس خانواده مدل EleutherAI pythia است و منحصراً بر اساس یک دستورالعمل جدید و باکیفیت تولید شده توسط انسان به دنبال مجموعه داده ها تنظیم شده است که در بین کارکنان Databricks جمع سپاری شده است.

Pythia LLM با مجموعه داده Pile ایجاد شد

را مقاله تحقیقاتی Pythia توسط EleutherAI که اشاره می کند که Pythia با استفاده از مجموعه داده Pile آموزش داده شده است.

این یک نقل قول از مقاله تحقیقاتی Pythia است:

ما 8 سایز مدل را هر کدام در Pile و Pile بعد از کپی برداری آموزش می دهیم و 2 نسخه از مجموعه را ارائه می دهیم که می توان آنها را با هم مقایسه کرد.

Deduplication به این معنی است که آنها داده های اضافی را حذف کردند، این فرآیندی برای ایجاد یک مجموعه داده تمیزتر است.

پس در Pile چیست؟ یک مقاله تحقیقاتی Pile وجود دارد که توضیح می دهد که چه چیزی در آن مجموعه داده وجود دارد.

در اینجا یک نقل قول از مقاله تحقیقاتی برای Pile جایی که می گوید آنها از مجموعه داده Books3 استفاده می کنند:

"علاوه بر این، ما چندین مجموعه داده با کیفیت بالا را ترکیب می کنیم: Books3 (پرس، 2020)…”

پیوندهای مقاله تحقیقاتی مجموعه داده Pile به یک توییت توسط Shawn Presser، آنچه در مجموعه داده Books3 وجود دارد می گوید:

فرض کنید می خواهید یک مدل GPT در سطح جهانی، درست مانند OpenAI، آموزش دهید. چگونه؟ شما هیچ داده ای ندارید

حالا شما انجام دهید. حالا همه انجام می دهند.

ارائه «کتاب 3»، با نام مستعار «همه کتاب شناسی»

– 196640 کتاب
– به صورت txt ساده
– قابل اعتماد، دانلود مستقیم، برای سال ها:

بنابراین ... نقل قول بالا به وضوح بیان می کند که مجموعه داده Pile برای آموزش Pythia LLM استفاده شده است که به نوبه خود به عنوان پایه ای برای Dolly 2.0 AI منبع باز عمل می کند.

آیا Google Bard در زمینه محتوای دزدان دریایی آموزش دیده است؟

واشنگتن پست اخیراً مروری بر مجموعه داده عظیم Clean Crawled Corpus Google (همچنین به عنوان C4 شناخته می شود) منتشر کرده است. مقاله پژوهشی PDF در اینجا) که در آن آنها متوجه شدند که مجموعه داده های Google نیز حاوی محتوای دزدی دریایی است.

مجموعه داده C4 مهم است زیرا یکی از مجموعه داده هایی است که برای آموزش LaMDA LLM Google استفاده می شود، نسخه ای از آن چیزی است که Bard بر اساس آن ساخته شده است.

مجموعه داده واقعی Infiniset نام دارد و مجموعه داده C4 حدود 12.5٪ از کل متن مورد استفاده برای آموزش LaMDA را تشکیل می دهد. استناد به آن حقایق در مورد بارد را می توان در اینجا یافت.

مقاله خبری واشنگتن پست منتشر شد:

سه سایت بزرگ patents.google.com شماره 1 بودند که حاوی متنی از پتنت های صادر شده در سراسر جهان است. wikipedia.org شماره 2، دایره المعارف آنلاین رایگان. و scribd.com شماره 3، یک کتابخانه دیجیتالی فقط با اشتراک.

همچنین در بالای لیست: b-ok.org شماره 190، بازار بدنام کتاب های الکترونیکی دزدی که از آن زمان توسط وزارت دادگستری ایالات متحده مصادره شده است.

حداقل 27 سایت دیگر که توسط دولت ایالات متحده به عنوان بازارهای دزدی دریایی و تقلبی شناسایی شده بودند در مجموعه داده ها حضور داشتند.

نقص در تحلیل واشنگتن پست این است که آنها به نسخه ای از C4 نگاه می کنند، اما نه لزوماً نسخه ای که LaMDA روی آن آموزش دیده است.

مقاله تحقیقاتی مجموعه داده C4 در ژوئیه 2020 منتشر شد. ظرف یک سال پس از انتشار مقاله تحقیقاتی دیگری منتشر شد که نشان داد مجموعه داده C4 علیه افراد رنگین پوست و جامعه LGBT تعصب دارد.

مقاله پژوهشی با عنوان مستندسازی مجموعه های متنی وب بزرگ: مطالعه موردی در مجموعه عظیم خزنده پاک (مقاله پژوهشی PDF در اینجا).

توسط محققان کشف شد که مجموعه داده حاوی احساسات منفی علیه افرادی با هویت عرب بود و اسنادی را که با سیاه پوستان، اسپانیایی ها و اسنادی که به گرایش جنسی اشاره می کردند، حذف کردند.

محققان نوشتند:

بررسی ما از داده های حذف شده نشان می دهد که اسناد مرتبط با نویسندگان سیاه پوست و اسپانیایی تبار و اسنادی که تمایلات جنسی را ذکر می کنند، به طور قابل توجهی با فیلتر کردن فهرست بلاک C4.EN کنار گذاشته می شوند و بسیاری از اسناد حذف شده حاوی محتوای غیر توهین آمیز یا غیرجنسی هستند. به عنوان مثال، بحث های قانونی در مورد ازدواج همجنس گرایان، مطالب علمی و پزشکی).

این محرومیت نوعی آسیب تخصیصی است ... و نابرابری نژادی موجود (زبان محور) و همچنین انگ زدن به هویت های LGBTQ+ را تشدید می کند.

علاوه بر این، پیامد مستقیم حذف چنین متنی از مجموعه داده های مورد استفاده برای آموزش مدل های زبانی این است که این مدل ها زمانی که بر روی متن افراد دارای هویت اقلیت اعمال می شوند ضعیف عمل می کنند و به طور موثر آنها را از مزایای فناوری مانند ترجمه ماشینی یا جستجو حذف می کند. ”

نتیجه گیری شد که فیلتر کردن «کلمات بد» و سایر تلاش ها برای «پاک کردن» مجموعه داده ها بیش از حد ساده است و رویکردی ظریف تر را تضمین می کند.

این نتیجه گیری ها مهم هستند زیرا نشان می دهند که به خوبی شناخته شده بود که مجموعه داده C4 ناقص است.

LaMDA در سال 2022 (دو سال پس از مجموعه داده های C4) و مرتبط ساخته شد مقاله تحقیقاتی LaMDA می گوید که با C4 آموزش داده شده است.

اما این فقط یک مقاله تحقیقاتی است. آنچه در زندگی واقعی روی یک مدل تولید اتفاق می افتد، می تواند بسیار متفاوت از آنچه در مقاله تحقیقاتی است، باشد.

هنگام بحث در مورد یک مقاله تحقیقاتی، مهم است که به یاد داشته باشید که گوگل به طور مداوم می گوید آنچه در یک پتنت یا مقاله تحقیقاتی است لزوماً آن چیزی نیست که در الگوریتم گوگل استفاده می شود.

گوگل به احتمال زیاد از این نتایج آگاه است و غیرمنطقی نیست که فرض کنیم گوگل نسخه جدیدی از C4 را برای مدل تولیدی توسعه داده است، نه فقط برای رفع نابرابری در مجموعه داده، بلکه برای به روز کردن آن.

گوگل نمی گوید آنچه در الگوریتم آنها وجود دارد، یک جعبه سیاه است. بنابراین نمی توانیم با قطعیت بگوییم که فناوری زیربنای Google Bard بر روی محتوای غیرقانونی آموزش داده شده است.

برای روشن تر شدن موضوع، Bard در سال 2023 با استفاده از نسخه سبک وزن LaMDA منتشر شد. گوگل تعریف نکرده است که نسخه سبک وزن LaMDA چیست.

بنابراین هیچ راهی برای دانستن اینکه چه محتوایی در مجموعه داده های مورد استفاده برای آموزش نسخه سبک وزن LaMDA وجود دارد که به Bard قدرت می دهد، وجود ندارد.

فقط می توان حدس زد که از چه محتوایی برای آموزش بارد استفاده شده است.

آیا GPT-4 از محتوای دزدان دریایی استفاده می کند؟

OpenAI در مورد مجموعه داده های مورد استفاده برای آموزش GPT-4 بسیار خصوصی است. آخرین باری که OpenAI از مجموعه داده ها نام برد در مقاله پژوهشی PDF برای GPT-3 در سال 2020 منتشر شد و حتی در آنجا نیز در مورد آنچه در مجموعه داده ها وجود دارد تا حدودی مبهم و مبهم است.

وب سایت TowardsDataScience در سال 2021 مروری جالب از اطلاعات موجود منتشر کرد که در آن به این نتیجه رسیدند که در واقع از برخی محتوای غیرقانونی برای آموزش نسخه های اولیه GPT استفاده شده است.

آنها نوشتن:

ما شواهدی پیدا می کنیم که نشان می دهد BookCorpus مستقیماً محدودیت های کپی رایت را برای صدها کتاب که نباید از طریق مجموعه داده رایگان توزیع می شدند، نقض کرده است.

به عنوان مثال، بیش از 200 کتاب در BookCorpus به صراحت بیان می کنند که «نمی توان آن ها را برای مقاصد تجاری یا غیرتجاری تکثیر، کپی و توزیع کرد».

نتیجه گیری اینکه آیا GPT-4 از محتوای غیرقانونی استفاده می کند دشوار است.

آیا استفاده از محتوای غیرقانونی مشکلی دارد؟

ممکن است تصور شود که استفاده از محتوای غیرقانونی برای آموزش یک مدل زبان بزرگ و سود بردن از استفاده از آن محتوا، غیراخلاقی است.

اما قوانین واقعاً ممکن است این نوع استفاده را مجاز کنند.

من از Kenton J. Hutcherson، وکیل اینترنتی در قانون هاچرسون نظر او در مورد استفاده از محتوای غیرقانونی در زمینه آموزش مدل های زبان بزرگ چیست.

به طور خاص، من پرسیدم اگر کسی از Dolly 2.0 استفاده می کند، که ممکن است تا حدی با کتاب های دزدی ساخته شده باشد، آیا نهادهای تجاری که برنامه های کاربردی با Dolly 2.0 ایجاد می کنند در معرض ادعاهای نقض حق نسخه برداری قرار می گیرند؟

کنتون پاسخ داد:

ادعای نقض حق چاپ از سوی دارندگان حق چاپ کتاب های دزدی به احتمال زیاد به دلیل استفاده منصفانه با شکست مواجه خواهد شد.

استفاده منصفانه از استفاده های متحول کننده آثار دارای حق چاپ محافظت می کند.

در اینجا، کتاب های دزدی به عنوان کتابی برای خواندن افراد مورد استفاده قرار نمی گیرند، بلکه به عنوان ورودی مجموعه داده های آموزشی هوش مصنوعی استفاده می شوند.

مثال مشابهی با استفاده از ریز عکسها در صفحات نتایج جستجو وارد بازی شد. تصاویر کوچک برای جایگزینی صفحات وبی که پیش نمایششان را می کنند، وجود ندارند. آنها عملکرد کاملاً متفاوتی را ارائه می دهند - آنها صفحه را پیش نمایش می کنند.

این استفاده متحول کننده است.»

کارن جی. برنشتاین از برنشتاین IP نظر مشابهی ارائه کرد.

«آیا استفاده از محتوای غیرقانونی استفاده منصفانه است؟ استفاده منصفانه یک دفاع رایج در این موارد است.

مفهوم دفاع از استفاده منصفانه فقط تحت قانون کپی رایت ایالات متحده وجود دارد.

استفاده منصفانه تحت یک تحلیل چند عاملی که دیوان عالی در یک مورد برجسته در سال 1994 بیان کرد، تحلیل می شود.

در این سناریو، این سؤال وجود دارد که چه مقدار از محتوای غیرقانونی از کتاب ها برداشته شده است و چه کاری با محتوا انجام شده است (آیا «تحول کننده» بوده است)، و اینکه آیا چنین محتوایی بازار را از پدیدآورنده حق چاپ می گیرد یا خیر.

فناوری هوش مصنوعی با سرعتی بی سابقه در حال پیشرفت است و ظاهراً هفته به هفته در حال پیشرفت است. شاید در بازتابی از رقابت و درآمدهای بادآورده ای که از موفقیت به دست می آید، گوگل و OpenAI در مورد نحوه آموزش مدل های هوش مصنوعی خود به طور فزاینده ای خصوصی می شوند.

آیا آنها باید در مورد چنین اطلاعاتی بازتر باشند؟ آیا می توان به آنها اعتماد کرد که مجموعه داده های آنها منصفانه و غیر مغرضانه است؟

استفاده از محتوای غیرقانونی برای ایجاد این مدل های هوش مصنوعی ممکن است به عنوان استفاده منصفانه از نظر قانونی محافظت شود، اما فقط به این دلیل که فرد می تواند به این معنی است که باید این کار را انجام دهد؟

تصویر برجسته توسط Shutterstock/Roman Samborskyi



منبع: https://www.searchenginejournal.com/are-chatgpt-bard-and-dolly-2-0-trained-on-pirated-content/485089/