Hugging Face ChatGPT رایگان را منتشر کرد Clone: ​​HuggingChat


Hugging Face، جامعه یادگیری ماشینی و پلتفرم ابزارهای هوش مصنوعی، انتشار HuggingChat، یک شبیه‌سازی متن‌باز ChatGPT را اعلام کرد که هر کسی می‌تواند برای خود استفاده یا دانلود کند.

صورت در آغوش گرفته

Hugging Face یک شرکت و یک جامعه هوش مصنوعی است. این امکان دسترسی به ابزارهای منبع باز رایگان را برای توسعه برنامه های یادگیری ماشینی و هوش مصنوعی فراهم می کند.

یکی از پروژه های اخیر Hugging Face یک مدل زبان بزرگ با 176 میلیارد پارامتر به نام است شکوفه، که برای هر کسی که موافقت می کند مجوز هوش مصنوعی مسئولیت پذیر خود را رعایت کند در دسترس است.

دسترسی به مدل های منبع باز در دسته های مختلف مانند چندوجهی، بینایی، صوتی، پردازش زبان طبیعی و یادگیری تقویتی وجود دارد.

Hugging Face همچنین مجموعه داده ها و کتابخانه های منبع باز را میزبانی می کند و به عنوان راهی برای همکاری تیم ها از جمله یک مخزن مشابه GitHub عمل می کند.

بسیاری از خدمات به صورت رایگان، حرفه ای و سازمانی در دسترس هستند.

HuggingChat

کلون HuggingChat ChatGPT بر اساس مدل Open Assistant Conversational AI ساخته شده است.

Open Assistant خود پروژه ای از شبکه باز هوش مصنوعی غیرانتفاعی در مقیاس بزرگ است (LAION).

LAION یک سازمان غیرانتفاعی جهانی است که به ارائه دسترسی به فناوری پیشرفته به عنوان منبع باز اختصاص دارد.

آنها می نویسند:

“باور ما
ما معتقدیم که تحقیقات یادگیری ماشین و کاربردهای آن پتانسیل تأثیرات مثبت عظیمی بر دنیای ما دارند و بنابراین باید دموکراتیزه شوند.

اهداف اصلی ما
انتشار مجموعه داده های باز، کد و مدل های یادگیری ماشینی.

می خواهیم اصول تحقیق و مدیریت داده در مقیاس بزرگ ML را آموزش دهیم.

با ساخت مدل‌ها، مجموعه داده‌ها و کدهای قابل استفاده مجدد بدون نیاز به آموزش از ابتدا، ما می‌خواهیم استفاده کارآمد از انرژی و منابع محاسباتی را برای رویارویی با چالش‌های تغییرات آب و هوایی ترویج دهیم.»

صفحه GitHub برای مدل چت Open Assistant می گوید:

«دستیار باز پروژه‌ای است که به همه امکان دسترسی به یک مدل زبان بزرگ مبتنی بر چت را می‌دهد.

ما معتقدیم که با این کار انقلابی در نوآوری در زبان ایجاد خواهیم کرد.

همانطور که stabil-diffusion به جهان کمک کرد تا هنر و تصاویر را به روش‌های جدیدی بسازد، امیدواریم Open Assistant بتواند با بهبود زبان خود به بهبود جهان کمک کند.»

مجموعه داده آموزش HuggingChat

HuggingChat با Open Assistant Conversations Dataset آموزش داده شد (OASST1)، که بسیار جدید است و حاوی داده هایی است که تا 12 آوریل 2023 جمع آوری شده است.

مقاله تحقیقاتی برای مجموعه داده از آوریل 2023 (مکالمات OpenAssistant – دموکراتیک کردن تراز مدل زبان بزرگPDF).

این مدل از همان روش آموزشی ایجاد شده توسط OpenAI استفاده می کند که به آن یادگیری تقویتی از بازخورد انسانی (RLHF) می گویند.

RLHF تکنیکی است برای ایجاد مجموعه داده‌های حاشیه‌نویسی با کیفیت بالا و دارای رتبه‌بندی با کیفیت از پرسش‌ها و پاسخ‌ها که می‌تواند برای آموزش یک هوش مصنوعی برای پیروی از دستورالعمل‌ها استفاده شود.

با این نسخه، آنها به هدف خود رسیدند تا تکنیک RLHF را در دسترس هر کسی که می‌خواهد یک هوش مصنوعی آموزش دهد، قرار دهد.

در مقاله پژوهشی آمده است:

در تلاشی برای دموکراتیزه کردن تحقیقات در زمینه همسویی در مقیاس بزرگ، Open Assistant Conversations را منتشر کردیم، یک مجموعه مکالمه به سبک دستیار مشروح شده توسط انسان، متشکل از 161,443 پیام توزیع شده در 66,497 درخت مکالمه، به 35 زبان مختلف، حاشیه نویسی شده با کیفیت 461,29. رتبه بندی ها.”

مجموعه داده محصول یک تلاش جمع سپاری در سراسر جهان توسط بیش از 13000 داوطلب است.

جمع سپاری راه خوبی برای تولید داده های آموزشی چند زبانه بود که به مجموعه داده با کیفیت بالا کمک کرد.

با این حال، به گفته محققان، رویکرد جمع‌سپاری محدودیت‌هایی را در کیفیت مجموعه داده‌ها در قالب سوگیری‌های فرهنگی و ذهنی افرادی که داده‌های آموزشی را ایجاد و رتبه‌بندی می‌کنند، معرفی کرد.

آنها همچنین هشدار دادند که شرکت‌کنندگانی که بیشتر درگیر بودند، تمایل بیشتری به مشارکت دارند، در نتیجه توزیع نابرابر ارزش‌ها و تعصبات آنها ایجاد می‌شود.

محققان نتیجه می‌گیرند که مجموعه داده‌ها ممکن است نشان دهنده تنوع دیدگاه‌ها در همه مشارکت‌کنندگان نباشد.

به عنوان مثال، آنها یک نظرسنجی را به کانال Discord خود ارسال کردند (فقط به زبان انگلیسی) و از همکاران منبع باز خود سؤالاتی در رابطه با جمعیت شناسی آنها (اما نه قومیت) پرسیدند.

با کنار گذاشتن سوگیری زبانی، نتایج این نظرسنجی نشان داد که از 226 پاسخ‌دهنده، 201 نفر مرد، 10 نفر زن، پنج نفر غیردودویی/سایر شناسایی شدند و 10 نفر از پاسخ دادن خودداری کردند.

با این وجود، اگرچه آنها 100٪ تضمین نمی کنند که مجموعه داده عاری از محتوای مضر است، اما همچنان پشت آن ایستاده اند زیرا با دستورالعمل های کیفیت دقیق ایجاد شده است.

محققان می نویسند:

«برای اطمینان از کیفیت مجموعه داده‌هایمان، دستورالعمل‌های سختگیرانه‌ای برای مشارکت‌کنندگان ایجاد کرده‌ایم که همه کاربران باید از آن پیروی کنند.

این دستورالعمل‌ها برای جلوگیری از اضافه شدن محتوای مضر به مجموعه داده‌های ما و تشویق مشارکت‌کنندگان برای ایجاد پاسخ‌های با کیفیت بالا طراحی شده‌اند.»

HuggingChat در دسترس است

HuggingChat در حال حاضر برای کاربران باز است. ثبت نام برای ایجاد یک حساب کاربری برای استفاده از آن ضروری نیست.

انتظار سطح خروجی ChatGPT نداشته باشید، سرویس هنوز در آن سطح نیست. صفحه برنامه آن را به‌عنوان نسخه 0.0 فهرست می‌کند، که باید تصوری از میزان بلوغ آن در این مرحله ارائه دهد.

با این وجود، این یک دستاورد و گام های اولیه برای جامعه منبع باز است و هیچ هزینه ای برای استفاده از آن وجود ندارد.

از صفحه وب HuggingChat در اینجا دیدن کنید:

صفحه وب و رابط کاربری HuggingChat




منبع: https://www.searchenginejournal.com/huggingchat/485590/