گوگل یک مقاله تحقیقاتی در مورد نوع جدیدی از مجموعه داده برای آموزش یک مدل زبان برای بازیابی جملاتی منتشر کرد که دقیقاً به یک سؤال در یک گفتگوی باز پاسخ می دهد.
ما نمی دانیم که آیا گوگل از این مجموعه داده استفاده می کند یا خیر. اما محققان ادعا می کنند که این مدل از مدل های آموزش داده شده بر روی سایر مجموعه داده ها بهتر عمل می کند.
بسیاری از مقالات تحقیقاتی، مانند مقاله ای که برای LaMDA منتشر شده است، به زمینه های خاصی از نحوه استفاده از آن اشاره نمی کنند.
به عنوان مثال، مقاله تحقیقاتی LaMDA (PDF) به طور مبهم نتیجه می گیرد:
LaMDA گامی نزدیکتر به سیستمهای محاورهای کاربردی و ایمن است که به نوبه خود میتواند طیف وسیعی از برنامههای کاربردی مفید را باز کند.
این مقاله تحقیقاتی بیان میکند که مشکلی که آنها حل میکنند این است که چگونه یک مجموعه داده برای آموزش یک ماشین برای یک گفتگوی باز با انتخاب یک جمله از یک صفحه وب ایجاد کنند.
چرا این مجموعه داده مهم است
چیزی که این مقاله تحقیقاتی را مورد توجه قرار میدهد این است که محققان به این نتیجه میرسند که میتوان از آن برای پایهگذاری واقعی خروجی هوش مصنوعی مولد، مانند آنچه در تجربه جدید جستجوی مولد Google مشاهده میشود، استفاده کرد.
با توجه به اینکه مقاله پژوهشی در یک کنفرانس بازیابی اطلاعات (مجموعه مقالات چهل و پنجمین کنفرانس بین المللی ACM SIGIR در تحقیق و توسعه) ارائه شده است، حدس زدن این الگوریتم به بازیابی اطلاعات که به معنای جستجو است، نسبتاً مطمئن است.
آخرین موردی که باید به آن اشاره کرد این است که تحقیق در مورد این نوع جدید از مجموعه داده ها سال گذشته در سال 2022 ارائه شد، اما ظاهراً مورد توجه قرار نگرفته است … تا به حال.
آنچه که گوگل با مجموعه داده جدید قصد دستیابی به آن را داشت
محققان توضیح می دهند که بر روی چه چیزی متمرکز شده اند:
“در این مقاله ما بر گفتگوهای پایان باز تمرکز می کنیم: دو طرف به نوبت در مورد هر تعداد موضوع بدون محدودیت برای تغییر موضوع و نوع بحث در هر موضوع صحبت می کنند.
علاوه بر این، گفتوگو بر خلاف تنظیماتی که در برخی از کارهای قبلی استفاده شده است، بر اساس یک سند خاص نیست…
وظیفه ای که ما به آن می پردازیم، بازیابی جملاتی از مجموعه اسنادی است که حاوی اطلاعات مفید برای تولید (به طور خودکار یا توسط انسان) نوبت بعدی در گفتگو هستند.
توجه میکنیم که نوبتهای گفتگو میتواند سؤال، سؤال، استدلال، اظهارات و غیره باشد.»
نوع جدیدی از مجموعه داده برای آموزش مدل زبان
مشکلی که محققان در حال حل آن هستند این است که چگونه یک جمله را از یک صفحه وب به عنوان پاسخ به یک سؤال باز بازیابی کنند، نوعی سؤال که به بیش از یک پاسخ بله یا خیر نیاز دارد.
مقاله تحقیقاتی توضیح میدهد که آنچه برای ایجاد این توانایی در یک ماشین وجود ندارد، یک مجموعه داده گفتگوی مناسب است.
آنها توضیح می دهند که مجموعه داده های موجود به دو دلیل استفاده می شود:
- برای ارزیابی پاسخهای گفتگو توسط یک هوش مصنوعی مولد، اما نه برای استفاده در آموزش آن برای بازیابی اطلاعات مربوط به آن پاسخ.
- مجموعههای داده برای استفاده توسط موتور جستجو یا پاسخگویی به سؤال، متمرکز بر یک قطعه سؤال و پاسخ.
آنها کاستی های مجموعه داده های موجود را توضیح می دهند:
در اکثر این مجموعه داده ها، نتایج جستجوی بازگشتی به عنوان بخشی از گفتگو مشاهده نمی شود.
در هر دو مجموعه داده های بازیابی متن مکالمه و QA مکالمه، کاربری وجود دارد که سؤالات یا پرس و جوهایی می پرسد که منعکس کننده مقاصد صریح با نیازهای اطلاعاتی است، برخلاف گفتگوهای طبیعی که در آن مقاصد ممکن است فقط به طور ضمنی نمایش داده شوند، به عنوان مثال، در عبارات مثبت.
به طور خلاصه، مجموعه داده های مکالمه موجود، مکالمات طبیعی انسان و انسان را با حاشیه نویسی های مرتبط برای جملات بازیابی شده از یک مجموعه اسناد بزرگ ترکیب نمی کند.
بنابراین ما چنین مجموعه داده ای ساختیم…”
چگونه مجموعه داده جدید ایجاد شد
محققان مجموعه داده ای ایجاد کردند که می تواند برای آموزش الگوریتمی استفاده شود که می تواند جمله ای را که پاسخ صحیح در یک گفتگوی باز است بازیابی کند.
مجموعه داده شامل مکالمات Reddit است که با پاسخهای ویکیپدیا تطبیق داده شدهاند، به علاوه حاشیهنویسیهای انسانی (رتبهبندیهای مرتبط)، آن جفتهای پرسش و پاسخ.
دادههای Reddit از Pushshift.io، آرشیو مکالمات Reddit، دانلود شد (سوالات متداول Pushshift).
مقاله پژوهشی توضیح می دهد:
برای پرداختن به دامنه وسیعتری از این کار که در آن میتوان از هر نوع گفتگو استفاده کرد، مجموعه دادهای ایجاد کردیم که شامل دیالوگهای باز شده از Reddit، جملات نامزد از ویکیپدیا برای هر دیالوگ و حاشیهنویسی انسانی برای جملات است.
مجموعه داده شامل 846 گفتگو است که از موضوعات Reddit ایجاد شده است.
برای هر گفتگو، 50 جمله با استفاده از روش بازیابی اولیه بدون نظارت از ویکی پدیا بازیابی شد.
این جملات توسط کارگران جمعیت از نظر ارتباط قضاوت شد، یعنی اینکه آیا آنها حاوی اطلاعات مفیدی برای ایجاد چرخش بعدی در گفتگو هستند یا خیر.
مجموعه داده ای که ایجاد کردند در GitHub موجود است.
نمونه سوال گفتگو:
“کدام اول آمد، مرغ یا تخم مرغ؟”
نمونه ای از پاسخ بی ربط:
جوجه های اهلی حدود 10000 سال است که وجود دارند. تخم مرغ صدها میلیون سال است که وجود داشته است.
نمونه ای از جمله صحیح صفحه وب که می تواند برای پاسخ استفاده شود این است:
به بیان ساده تر توسط نیل دگراس تایسون:
کدام اول آمد: مرغ یا تخم مرغ؟ تخم مرغی که مرغ نبود.»
روش بازیابی
برای بخش بازیابی، آنها از تحقیقات قبلی در مدلهای زبان و روشهای دیگر استناد میکنند و بر روی رویکرد نظارت ضعیف رضایت میدهند.
توضیح می دهند:
«تنظیم دقیق مدلهای بازیابی به برچسبهای مرتبط برای مثالهای آموزشی در یک کار هدف نیاز دارد.
اینها گاهی کمیاب یا در دسترس نیستند.
یکی از روشهای دور زدن این موضوع، تولید خودکار برچسبها و آموزش مدلی با نظارت ضعیف بر روی این حاشیهنویسی است.
ما از الگوی نظارت ضعیف در آموزش مدل خود پیروی می کنیم، با یک حاشیه نویس ضعیف جدید Reddit برای بازیابی در زمینه گفتگو.
آیا مجموعه داده موفق است؟
گوگل و سایر سازمان ها مقالات تحقیقاتی بسیاری را منتشر می کنند که سطوح مختلف موفقیت را نشان می دهند.
برخی از تحقیقات با موفقیت محدود به پایان می رسد و وضعیت هنر را فقط اندکی تغییر می دهد.
مقالات تحقیقاتی مورد علاقه (برای من) آنهایی هستند که به وضوح موفق هستند و از وضعیت فعلی هنر بهتر عمل می کنند.
این مورد در مورد توسعه این مجموعه داده برای آموزش یک مدل زبان برای بازیابی جملاتی است که به طور دقیق به عنوان چرخشی در یک گفتگوی پایان باز عمل می کنند.
آنها بیان می کنند که چگونه یک مدل BERT آموزش داده شده با این مجموعه داده حتی قدرتمندتر می شود.
آنها می نویسند:
در واقع، در حالی که RANKBERTMS از همه مدلهای تنظیم نشده بهتر عمل میکند، مدل RANKBERTMS→R که با استفاده از مجموعه آموزشی با نظارت ضعیف ما تنظیم دقیقتری داشت، عملکرد را بهبود میبخشد.
این روش بالاترین عملکرد را به دست میآورد و تمام دستاوردهای عملکرد نسبت به روشهای دیگر از نظر آماری معنیدار هستند.
این یافته همچنین اثربخشی حاشیه نویس ضعیف و مجموعه آموزشی با نظارت ضعیف ما را نشان می دهد و نشان می دهد که عملکرد را می توان بدون حاشیه نویسی دستی برای آموزش بهبود بخشید.
در جای دیگر محققان گزارش می دهند:
ما نشان میدهیم که رتبهبندی عصبی که با استفاده از مجموعه آموزشی تحت نظارت ضعیف ما تنظیم شده است، از سایر مدلهای آزمایششده، از جمله رتبهبندی عصبی تنظیمشده دقیق در مجموعه داده بازیابی پاساژ MS Marco، بهتر عمل میکند.»
آنها همچنین می نویسند که به همان اندازه که این رویکرد موفق است، آنها علاقه مند هستند که وضعیت هنر را حتی بیشتر از آنچه قبلا داشته اند، پیش ببرند.
مقاله پژوهشی نتیجه می گیرد:
«در کار آینده، ما میخواهیم مدلهای بازیابی مبتنی بر BERT را ابداع کنیم که تنها بر اساس نظارت ضعیف، با استفاده از BERT از پیش آموزشدیده، بدون نیاز به مجموعههای آموزشی بزرگ حاشیهنویسی مانند MS Marco آموزش داده میشوند.
ما همچنین میخواهیم مدلهای زبان مولد را با مدلهای بازیابی خود پایهگذاری کنیم و مکالمههایی را که از چنین زمینهسازی بیرون میآیند، مطالعه کنیم.»
آیا این رویکرد می تواند مورد استفاده قرار گیرد؟
گوگل به ندرت تایید می کند که از تحقیقات خاصی استفاده می شود. مواردی مانند BERT وجود دارد که Google تأیید می کند که از آن استفاده می کنند.
اما به طور کلی پاسخ استاندارد این است فقط به این دلیل که گوگل یک مقاله تحقیقاتی یا یک پتنت منتشر می کند به این معنی نیست که آنها از آن در الگوریتم جستجوی خود استفاده می کنند..
با این حال، مقاله تحقیقاتی که مربوط به اواسط سال 2022 است، نشان میدهد که مسیر آینده بررسی این است که چگونه مدلهای زبان مولد (که مانند Bard و Google’s Search Generative Experience) میتوانند با آن پایهگذاری شوند.
یک تجربه چت مولد هوش مصنوعی می تواند منجر به ایجاد خروجی هوش مصنوعی شود، چیزی که از نظر فنی به عنوان توهم شناخته می شود.
Grounding به معنای لنگر انداختن خروجی چت هوش مصنوعی با حقایق، معمولاً از منابع آنلاین، برای کمک به جلوگیری از توهم است.
Bing از سیستمی به نام Bing Orchestrator استفاده میکند که صفحات وب را بررسی میکند تا خروجی GPT را در واقعیتها ثابت کند.
زمینی کردن خروجی هوش مصنوعی به ثابت نگه داشتن آن بر روی حقایق کمک می کند، کاری که این مجموعه داده ممکن است قادر به انجام آن باشد، علاوه بر انتخاب جملات از صفحات وب به عنوان بخشی از پاسخ.
مقاله تحقیق را بخوانید:
صفحه وب چکیده: مجموعه داده ای برای بازیابی جمله برای گفتگوهای باز
مقاله تحقیق واقعی: مجموعه داده ای برای بازیابی جمله برای گفتگوهای باز
تصویر برجسته توسط Shutterstock/Camilo Concha
منبع: https://www.searchenginejournal.com/google-dataset-for-sentence-retrieval/489223/