آیا این مجموعه داده برای جستجوی هوش مصنوعی گوگل استفاده می شود؟


گوگل یک مقاله تحقیقاتی در مورد نوع جدیدی از مجموعه داده برای آموزش یک مدل زبان برای بازیابی جملاتی منتشر کرد که دقیقاً به یک سؤال در یک گفتگوی باز پاسخ می دهد.

ما نمی دانیم که آیا گوگل از این مجموعه داده استفاده می کند یا خیر. اما محققان ادعا می کنند که این مدل از مدل های آموزش داده شده بر روی سایر مجموعه داده ها بهتر عمل می کند.

بسیاری از مقالات تحقیقاتی، مانند مقاله ای که برای LaMDA منتشر شده است، به زمینه های خاصی از نحوه استفاده از آن اشاره نمی کنند.

به عنوان مثال، مقاله تحقیقاتی LaMDA (PDF) به طور مبهم نتیجه می گیرد:

LaMDA گامی نزدیک‌تر به سیستم‌های محاوره‌ای کاربردی و ایمن است که به نوبه خود می‌تواند طیف وسیعی از برنامه‌های کاربردی مفید را باز کند.

این مقاله تحقیقاتی بیان می‌کند که مشکلی که آنها حل می‌کنند این است که چگونه یک مجموعه داده برای آموزش یک ماشین برای یک گفتگوی باز با انتخاب یک جمله از یک صفحه وب ایجاد کنند.

چرا این مجموعه داده مهم است

چیزی که این مقاله تحقیقاتی را مورد توجه قرار می‌دهد این است که محققان به این نتیجه می‌رسند که می‌توان از آن برای پایه‌گذاری واقعی خروجی هوش مصنوعی مولد، مانند آنچه در تجربه جدید جستجوی مولد Google مشاهده می‌شود، استفاده کرد.

با توجه به اینکه مقاله پژوهشی در یک کنفرانس بازیابی اطلاعات (مجموعه مقالات چهل و پنجمین کنفرانس بین المللی ACM SIGIR در تحقیق و توسعه) ارائه شده است، حدس زدن این الگوریتم به بازیابی اطلاعات که به معنای جستجو است، نسبتاً مطمئن است.

آخرین موردی که باید به آن اشاره کرد این است که تحقیق در مورد این نوع جدید از مجموعه داده ها سال گذشته در سال 2022 ارائه شد، اما ظاهراً مورد توجه قرار نگرفته است … تا به حال.

آنچه که گوگل با مجموعه داده جدید قصد دستیابی به آن را داشت

محققان توضیح می دهند که بر روی چه چیزی متمرکز شده اند:

“در این مقاله ما بر گفتگوهای پایان باز تمرکز می کنیم: دو طرف به نوبت در مورد هر تعداد موضوع بدون محدودیت برای تغییر موضوع و نوع بحث در هر موضوع صحبت می کنند.

علاوه بر این، گفت‌وگو بر خلاف تنظیماتی که در برخی از کارهای قبلی استفاده شده است، بر اساس یک سند خاص نیست…

وظیفه ای که ما به آن می پردازیم، بازیابی جملاتی از مجموعه اسنادی است که حاوی اطلاعات مفید برای تولید (به طور خودکار یا توسط انسان) نوبت بعدی در گفتگو هستند.

توجه می‌کنیم که نوبت‌های گفتگو می‌تواند سؤال، سؤال، استدلال، اظهارات و غیره باشد.»

نوع جدیدی از مجموعه داده برای آموزش مدل زبان

مشکلی که محققان در حال حل آن هستند این است که چگونه یک جمله را از یک صفحه وب به عنوان پاسخ به یک سؤال باز بازیابی کنند، نوعی سؤال که به بیش از یک پاسخ بله یا خیر نیاز دارد.

مقاله تحقیقاتی توضیح می‌دهد که آنچه برای ایجاد این توانایی در یک ماشین وجود ندارد، یک مجموعه داده گفتگوی مناسب است.

آنها توضیح می دهند که مجموعه داده های موجود به دو دلیل استفاده می شود:

  1. برای ارزیابی پاسخ‌های گفتگو توسط یک هوش مصنوعی مولد، اما نه برای استفاده در آموزش آن برای بازیابی اطلاعات مربوط به آن پاسخ.
  2. مجموعه‌های داده برای استفاده توسط موتور جستجو یا پاسخ‌گویی به سؤال، متمرکز بر یک قطعه سؤال و پاسخ.

آنها کاستی های مجموعه داده های موجود را توضیح می دهند:

در اکثر این مجموعه داده ها، نتایج جستجوی بازگشتی به عنوان بخشی از گفتگو مشاهده نمی شود.

در هر دو مجموعه داده های بازیابی متن مکالمه و QA مکالمه، کاربری وجود دارد که سؤالات یا پرس و جوهایی می پرسد که منعکس کننده مقاصد صریح با نیازهای اطلاعاتی است، برخلاف گفتگوهای طبیعی که در آن مقاصد ممکن است فقط به طور ضمنی نمایش داده شوند، به عنوان مثال، در عبارات مثبت.

به طور خلاصه، مجموعه داده های مکالمه موجود، مکالمات طبیعی انسان و انسان را با حاشیه نویسی های مرتبط برای جملات بازیابی شده از یک مجموعه اسناد بزرگ ترکیب نمی کند.

بنابراین ما چنین مجموعه داده ای ساختیم…”

چگونه مجموعه داده جدید ایجاد شد

محققان مجموعه داده ای ایجاد کردند که می تواند برای آموزش الگوریتمی استفاده شود که می تواند جمله ای را که پاسخ صحیح در یک گفتگوی باز است بازیابی کند.

مجموعه داده شامل مکالمات Reddit است که با پاسخ‌های ویکی‌پدیا تطبیق داده شده‌اند، به علاوه حاشیه‌نویسی‌های انسانی (رتبه‌بندی‌های مرتبط)، آن جفت‌های پرسش و پاسخ.

داده‌های Reddit از Pushshift.io، آرشیو مکالمات Reddit، دانلود شد (سوالات متداول Pushshift).

مقاله پژوهشی توضیح می دهد:

برای پرداختن به دامنه وسیع‌تری از این کار که در آن می‌توان از هر نوع گفتگو استفاده کرد، مجموعه داده‌ای ایجاد کردیم که شامل دیالوگ‌های باز شده از Reddit، جملات نامزد از ویکی‌پدیا برای هر دیالوگ و حاشیه‌نویسی انسانی برای جملات است.

مجموعه داده شامل 846 گفتگو است که از موضوعات Reddit ایجاد شده است.

برای هر گفتگو، 50 جمله با استفاده از روش بازیابی اولیه بدون نظارت از ویکی پدیا بازیابی شد.

این جملات توسط کارگران جمعیت از نظر ارتباط قضاوت شد، یعنی اینکه آیا آنها حاوی اطلاعات مفیدی برای ایجاد چرخش بعدی در گفتگو هستند یا خیر.

مجموعه داده ای که ایجاد کردند در GitHub موجود است.

نمونه سوال گفتگو:

“کدام اول آمد، مرغ یا تخم مرغ؟”

نمونه ای از پاسخ بی ربط:

جوجه های اهلی حدود 10000 سال است که وجود دارند. تخم مرغ صدها میلیون سال است که وجود داشته است.

نمونه ای از جمله صحیح صفحه وب که می تواند برای پاسخ استفاده شود این است:

به بیان ساده تر توسط نیل دگراس تایسون:
کدام اول آمد: مرغ یا تخم مرغ؟ تخم مرغی که مرغ نبود.»

روش بازیابی

برای بخش بازیابی، آنها از تحقیقات قبلی در مدل‌های زبان و روش‌های دیگر استناد می‌کنند و بر روی رویکرد نظارت ضعیف رضایت می‌دهند.

توضیح می دهند:

«تنظیم دقیق مدل‌های بازیابی به برچسب‌های مرتبط برای مثال‌های آموزشی در یک کار هدف نیاز دارد.

اینها گاهی کمیاب یا در دسترس نیستند.

یکی از روش‌های دور زدن این موضوع، تولید خودکار برچسب‌ها و آموزش مدلی با نظارت ضعیف بر روی این حاشیه‌نویسی است.

ما از الگوی نظارت ضعیف در آموزش مدل خود پیروی می کنیم، با یک حاشیه نویس ضعیف جدید Reddit برای بازیابی در زمینه گفتگو.

آیا مجموعه داده موفق است؟

گوگل و سایر سازمان ها مقالات تحقیقاتی بسیاری را منتشر می کنند که سطوح مختلف موفقیت را نشان می دهند.

برخی از تحقیقات با موفقیت محدود به پایان می رسد و وضعیت هنر را فقط اندکی تغییر می دهد.

مقالات تحقیقاتی مورد علاقه (برای من) آنهایی هستند که به وضوح موفق هستند و از وضعیت فعلی هنر بهتر عمل می کنند.

این مورد در مورد توسعه این مجموعه داده برای آموزش یک مدل زبان برای بازیابی جملاتی است که به طور دقیق به عنوان چرخشی در یک گفتگوی پایان باز عمل می کنند.

آنها بیان می کنند که چگونه یک مدل BERT آموزش داده شده با این مجموعه داده حتی قدرتمندتر می شود.

آنها می نویسند:

در واقع، در حالی که RANKBERTMS از همه مدل‌های تنظیم نشده بهتر عمل می‌کند، مدل RANKBERTMS→R که با استفاده از مجموعه آموزشی با نظارت ضعیف ما تنظیم دقیق‌تری داشت، عملکرد را بهبود می‌بخشد.

این روش بالاترین عملکرد را به دست می‌آورد و تمام دستاوردهای عملکرد نسبت به روش‌های دیگر از نظر آماری معنی‌دار هستند.

این یافته همچنین اثربخشی حاشیه نویس ضعیف و مجموعه آموزشی با نظارت ضعیف ما را نشان می دهد و نشان می دهد که عملکرد را می توان بدون حاشیه نویسی دستی برای آموزش بهبود بخشید.

در جای دیگر محققان گزارش می دهند:

ما نشان می‌دهیم که رتبه‌بندی عصبی که با استفاده از مجموعه آموزشی تحت نظارت ضعیف ما تنظیم شده است، از سایر مدل‌های آزمایش‌شده، از جمله رتبه‌بندی عصبی تنظیم‌شده دقیق در مجموعه داده بازیابی پاساژ MS Marco، بهتر عمل می‌کند.»

آنها همچنین می نویسند که به همان اندازه که این رویکرد موفق است، آنها علاقه مند هستند که وضعیت هنر را حتی بیشتر از آنچه قبلا داشته اند، پیش ببرند.

مقاله پژوهشی نتیجه می گیرد:

«در کار آینده، ما می‌خواهیم مدل‌های بازیابی مبتنی بر BERT را ابداع کنیم که تنها بر اساس نظارت ضعیف، با استفاده از BERT از پیش آموزش‌دیده، بدون نیاز به مجموعه‌های آموزشی بزرگ حاشیه‌نویسی مانند MS Marco آموزش داده می‌شوند.

ما همچنین می‌خواهیم مدل‌های زبان مولد را با مدل‌های بازیابی خود پایه‌گذاری کنیم و مکالمه‌هایی را که از چنین زمینه‌سازی بیرون می‌آیند، مطالعه کنیم.»

آیا این رویکرد می تواند مورد استفاده قرار گیرد؟

گوگل به ندرت تایید می کند که از تحقیقات خاصی استفاده می شود. مواردی مانند BERT وجود دارد که Google تأیید می کند که از آن استفاده می کنند.

اما به طور کلی پاسخ استاندارد این است فقط به این دلیل که گوگل یک مقاله تحقیقاتی یا یک پتنت منتشر می کند به این معنی نیست که آنها از آن در الگوریتم جستجوی خود استفاده می کنند..

با این حال، مقاله تحقیقاتی که مربوط به اواسط سال 2022 است، نشان می‌دهد که مسیر آینده بررسی این است که چگونه مدل‌های زبان مولد (که مانند Bard و Google’s Search Generative Experience) می‌توانند با آن پایه‌گذاری شوند.

یک تجربه چت مولد هوش مصنوعی می تواند منجر به ایجاد خروجی هوش مصنوعی شود، چیزی که از نظر فنی به عنوان توهم شناخته می شود.

Grounding به معنای لنگر انداختن خروجی چت هوش مصنوعی با حقایق، معمولاً از منابع آنلاین، برای کمک به جلوگیری از توهم است.

Bing از سیستمی به نام Bing Orchestrator استفاده می‌کند که صفحات وب را بررسی می‌کند تا خروجی GPT را در واقعیت‌ها ثابت کند.

زمینی کردن خروجی هوش مصنوعی به ثابت نگه داشتن آن بر روی حقایق کمک می کند، کاری که این مجموعه داده ممکن است قادر به انجام آن باشد، علاوه بر انتخاب جملات از صفحات وب به عنوان بخشی از پاسخ.

سوال در مورد تجربه مولد جستجوی آزمایشی گوگل پرسیده شد

تصویری از یک پاسخ از Google's Search Generative Experience که پاسخ را با سه نقل قول به صفحات وب با حقایقی نشان می دهد که پاسخ هوش مصنوعی را ثابت می کند.

مقاله تحقیق را بخوانید:

صفحه وب چکیده: مجموعه داده ای برای بازیابی جمله برای گفتگوهای باز

مقاله تحقیق واقعی: مجموعه داده ای برای بازیابی جمله برای گفتگوهای باز

تصویر برجسته توسط Shutterstock/Camilo Concha




منبع: https://www.searchenginejournal.com/google-dataset-for-sentence-retrieval/489223/