
بروزرسانی: 27 خرداد 1404
OpenAI مخفیانه سرمایه گذاری شده است مجموعه داده های معیاری مرتبط با مدل o3
افشاگری ها مبنی بر اینکه OpenAI مخفیانه سرمایه گذاری کرده و به مجموعه داده های معیار FrontierMath دسترسی داشته است، نگرانی هایی را در مورد اینکه آیا از آن برای آموزش مدل استدلال استدلالی هوش مصنوعی o3 خود و اعتبار نمرات بالای مدل استفاده شده است، ایجاد کرده است.
علاوه بر دسترسی به مجموعه داده های محک، OpenAI بودجه ایجاد آن را نیز تامین کرد، واقعیتی که از ریاضیدانانی که در توسعه FrontierMath مشارکت داشتند پنهان مانده بود. Epoch AI با تأخیر بودجه OpenAI را تنها در مقاله نهایی منتشر شده در Arxiv.org فاش کرد که معیار را اعلام کرد. در نسخه های قبلی این مقاله هیچ اشاره ای به دخالت OpenAI حذف نشده بود.
اسکرین شات از مقاله FrontierMath
نمای نزدیک از قدردانی
نسخه قبلی مقاله که فاقد تأیید بود
مدل OpenAI 03 در معیار FrontierMath امتیاز بالایی کسب کرد
اخبار مربوط به دخالت مخفی OpenAI سوالاتی را در مورد نمرات بالای بدست آمده توسط مدل هوش مصنوعی استدلال o3 ایجاد می کند و باعث ناامیدی پروژه FrontierMath می شود. Epoch AI با شفافیت در مورد آنچه اتفاق افتاده و آنچه آنها انجام می دهند برای بررسی اینکه آیا مدل o3 با مجموعه داده FrontierMath آموزش داده شده است پاسخ داد.
دادن دسترسی OpenAI به مجموعه داده غیرمنتظره بود، زیرا هدف اصلی آن آزمایش مدل های هوش مصنوعی است، اما اگر مدل ها از قبل سؤالات و پاسخ ها را بدانند، این کار انجام نمی شود.
الف پست در r/singularity subreddit این ناامیدی را بیان کرد و به سندی اشاره کرد که ادعا می کرد ریاضیدانان از دخالت OpenAI اطلاعی نداشتند:
“Frontier Math، معیار ریاضی پیشرفته اخیر، توسط OpenAI تامین مالی می شود. گفته می شود که OpenAI به مشکلات و راه حل ها دسترسی دارد. این ناامید کننده است زیرا این معیار به عنوان وسیله ای برای ارزیابی مدل های مرزی با حمایت ریاضیدانان مشهور به عموم فروخته شد. در واقعیت، Epoch AI در حال ساخت مجموعه داده ها برای OpenAI است. آنها قبلا هیچ رابطه ای با OpenAI فاش نکرده بودند.
بحث Reddit به نقل از یک نشریه که مشارکت عمیق OpenAI را آشکار کرد:
ریاضیدانانی که مسائل را برای FrontierMath ایجاد می کنند (به طور فعال)[2] در مورد بودجه از OpenAI اطلاع رسانی شد.
... اکنون Epoch AI یا OpenAI علناً نمی گویند که OpenAI به تمرین ها یا پاسخ ها یا راه حل ها دسترسی دارد. من به طور دست دوم شنیده ام که OpenAI به تمرین ها و پاسخ ها دسترسی دارد و آنها از آنها برای اعتبار سنجی استفاده می کنند.
تمای بسیر اوغلو (پروفایل لینکدینمدیر مرتبط در Epoch AI، اذعان کرد که OpenAI به مجموعه داده ها دسترسی دارد، اما همچنین اظهار داشت که یک مجموعه داده "Holdout" وجود دارد که OpenAI به آن دسترسی ندارد.
وی در سند مورد اشاره نوشت:
Tamay از Epoch AI اینجاست.
ما در عدم شفافیت بیشتر در مورد دخالت OpenAI اشتباه کردیم. ما تا زمان راه اندازی o3 از افشای این مشارکت محدود بودیم، و در آینده نزدیک باید برای شفاف سازی هر چه سریع تر مشارکت کنندگان معیار، سخت تر مذاکره می کردیم. قرارداد ما به طور خاص ما را از افشای اطلاعات در مورد منبع بودجه و این واقعیت که OpenAI به بسیاری از مجموعه داده ها دسترسی دارد، اما نه همه، باز می دارد. ما صاحب این خطا هستیم و متعهد هستیم که در آینده بهتر عمل کنیم.
در مورد استفاده از آموزش: ما تصدیق می کنیم که OpenAI به بخش بزرگی از مسائل و راه حل های FrontierMath دسترسی دارد، به استثنای مجموعه نگهدارنده ای که توسط OpenAI دیده نمی شود که ما را قادر می سازد تا به طور مستقل قابلیت های مدل را تأیید کنیم. با این حال، ما توافق شفاهی داریم که از این مواد در آموزش مدل استفاده نشود.
OpenAI همچنین به طور کامل از تصمیم ما برای حفظ یک مجموعه نگهدارنده مجزا و نادیده حمایت کرده است - یک محافظ اضافی برای جلوگیری از تطبیق بیش از حد و اطمینان از اندازه گیری دقیق پیشرفت. از روز اول، FrontierMath به عنوان یک ابزار ارزیابی تصور و ارائه شد، و ما معتقدیم که این ترتیبات منعکس کننده این هدف هستند. "
حقایق بیشتر درباره OpenAI و FrontierMath فاش شد
الیوت گلیزر (پروفایل لینکدین/پروفایل Redditریاضیدان ارشد Epoch AI تأیید کرد که OpenAI مجموعه داده را دارد و به آنها اجازه داده شده است از آن برای ارزیابی مدل زبان بزرگ o3 OpenAI استفاده کنند، که آخرین وضعیت هوش مصنوعی آنها است که به عنوان یک مدل هوش مصنوعی استدلالی از آن یاد می شود. او نظر خود را ارائه کرد که نمرات بالای بدست آمده توسط مدل o3 "مشروع" هستند و Epoch AI در حال انجام یک ارزیابی مستقل برای تعیین اینکه آیا o3 برای آموزش به مجموعه داده FrontierMath دسترسی داشته است یا خیر، که می تواند نمرات بالای مدل را در نور متفاوت
او نوشت:
«ریاضی دان اصلی عصر اینجاست. بله، OAI این را تامین مالی کرده و مجموعه داده ای را در اختیار دارد که به آنها اجازه می دهد O3 را در داخل ارزیابی کنند. ما هنوز به طور مستقل ادعای 25٪ آنها را تأیید نکرده ایم. برای انجام این کار، ما در حال حاضر در حال توسعه یک مجموعه داده نگهدارنده هستیم و می توانیم مدل آنها را بدون مواجهه قبلی با این مشکلات آزمایش کنیم.
نظر شخصی من این است که امتیاز OAI قانونی است (یعنی آنها بر روی مجموعه داده آموزش ندیده اند)، و آنها هیچ انگیزه ای برای دروغ گفتن در مورد عملکردهای معیار داخلی ندارند. با این حال، تا زمانی که ارزیابی مستقل ما کامل نشود، نمی توانیم آنها را تضمین کنیم.»
گلیزر نیز داشت به اشتراک گذاشته شده است که Epoch AI قصد داشت o3 را با استفاده از مجموعه داده "holdout" که OpenAI به آن دسترسی نداشت آزمایش کند، گفت:
"ما قصد داریم o3 را با OAI ارزیابی کنیم که قبلاً در معرض مشکلات ماندگاری قرار نگرفته است. این بدون هوا خواهد بود.»
دیگری پست در Reddit توسط Glazer توضیح داد که چگونه "Holdout set" ایجاد شد:
زمانی که ارزیابی مجموعه Holdout واقعاً انجام شد، فرآیند را واضح تر توضیح می دهیم، اما مسائل Holdout را به طور تصادفی از مجموعه بزرگ تری انتخاب می کنیم که به FrontierMath اضافه می شود. فرآیند تولید در غیر این صورت با آنچه همیشه بوده یکسان است.»
در انتظار پاسخ
این همان جایی است که درام تا زمانی که ارزیابی Epoch AI تکمیل شود، نشان می دهد که آیا OpenAI مدل استدلال هوش مصنوعی خود را با مجموعه داده آموزش داده است یا نه یا فقط از آن برای محک زدن استفاده کرده است.
تصویر ویژه توسط Shutterstock/Antonello Marangi
منبع: https://www.searchenginejournal.com/openai-secretly-funded-frontiermath-benchmarking-dataset/537760/