آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان، تأیید کرد که GPT-4 ظرف یک هفته از 9 مارس 2023 عرضه می شود و چندوجهی خواهد بود. هوش مصنوعی چندوجهی به این معنی است که میتواند در انواع ورودیها مانند ویدئو، تصاویر و صدا عمل کند.
مدل های زبان بزرگ چندوجهی
نکته مهم این اعلامیه این است که GPT-4 چند وجهی است (SEJ پیش بینی کرد GPT-4 در ژانویه 2023 چند وجهی است).
Modality اشاره ای به نوع ورودی است که (در این مورد) یک مدل زبان بزرگ به آن می پردازد.
چند وجهی می تواند متن، گفتار، تصاویر و ویدئو را در بر گیرد.
GPT-3 و GPT-3.5 فقط در یک حالت، متن کار می کنند.
بر اساس گزارش خبری آلمان، GPT-4 ممکن است حداقل در چهار حالت، تصویر، صدا (شنیداری)، متن و ویدئو کار کند.
به نقل از دکتر آندریاس براون، مدیر ارشد فناوری مایکروسافت آلمان:
“ما هفته آینده GPT-4 را معرفی خواهیم کرد، در آنجا مدل های چندوجهی خواهیم داشت که امکانات کاملا متفاوتی را ارائه می دهند – به عنوان مثال ویدئوها…”
این گزارش فاقد مشخصات GPT-4 بود، بنابراین مشخص نیست که آیا آنچه در مورد چندوجهی به اشتراک گذاشته شده مختص GPT-4 است یا فقط به طور کلی.
استراتژی تجاری مدیر مایکروسافت هولگر کن چند وجهی را توضیح داد، اما گزارش نامشخص بود که آیا او به چند وجهی یا چندوجهی GPT-4 در جنسها اشاره می کند.
من معتقدم ارجاعات او به چند وجهی مختص GPT-4 بود.
این گزارش به اشتراک گذاشته شده است:
کن توضیح داد که هوش مصنوعی چندوجهی در مورد چیست، که می تواند متن را نه تنها به عکس، بلکه به موسیقی و ویدئو نیز ترجمه کند.
واقعیت جالب دیگر این است که مایکروسافت در حال کار بر روی “معیارهای اطمینان” تا هوش مصنوعی خود را با حقایق ثابت کنند تا قابل اعتمادتر شود.
مایکروسافت Kosmos-1
چیزی که ظاهراً در ایالات متحده کمتر گزارش شده است این است که مایکروسافت یک مدل زبان چندوجهی به نام Kosmos-1 را در ابتدای مارس 2023 منتشر کرد.
بر اساس گزارش سایت خبری آلمان، Heise.de:
این تیم مدل از پیش آموزشدیدهشده را تحت آزمایشهای مختلفی قرار دادند که نتایج خوبی در طبقهبندی تصاویر، پاسخگویی به سؤالات در مورد محتوای تصویر، برچسبگذاری خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار داشت.
… استدلال بصری، یعنی نتیجه گیری در مورد تصاویر بدون استفاده از زبان به عنوان یک مرحله میانی، به نظر می رسد یک کلید در اینجا باشد…
Kosmos-1 یک مدال چندوجهی است که حالتهای متن و تصاویر را ادغام میکند.
GPT-4 فراتر از Kosmos-1 است زیرا حالت سومی را اضافه می کند، ویدیو، و همچنین به نظر می رسد که مدالیته صدا را نیز شامل می شود.
در چندین زبان کار می کند
به نظر می رسد GPT-4 در همه زبان ها کار می کند. توضیح داده شده است که می توانید یک سؤال را به زبان آلمانی دریافت کنید و به زبان ایتالیایی پاسخ دهید.
این یک مثال عجیب است زیرا، چه کسی سؤالی را به زبان آلمانی میپرسد و میخواهد پاسخی به زبان ایتالیایی دریافت کند؟
این چیزی است که تایید شد:
«…تکنولوژی به حدی رسیده است که اساساً «در همه زبانها کار میکند»: میتوانید سؤالی را به آلمانی بپرسید و به زبان ایتالیایی پاسخ بگیرید.
با چندوجهی، مایکروسافت (-OpenAI) مدل ها را جامع خواهد کرد.
من معتقدم که نقطه پیشرفت این است که این مدل با توانایی خود در انتقال دانش به زبان های مختلف از زبان فراتر می رود. بنابراین اگر پاسخ به زبان ایتالیایی باشد، آن را می داند و می تواند پاسخ را به زبانی که سوال پرسیده شده است ارائه دهد.
این امر آن را شبیه به هدف هوش مصنوعی چندوجهی گوگل به نام MUM می کند. گفته میشود که مادر میتواند پاسخهایی را به زبان انگلیسی ارائه کند که دادهها فقط به زبان دیگری مانند ژاپنی وجود دارد.
برنامه های کاربردی GPT-4
در حال حاضر هیچ اطلاعیه ای درباره مکان نمایش GPT-4 وجود ندارد. اما Azure-OpenAI به طور خاص ذکر شد.
گوگل در تلاش است تا با ادغام یک فناوری رقیب در موتور جستجوی خود به مایکروسافت برسد. این پیشرفت این تصور را تشدید می کند که گوگل در حال عقب ماندن و عدم رهبری در زمینه هوش مصنوعی مصرف کننده است.
گوگل در حال حاضر هوش مصنوعی را در چندین محصول مانند Google Lens، Google Maps و سایر مناطقی که مصرف کنندگان با Google در تعامل هستند، ادغام کرده است.
فقط روشی که مایکروسافت آن را پیاده سازی می کند بیشتر قابل مشاهده است.
گزارش اصلی آلمانی را اینجا بخوانید:
مایکروسافت آلمان میگوید GPT-4 هفته آینده عرضه میشود – و چندوجهی خواهد بود
تصویر برجسته توسط Shutterstock/Master1305
منبع: https://www.searchenginejournal.com/gpt-4-is-multimodal/481993/