کمپانی OpenAI در روز 13 می 2024 مصادف با 24 اردیبهشت 1403 از آپدیت جدید خودش به نام GPT-4o رونمایی کرد که در مقایسه با مدل قبلی GPT-4 سرعت بسیار بیشتری داره و به صورت رایگان در اختیار همه کاربران قرار میگیره. مدل زبانی بزرگ یا LLM که چت جی پی تی با اون کار میکنه، نوعی سامانه هوش مصنوعی به شمار میره که میتونه با دادههای فراوانش، زبان انسانی رو پردازش و درک کنه. شرکت OpenAi در مراسم رونمایی از این نسخه ابراز امیدواری کرده که حالا با این تغییرات بزرگ، رابطه تعاملی بین انسان و ماشین شامل تحولات خیلی گستردهتری میشه. میرا موراتی مدیر تیم فناوری این شرکت، گفته که چت جی پی تی جدید، حالا توانایی درک متن، صدا و تصویر رو داره و بسیار هوشمندتر از نسخههای قبلی خودشه. پس با موبونیوز باشین تا ببینیم این مدل زبانی با چه ویژگیهایی عرضه شده؟
مدل هوش مصنوعی GPT-4o چیست؟
در مورد مدل هوش مصنوعی GPT-4o که به تازگی توسط OpenAI رونمایی شده، باید گفت که این مدل نسخه اصلاح شده از مدل زبانی GPT-4 به حساب میاد که به عنوان قلب تپنده چت بات معروف ChatGPT شناخته میشه. حرف o که در این مدل استفاده شده مخفف کلمه Omni و به معنی عالمگیر یا جهانیه.
میرا موراتی در مراسم رونمایی گفته که این مدل جدید بسیار سریعتر از نسخههای قبلیه و در درک متن و محتوای صوتی و تصویری عملکرد درخشانی داره. کمپانی OpenAI اعلام کرده که GPT-4o به رایگان در اختیار همه کاربران قرار میگیره، اما کاربرانی که نسخه اشتراکی جی پی تی 4 دارن در مقایسه با کاربران رایگان میتونن در طول روز پنچ برابر درخواست بیشتری ارسال کنن.
هوش مصنوعی GPT-4o چه قابلیتهایی دارد؟
مدیر ارشد فناوری OpenAI اعلام کرده که در حال حاضر بیش از 100 میلیون نفر به صورت مرتب در حال استفاده از ChatGPT هستن. موراتی مدعی شده که API این مدل هوش مصنوعی دو برابر سریعتر و 50 درصد ارزانتره و در مقایسه با GPT-4 Turbo پنج برابر محدودیت کمتری داره. به طور کلی طبق گفته OpenAI کاربران رایگان ChatGPT در صورت استفاده از GPT-4o میتونن به موارد زیر دسترسی داشته باشن:
تجربه هوش مصنوعی در سطح GPT-4
دریافت پاسخ از خود مدل یا اطلاعات سطح وب
تجزیه و تحلیل دادههای مختلف و رسم نمودار بر اساس آنها
چت و گفتگو در مورد تصاویر مختلف
آپلود فایلهای مختلف برای خلاصهسازی، نگارش یا تحلیل
دسترسی به تجربه بهتر با قابلیت Memory (حافظه)
کشف و استفاده از GPTها و GPT Store
یکی از قابلیتهای این مدل که در مراسم معرفی شد، امکان استفاده از دادهها، کدها و ابزارهای دیداری برای تحلیل تصاویره. یکی از مواردی که در این مدل ارتقاء عجیب و غریبی پیدا کرده، گفتار زنده است. GPT-4o برای درک موضوع از صدای کاربر نیازی به تبدیل اون به متن نداره؛ یعنی میتونه صدای کاربر رو بشنوه و به صورت مستقیم موضوع مکالمه رو تشخیص بده.
OpenAI مدعی شده که مدل هوش مصنوعی GPT-4o قدم بزرگی در جهت طبیعیتر شدن تعامل انسان با کامپیوتره؛ چون این مدل میتونه به طور میانگین در مدت زمان 320 میلی ثانیه به ورودیهای صوتی پاسخ بده. طبق این ادعا، زمان پاسخدهی این مدل از لحاظ سرعت مثل زمان پاسخدهی انسان موقع مکالمات روزانه است.
یکی دیگر از قابلیتهای مدل هوش مصنوعی GPT-4o اینه که این مدل می تونه صدای تنفس کاربر رو تشخیص بده و تکنیکهایی رو به اون توصیه کنه که سبب بهبود وضعیت تنفسی بشه. یکی از نکاتی که در این دمو قابل توجه بود این بود که GPT-4o میتونست بلافاصله پس از قطع شدن صدای کاربر حین مکالمه، به اون جواب بده. این قابلیت Voice Mode جدید حتی قادره با احساسات مختلف با کاربر حرف بزنه و مکالمه طبیعیتری رو شکل بده.
در مراسم رونمایی، یکی از کارمندان OpenAI یک معادله ریاضی رو با استفاده از دوربین گوشی به GPT-4o نشان داد و ازش خواست که بدون گفتن جواب نهایی معادله، در حل معادله کمکش کنه. نتیجه این تست این بود که GPT-4o به زیبایی و به شکل حیرتآوری نقش یک معلم رو بازی کرد و مراحل حل معادله رو خیلی ساده توضیح داد.
از دیگر قابلیتهای مدل هوش مصنوعی GPT-4o میشه به قابلیت تشخیص احساسات از چهره افراد اشاره کرد. در یک بخش از رویداد معرفی این مدل، یک چهره خندان به GPT-4o نشان داده شد که هوش مصنوعی پس از مشاهده حالت چهره رو تشخیص داد و به کاربر گفت: نمیخوای بگی دلیل خوشحالیت چیه؟
کاربران با استفاده از این مدل هوش مصنوعی میتونن منوی غذا در یک رستوران خارجی رو به GPT-4o نشان داده و از اون بخوان که آیتمهای داخل منو رو براشون ترجمه کنه. GPT-4o این قابلیت رو داره که در حین پخش زنده یک مسابقه ورزشی ازش بخواین که قواعد مربوط به اون رو براتون توضیح بده.
هوش مصنوعی GPT-4o برای چه افرادی در دسترس است؟
بر اساس گفته OpenAI اکثر قابلیتهای مدل هوش مصنوعی GPT-4o به صورت تدریجی در دسترس همه کاربران قرار میگیره. همچنین این شرکت اعلام کرد که قابلیتهای متنی و تصویری این مدل از همین حالا در چتبات ChatGPT در دسترسه و میشه ازش استفاده کرد.