مدل GPT-4 مردم را در طول مکالمه فریب می‌دهد

به گزارش پایگاه خبری تحلیلی خبرنگاران و رسانه و به نقل از ایسنا؛ مدل‌ GPT-4 به دلیل توانایی ذاتی خود در سنجش اعلان‌های نوشتاری و دریافت پاسخ‌های مناسب به چندین زبان، کاربران را شگفت‌زده کرده است. به نظر می‌رسد کیفیت این ربات بیشتر مردم را گیج می‌کند، به طوری که به سختی می‌توانند بین یک ربات و یک انسان تمایز قائل شوند.

به نقل از تی‌سی، این یک سردرگمی بزرگ است، زیرا برخی از نتایج تولیدشده توسط ربات بسیار واقعی به نظر می‌رسند.

کاوش هوش شبه‌انسانی GPT-4

این افزایش هیاهو باعث شد که محققان دانشگاه کالیفرنیا سن‌دیگو(UC San Diego) به این معضل بپردازند. آنها آزمایش معروف تورینگ را که به نام «آلن تورینگ» دانشمند مشهور نام‌گذاری شده است، انجام دادند. هدف از این آزمایش تعیین میزان توانایی یک ماشین از سطح هوشی مانند یک انسان بود.

محققان یافته‌های خود را بر روی سرور arXiv دانشگاه کرنل منتشر کردند و به این نتیجه رسیدند که افراد هنگام تعامل با یک ربات، تمایز بین مدل GPT-4 و عامل انسانی را دشوار می‌دانند.

کامرون جونز، سرپرست این مطالعه برای اولین بار این مطالعه را تحت نظارت یک پروفسور علوم شناختی در دانشگاه کالیفرنیا سن‌دیگو انجام داد.

جونز گفت: در هفته اول چند مقاله کلاسیک در مورد آزمون تورینگ خواندیم و در مورد اینکه آیا یک مدل زبانی بزرگ(LLM) می‌تواند آن را قبول کند و اینکه آیا می‌تواند مهم باشد یا خیر، بحث کردیم. می‌توانم بگویم تا کنون هیچ‌ کس در این سطح تلاش نکرده بود، بنابراین تصمیم گرفتم آزمایشی بسازم تا آن را به عنوان پروژه کلاس خود بررسی کنم و سپس اولین آزمایش اکتشافی عمومی را اجرا کردیم.

نتایج این مطالعه جالب بود. این پژوهش نشان داد که مدل هوش مصنوعی GPT-4 تقریباً در ۵۰ درصد از تعاملات به راحتی می‌تواند از انسان پیشی بگیرد.

تائید پاسخ‌های انسانی هوش مصنوعی

پژوهشگران در مورد نتایج آزمایش اول تردید داشتند، بنابراین تصمیم گرفتند با انجام یک آزمایش دوم آن را اثبات کنند. کامرون جونز می‌گوید یک نسخه آنلاین از یک بازی دو نفره ایجاد کردیم که به شرکت‌کنندگان انسانی اجازه می‌دهد با یک انسان یا یک مدل هوش مصنوعی تعامل داشته باشند.

در این بازی، یک «بازپرس» که می‌تواند یک انسان یا یک عامل هوش مصنوعی باشد، با یک «شاهد» تعامل داشت. بازپرس به سادگی سؤالاتی را می‌پرسید و تعیین می‌کرد که آیا یک انسان یا یک مدل هوش مصنوعی پاسخ می‌دهد.

اغلب این مکالمات پنج دقیقه طول می‌کشید و بازپرس در پایان فاش می‌کرد که آیا این یک مدل هوش مصنوعی است یا نه. شرکت‌کنندگان اجازه داشتند در مورد هر چیزی که می‌خواهند، به مدت پنج دقیقه بدون توهین صحبت کنند.

جونز می‌گوید: اگرچه انسان‌های واقعی در واقع موفق‌تر بودند و بازپرس‌ها را در دو سوم مواقع متقاعد کردند که انسان هستند، اما نتایج ما نشان می‌دهد که در دنیای واقعی، افراد ممکن است نتوانند به طور قابل اعتماد تشخیص دهند که با یک انسان صحبت می‌کنند یا یک هوش مصنوعی.

محققان سه مدل زبانی بزرگ مختلف را به عنوان شاهد بالقوه به کار گرفتند که مدل‌های GPT-4، GPT 3.5 و ELIZA را شامل می‌شد. نتایج نشان داد که کاربران می‌توانند مدل‌های ELIZA و GPT-3.5 را شناسایی کنند، اما در مورد GPT-4 این چنین نیست.

لینک کوتاه: http://khabarnegaranvaresane.ir/?p=17068