مدلهای زبان بزرگ، مانند ChatGPT-4، دارای توانایی غیرمنتظرهای برای حل وظایفی هستند که معمولاً برای ارزیابی توانایی انسانی به نام «نظریه ذهن» استفاده میشوند.
به گزارش سرویس اخبار هوش مصنوعی سایت شات ایکس و به نقل از ایتنا یک مطالعه جدید که در نشریه Proceedings of the National Academy of Sciences منتشر شده، نشان میدهد که مدلهای زبان بزرگ، مانند ChatGPT-4، دارای توانایی غیرمنتظرهای برای حل وظایفی هستند که معمولاً برای ارزیابی توانایی انسانی به نام «نظریه ذهن» استفاده میشوند.
به گزارش ایتنا، یک روانشناس محاسباتی از دانشگاه استنفورد گزارش داد که ChatGPT-4 موفق به تکمیل ۷۵ درصد از این وظایف شده و عملکرد آن با یک کودک شش ساله متوسط برابر است. این یافتهها نشاندهنده پیشرفتهای قابل توجهی در ظرفیت هوش مصنوعی برای استدلال اجتماعی مرتبط است.
مدلهای زبان بزرگ (LLMs) سیستمهای پیشرفته هوش مصنوعی هستند که برای پردازش و تولید متنهای شبیه به انسان طراحی شدهاند. این مدلها با تحلیل الگوها در مجموعه دادههای وسیع شامل زبان از کتابها، وبسایتها و منابع دیگر، به پیشبینی کلمات یا عبارات بعدی در یک توالی میپردازند. نظریه ذهن به توانایی درک و استنباط حالات ذهنی افراد مانند باورها، خواستهها و احساسات آنها اشاره دارد.
محقق ارشد این مطالعه، میچال کازینسکی، توضیح میدهد که الگوریتمهای طراحی شده برای پیشبینی رفتار انسانی فراتر از مدلسازی رفتار عمل میکنند. وی تاکید کرد: برای پیشبینی رفتار، لازم است فرآیندهای روانشناختی زیر بنایی را مدلسازی کنیم.
کازینسکی از وظایف"باور غلط (false-belief)" استفاده کرد تا توانایی LLMها را در شبیهسازی استدلال انسانی درباره باورهای دیگران ارزیابی کند.
در وظیفه "محتوای غیرمنتظره" (Smarties Task)، شخصیت اصلی با شیئی مواجه میشود که با برچسب آن مطابقت ندارد. به عنوان مثال، اگر شخصیت اصلی کیسهای با برچسب «شکلات» پیدا کند که در واقع حاوی پاپکرن باشد، مدل باید استنباط کند که شخصیت اصلی تصور میکند کیسه حاوی شکلات است.
به گزارش ایتنا، کازینسکی ۴۰ سناریوی false-belief منحصر به فرد را توسعه داد و دریافت که مدلهای اولیه مانند GPT-1 و GPT-2 هیچ توانایی در حل این وظایف نداشتند. اما ChatGPT-4 موفق شد ۷۵ درصد از وظایف را حل کند که معادل عملکرد یک کودک شش ساله بود.
کازینسکی گفت: آنچه بیشتر من را شگفتزده کرد سرعت پیشرفت بود. " ChatGPT-4 در وظایفی که نیاز به درک باورهای غلط داشت، به ویژه در سناریوهای ساده، عملکرد بسیار خوبی داشت و ۹۰ درصد موفقیت را کسب کرد. این یافتهها نشان میدهد که مدلهای زبان بزرگ، به ویژه ChatGPT-4، قابلیتهایی برای شبیهسازی استدلال مشابه نظریه ذهن دارند.
با وجود عملکرد قابل توجه، ChatGPT-4 هنوز نتوانست ۲۵ درصد از وظایف را حل کند، که محدودیتهایی در درک آن را نشان میدهد. کازینسکی اظهار داشت: "پیشرفت هوش مصنوعی در زمینههایی که زمانی به طور خاص انسانی محسوب میشدند، سوالات عمیقی درباره پتانسیل آگاهی هوش مصنوعی ایجاد میکند."
این مطالعه تأثیرات قابل توجهی بر فهم انسان از قابلیتهای انسانی و مصنوعی دارد و ممکن است به توسعه هوش مصنوعی امنتر کمک کند.