هوش مصنوعی، نمرات دانشجویان را به صورت غیرواقعی بالا می‌برد

پژوهش تازه‌ای از دانشگاه کالیفرنیا در برکلی نشان می‌دهد بخش مهمی از تورم نمرات در دانشگاه‌های آمریکا، نه نتیجه سهل‌گیری اساتید، بلکه پیامد مستقیم استفاده دانشجویان از هوش مصنوعی برای انجام تکالیف است. بررسی هشت سال داده از بیش از نیم‌میلیون ثبت‌نام دانشجویی نشان می‌دهد در دروسی که بیشتر مستعد جایگزینی با هوش مصنوعی هستند، سهم نمرات A پس از ورود چت‌جی‌پی‌تی تا ۳۰٪ افزایش یافته است.

کد خبر : 1064174

اشتراک گذاری

به گزارش خبرگزاری آنا، پژوهش تازه‌ای از دانشگاه کالیفرنیا در برکلی نشان می‌دهد بخش مهمی از تورم نمرات در دانشگاه‌های آمریکا، نه نتیجه سهل‌گیری اساتید، بلکه پیامد مستقیم استفاده دانشجویان از هوش مصنوعی برای انجام تکالیف است. بررسی هشت سال داده از بیش از نیم‌میلیون ثبت‌نام دانشجویی نشان می‌دهد در دروسی که بیشتر مستعد جایگزینی با هوش مصنوعی هستند، سهم نمرات A پس از ورود چت‌جی‌پی‌تی تا ۳۰٪ افزایش یافته است.

در ماه گذشته، نشریات آتلانتیک مانتلی، هاروارد مگزین، نشنال ریویو (با گرایش محافظه‌کار) و نیچر مقالاتی درباره تورم نمرات منتشر کرده‌اند که در آنها «مقصر‌های همیشگی» معرفی شده‌اند: استادان بی‌اراده، دانشجویان لوس‌شده‌ای که می‌خواهند مانند مشتری با آنها رفتار شود (همان‌طور که مدیران دانشگاه‌ها آنها را مشتری می‌نامند)، و افت کلی استاندارد‌های آکادمیک.

دکتر ایگور چیریکوف، پژوهشگر ارشد مرکز مطالعات آموزش عالی دانشگاه کالیفرنیا در برکلی، در مقاله تازه‌منتشرشده‌اش با عنوان «هوش مصنوعی و تورم نمرات»، عامل جدیدی را معرفی می‌کند: تأثیر استفاده دانشجویان از هوش مصنوعی برای نوشتن مقاله یا کد، بدون نظارت اساتید.

مطالعه چیریکوف بر روی برنامه‌های درسی و نمرات هشت سال یک دانشگاه پژوهش‌محور در ایالت تگزاس نشان می‌دهد دروسی که بیشتر در معرض استفاده از هوش مصنوعی بوده‌اند (یعنی سهم بیشتری از تکالیف داشته‌اند که هوش مصنوعی در آنها کارآمدتر است)، پس از پیدایش چت‌جی‌پی‌تی در سال ۲۰۲۲، افزایش قابل‌توجهی در نمرات بالا تجربه کرده‌اند.

پس از در دسترس قرار گرفتن چت‌جی‌پی‌تی، درصد دانشجویانی که نمره A گرفته‌اند در دروس در معرض هوش مصنوعی، نسبت به سطح پیش از چت‌جی‌پی‌تی، حدود ۳۰٪ افزایش یافته است؛ این در حالی است که در دروسی که کمتر در معرض هوش مصنوعی بوده‌اند، چنین افزایشی دیده نشده.

چیریکوف برای جدا کردن «تورم نمرات ناشی از هوش مصنوعی» از بهبود واقعی عملکرد دانشجویان (که ممکن است نتیجه آموزش‌یاری هوش مصنوعی یا «غربالگری» باشد - یعنی دانشجویان قوی‌تر دروسی را انتخاب کنند که با کمک هوش مصنوعی راحت‌تر قابل گذراندن است)، به بررسی نحوه تغییر نمرات در دروسی پرداخت که تکالیف خانگی سهم زیادی در نمره نهایی دارند.

چیریکوف برای روشن‌تر شدن موضوع مثالی می‌زند: «فرض کنید دو نوع درس فشرده نگارش داریم که هر دو در معرض کمک هوش مصنوعی هستند. در یکی، تکالیف خانگی ۱۰٪ نمره را تشکیل می‌دهد و در دیگری ۴۰٪. من متوجه شدم در درسی که تکالیف خانگی وزن بیشتری دارد، افزایش نمرات هم بیشتر بوده است. این الگو نشان می‌دهد مکانیزم اصلی تورم نمرات، تحویل کار‌های انجام‌شده با کمک هوش مصنوعی برای نمره‌دهی است.»

داده‌های مقاله «هوش مصنوعی و تورم نمرات» از ۳۱۹ درس ارائه‌شده در ترم‌های پاییز، در ۸۴ دپارتمان، طی سال‌های ۲۰۱۸ تا ۲۰۲۵ جمع‌آوری شده که بیش از ۵۰۰ هزار ثبت‌نام دانشجویی را در بر می‌گیرد.

این ۸۴ دپارتمان در نه حوزه علمی قرار دارند. بزرگ‌ترین حوزه‌ها عبارت‌اند از: مدیریت بازرگانی (۲۱٪)، علوم اجتماعی (۲۰٪)، مهندسی (۱۵٪)، علوم انسانی (۱۴٪) و ریاضی-علوم کامپیوتر (۱۳٪). میانگین تعداد دانشجویان هر درس ۱۹۹ نفر بوده است.

درباره این مطالعه

چیریکوف چند دلیل برای انجام این پژوهش داشته است.

نخست، همان‌طور که در مرور پیشینه پژوهشی مقاله آمده، تورم نمرات نگرانی رو به رشدی بوده است. بر اساس مطالعه‌ای در سال ۲۰۲۵ از سوی پروفسور آماندا کلی‌بو، معاون آموزش دانشجویان دوره کارشناسی دانشگاه هاروارد، سهم نمرات A اعطاشده در کالج هاروارد بین سال‌های ۲۰۰۵ تا ۲۰۲۵ از ۲۴٪ به ۶۰.۲٪ رسیده است.

دوم، چیریکوف می‌گوید: «پژوهش‌های پیشین عمدتاً تورم نمرات را مشکلی در استاندارد‌های نمره‌دهی می‌دانستند؛ یعنی این‌که آیا اساتید، دپارتمان‌ها یا دانشگاه‌ها در ارزیابی کار دانشجویان سهل‌گیرتر شده‌اند یا نه.».

اما مطالعه چیریکوف به مکانیزم متفاوتی می‌پردازد: «هوش مصنوعی ممکن است نحوه تولید کاری را که نمره می‌گیرد تغییر دهد، پیش از آن‌که اساتید آن را ببینند. اگر هوش مصنوعی هیچ تأثیری نداشت، باید انتظار داشتیم توزیع نمرات در دروس با و بدون استفاده گسترده از هوش مصنوعی، پس از انتشار چت‌جی‌پی‌تی هم به همان روند موازی پیشین ادامه دهد.»

سوم، اگرچه به‌طور مستقیم به هوش مصنوعی مربوط نیست، این مطالعه به چیریکوف امکان می‌دهد اعتبار معدل کل (GPA) را زیر سؤال ببرد؛ معدلی که در بازار کار به‌عنوان معیاری از مهارت‌ها و توانایی‌های دانشجویان در نظر گرفته می‌شود.

چیریکوف می‌گوید: «معدل اهمیت دارد، چون کارفرمایان، برنامه‌های تحصیلات تکمیلی و حتی خود دانشجویان آن را نشانه‌ای از مهارت‌ها می‌دانند. اما اگر نمرات به این دلیل بالا برود که هوش مصنوعی کار تحویلی را بهتر کرده، نه این‌که دانشجو بیشتر یاد گرفته باشد، آنگاه این سیگنال دیگر قابل‌اعتماد نخواهد بود. مطالعه من نشان می‌دهد هوش مصنوعی این مشکل را تشدید می‌کند؛ چرا که بیشترین تورم نمرات دقیقاً در دروسی رخ می‌دهد که جایگزینی تلاش دانشجو با هوش مصنوعی ساده‌تر است.»

از آنجا که نمی‌توان به‌صورت تصادفی دسترسی به چت‌جی‌پی‌تی را به برخی دروس داد و به برخی نداد، این پژوهش از طرح «تفاوت در تفاوت» (difference-in-difference) استفاده می‌کند؛ یعنی روند نمرات در دروس با میزان بالا و پایین در معرض هوش مصنوعی را پیش و پس از انتشار چت‌جی‌پی‌تی مقایسه می‌کند. چیریکوف توضیح می‌دهد این روش زمانی می‌تواند استنتاج علّی را پشتیبانی کند که دو گروه پیش از وقوع رویداد، روند موازی داشته باشند - که در این مطالعه چنین بوده است.

علاوه بر این، چیریکوف از یک آزمون «دارونما» (placebo) برای بررسی این‌که آیا نتایج واقعاً به تکالیفی مربوط است که هوش مصنوعی در آنها توانمند است یا نه، استفاده کرد. او همان تحلیل را با استفاده از سهم ارائه‌های شفاهی در هر درس به‌عنوان معیار میزان «مواجهه با هوش مصنوعی» تکرار کرد.

او می‌گوید: «از آنجا که ابزار‌های فعلی هوش مصنوعی بسیار کمتر می‌توانند جایگزین ارائه شفاهیِ زنده شوند تا نوشتن یا کدنویسی، اگر یافته‌های اصلی واقعاً درباره جایگزینی تکلیف توسط هوش مصنوعی باشد، این معیار نباید افزایش نمره را پیش‌بینی کند. آزمون دارونما هیچ اثر معناداری بر نمرات نشان نداد؛ که این موضوع تفسیر ما را تأیید می‌کند: افزایش نمرات مختص دروسی است که در آنها توانایی هوش مصنوعی بیشترین است.»

برخی نتایج

افزایش نمرات پس از معرفی چت‌جی‌پی‌تی عمدتاً در بالای توزیع نمرات متمرکز بود. میانگین سهم نمرات A از ۴۴٪ در سال ۲۰۲۲ به ۴۸٪ در سال ۲۰۲۵ رسید. در همین بازه، سهم نمرات C از حدود ۸٪ به ۷٪ و نمرات D/F از ۳٪ به ۲٪ کاهش یافت.

بر اساس تحلیل علّی چیریکوف، بیشترین تأثیر مواجهه با هوش مصنوعی روی نمره A بوده است: سهم دانشجویانی که نمره A گرفته‌اند در دروس با مواجهه بیشتر، ۱۳ واحد درصد افزایش یافته است. این تأثیر هر چه به پایین‌تر توزیع نمرات می‌رویم کمتر می‌شود - ۹ واحد درصد برای حداقل A- و ۵ واحد درصد برای حداقل B+ - و در ادامه باز هم کمتر.

نکته جالب‌تر این‌که اثر هوش مصنوعی خیلی زود ظاهر شده است. در نموداری با عنوان «اثرات نمره بر اساس مواجهه با هوش مصنوعی (آستانه‌های تجمعی)»، سهم دانشجویان دارای نمره A در سال ۲۰۲۳ (نخستین ترم کامل پس از در دسترس قرار گرفتن گسترده چت‌جی‌پی‌تی) حدود ۱۰ واحد درصد افزایش یافته و در سال ۲۰۲۴ باز هم بیشتر شده است.

شواهد علّی

این تحقیق شواهدی علّی ارائه می‌دهد که نشان می‌دهد موج فعلی تورم نمرات، دست‌کم تا حدی، ناشی از بهره‌برداری دانشجویان از فناوری جدید در دسترس‌شان است. بنابراین، این مطالعه نوعی هشدار برای اساتید است درباره نوع تکالیفی که به‌عنوان کار خانگی تعیین می‌کنند.

چیریکوف می‌گوید: «همه ما باید به این فکر کنیم که چه نوع تکالیفی طراحی کنیم که بازتاب‌دهنده خروجی کمک‌گرفته از هوش مصنوعی نباشد و یادگیری واقعی دانشجو را نشان دهد. ما می‌خواهیم دانشجویان را بر اساس آنچه واقعاً یاد گرفته‌اند ارزیابی کنیم - و به‌طور مشخص بر اساس مهارت‌هایشان - نه بر اساس این‌که چقدر می‌توانند چیزی شبیه به آنچه یاد گرفته‌اند ارائه دهند؛ وگرنه نمرات دیگر اطلاعاتی به ما نخواهند داد.»

انتهای پیام/