هوش مصنوعی، نمرات دانشجویان را به صورت غیرواقعی بالا میبرد
به گزارش خبرگزاری آنا، پژوهش تازهای از دانشگاه کالیفرنیا در برکلی نشان میدهد بخش مهمی از تورم نمرات در دانشگاههای آمریکا، نه نتیجه سهلگیری اساتید، بلکه پیامد مستقیم استفاده دانشجویان از هوش مصنوعی برای انجام تکالیف است. بررسی هشت سال داده از بیش از نیممیلیون ثبتنام دانشجویی نشان میدهد در دروسی که بیشتر مستعد جایگزینی با هوش مصنوعی هستند، سهم نمرات A پس از ورود چتجیپیتی تا ۳۰٪ افزایش یافته است.
در ماه گذشته، نشریات آتلانتیک مانتلی، هاروارد مگزین، نشنال ریویو (با گرایش محافظهکار) و نیچر مقالاتی درباره تورم نمرات منتشر کردهاند که در آنها «مقصرهای همیشگی» معرفی شدهاند: استادان بیاراده، دانشجویان لوسشدهای که میخواهند مانند مشتری با آنها رفتار شود (همانطور که مدیران دانشگاهها آنها را مشتری مینامند)، و افت کلی استانداردهای آکادمیک.
دکتر ایگور چیریکوف، پژوهشگر ارشد مرکز مطالعات آموزش عالی دانشگاه کالیفرنیا در برکلی، در مقاله تازهمنتشرشدهاش با عنوان «هوش مصنوعی و تورم نمرات»، عامل جدیدی را معرفی میکند: تأثیر استفاده دانشجویان از هوش مصنوعی برای نوشتن مقاله یا کد، بدون نظارت اساتید.
مطالعه چیریکوف بر روی برنامههای درسی و نمرات هشت سال یک دانشگاه پژوهشمحور در ایالت تگزاس نشان میدهد دروسی که بیشتر در معرض استفاده از هوش مصنوعی بودهاند (یعنی سهم بیشتری از تکالیف داشتهاند که هوش مصنوعی در آنها کارآمدتر است)، پس از پیدایش چتجیپیتی در سال ۲۰۲۲، افزایش قابلتوجهی در نمرات بالا تجربه کردهاند.
پس از در دسترس قرار گرفتن چتجیپیتی، درصد دانشجویانی که نمره A گرفتهاند در دروس در معرض هوش مصنوعی، نسبت به سطح پیش از چتجیپیتی، حدود ۳۰٪ افزایش یافته است؛ این در حالی است که در دروسی که کمتر در معرض هوش مصنوعی بودهاند، چنین افزایشی دیده نشده.
چیریکوف برای جدا کردن «تورم نمرات ناشی از هوش مصنوعی» از بهبود واقعی عملکرد دانشجویان (که ممکن است نتیجه آموزشیاری هوش مصنوعی یا «غربالگری» باشد - یعنی دانشجویان قویتر دروسی را انتخاب کنند که با کمک هوش مصنوعی راحتتر قابل گذراندن است)، به بررسی نحوه تغییر نمرات در دروسی پرداخت که تکالیف خانگی سهم زیادی در نمره نهایی دارند.
چیریکوف برای روشنتر شدن موضوع مثالی میزند: «فرض کنید دو نوع درس فشرده نگارش داریم که هر دو در معرض کمک هوش مصنوعی هستند. در یکی، تکالیف خانگی ۱۰٪ نمره را تشکیل میدهد و در دیگری ۴۰٪. من متوجه شدم در درسی که تکالیف خانگی وزن بیشتری دارد، افزایش نمرات هم بیشتر بوده است. این الگو نشان میدهد مکانیزم اصلی تورم نمرات، تحویل کارهای انجامشده با کمک هوش مصنوعی برای نمرهدهی است.»
دادههای مقاله «هوش مصنوعی و تورم نمرات» از ۳۱۹ درس ارائهشده در ترمهای پاییز، در ۸۴ دپارتمان، طی سالهای ۲۰۱۸ تا ۲۰۲۵ جمعآوری شده که بیش از ۵۰۰ هزار ثبتنام دانشجویی را در بر میگیرد.
این ۸۴ دپارتمان در نه حوزه علمی قرار دارند. بزرگترین حوزهها عبارتاند از: مدیریت بازرگانی (۲۱٪)، علوم اجتماعی (۲۰٪)، مهندسی (۱۵٪)، علوم انسانی (۱۴٪) و ریاضی-علوم کامپیوتر (۱۳٪). میانگین تعداد دانشجویان هر درس ۱۹۹ نفر بوده است.
درباره این مطالعه
چیریکوف چند دلیل برای انجام این پژوهش داشته است.
نخست، همانطور که در مرور پیشینه پژوهشی مقاله آمده، تورم نمرات نگرانی رو به رشدی بوده است. بر اساس مطالعهای در سال ۲۰۲۵ از سوی پروفسور آماندا کلیبو، معاون آموزش دانشجویان دوره کارشناسی دانشگاه هاروارد، سهم نمرات A اعطاشده در کالج هاروارد بین سالهای ۲۰۰۵ تا ۲۰۲۵ از ۲۴٪ به ۶۰.۲٪ رسیده است.
دوم، چیریکوف میگوید: «پژوهشهای پیشین عمدتاً تورم نمرات را مشکلی در استانداردهای نمرهدهی میدانستند؛ یعنی اینکه آیا اساتید، دپارتمانها یا دانشگاهها در ارزیابی کار دانشجویان سهلگیرتر شدهاند یا نه.».
اما مطالعه چیریکوف به مکانیزم متفاوتی میپردازد: «هوش مصنوعی ممکن است نحوه تولید کاری را که نمره میگیرد تغییر دهد، پیش از آنکه اساتید آن را ببینند. اگر هوش مصنوعی هیچ تأثیری نداشت، باید انتظار داشتیم توزیع نمرات در دروس با و بدون استفاده گسترده از هوش مصنوعی، پس از انتشار چتجیپیتی هم به همان روند موازی پیشین ادامه دهد.»
سوم، اگرچه بهطور مستقیم به هوش مصنوعی مربوط نیست، این مطالعه به چیریکوف امکان میدهد اعتبار معدل کل (GPA) را زیر سؤال ببرد؛ معدلی که در بازار کار بهعنوان معیاری از مهارتها و تواناییهای دانشجویان در نظر گرفته میشود.
چیریکوف میگوید: «معدل اهمیت دارد، چون کارفرمایان، برنامههای تحصیلات تکمیلی و حتی خود دانشجویان آن را نشانهای از مهارتها میدانند. اما اگر نمرات به این دلیل بالا برود که هوش مصنوعی کار تحویلی را بهتر کرده، نه اینکه دانشجو بیشتر یاد گرفته باشد، آنگاه این سیگنال دیگر قابلاعتماد نخواهد بود. مطالعه من نشان میدهد هوش مصنوعی این مشکل را تشدید میکند؛ چرا که بیشترین تورم نمرات دقیقاً در دروسی رخ میدهد که جایگزینی تلاش دانشجو با هوش مصنوعی سادهتر است.»
از آنجا که نمیتوان بهصورت تصادفی دسترسی به چتجیپیتی را به برخی دروس داد و به برخی نداد، این پژوهش از طرح «تفاوت در تفاوت» (difference-in-difference) استفاده میکند؛ یعنی روند نمرات در دروس با میزان بالا و پایین در معرض هوش مصنوعی را پیش و پس از انتشار چتجیپیتی مقایسه میکند. چیریکوف توضیح میدهد این روش زمانی میتواند استنتاج علّی را پشتیبانی کند که دو گروه پیش از وقوع رویداد، روند موازی داشته باشند - که در این مطالعه چنین بوده است.
علاوه بر این، چیریکوف از یک آزمون «دارونما» (placebo) برای بررسی اینکه آیا نتایج واقعاً به تکالیفی مربوط است که هوش مصنوعی در آنها توانمند است یا نه، استفاده کرد. او همان تحلیل را با استفاده از سهم ارائههای شفاهی در هر درس بهعنوان معیار میزان «مواجهه با هوش مصنوعی» تکرار کرد.
او میگوید: «از آنجا که ابزارهای فعلی هوش مصنوعی بسیار کمتر میتوانند جایگزین ارائه شفاهیِ زنده شوند تا نوشتن یا کدنویسی، اگر یافتههای اصلی واقعاً درباره جایگزینی تکلیف توسط هوش مصنوعی باشد، این معیار نباید افزایش نمره را پیشبینی کند. آزمون دارونما هیچ اثر معناداری بر نمرات نشان نداد؛ که این موضوع تفسیر ما را تأیید میکند: افزایش نمرات مختص دروسی است که در آنها توانایی هوش مصنوعی بیشترین است.»
برخی نتایج
افزایش نمرات پس از معرفی چتجیپیتی عمدتاً در بالای توزیع نمرات متمرکز بود. میانگین سهم نمرات A از ۴۴٪ در سال ۲۰۲۲ به ۴۸٪ در سال ۲۰۲۵ رسید. در همین بازه، سهم نمرات C از حدود ۸٪ به ۷٪ و نمرات D/F از ۳٪ به ۲٪ کاهش یافت.
بر اساس تحلیل علّی چیریکوف، بیشترین تأثیر مواجهه با هوش مصنوعی روی نمره A بوده است: سهم دانشجویانی که نمره A گرفتهاند در دروس با مواجهه بیشتر، ۱۳ واحد درصد افزایش یافته است. این تأثیر هر چه به پایینتر توزیع نمرات میرویم کمتر میشود - ۹ واحد درصد برای حداقل A- و ۵ واحد درصد برای حداقل B+ - و در ادامه باز هم کمتر.
نکته جالبتر اینکه اثر هوش مصنوعی خیلی زود ظاهر شده است. در نموداری با عنوان «اثرات نمره بر اساس مواجهه با هوش مصنوعی (آستانههای تجمعی)»، سهم دانشجویان دارای نمره A در سال ۲۰۲۳ (نخستین ترم کامل پس از در دسترس قرار گرفتن گسترده چتجیپیتی) حدود ۱۰ واحد درصد افزایش یافته و در سال ۲۰۲۴ باز هم بیشتر شده است.
شواهد علّی
این تحقیق شواهدی علّی ارائه میدهد که نشان میدهد موج فعلی تورم نمرات، دستکم تا حدی، ناشی از بهرهبرداری دانشجویان از فناوری جدید در دسترسشان است. بنابراین، این مطالعه نوعی هشدار برای اساتید است درباره نوع تکالیفی که بهعنوان کار خانگی تعیین میکنند.
چیریکوف میگوید: «همه ما باید به این فکر کنیم که چه نوع تکالیفی طراحی کنیم که بازتابدهنده خروجی کمکگرفته از هوش مصنوعی نباشد و یادگیری واقعی دانشجو را نشان دهد. ما میخواهیم دانشجویان را بر اساس آنچه واقعاً یاد گرفتهاند ارزیابی کنیم - و بهطور مشخص بر اساس مهارتهایشان - نه بر اساس اینکه چقدر میتوانند چیزی شبیه به آنچه یاد گرفتهاند ارائه دهند؛ وگرنه نمرات دیگر اطلاعاتی به ما نخواهند داد.»
انتهای پیام/