16:16 28 / 04 /1404

نخبگان ایرانی در المپیاد جهانی ریاضی ۲۰۲۵، هوش مصنوعی را شکست دادند

نخبگان ایرانی در المپیاد جهانی ریاضی ۲۰۲۵، هوش مصنوعی را شکست دادند
مدل‌های زبانی پیشرفته در رقابت‌های اخیر المپیاد جهانی ریاضی حتی موفق به کسب مدال برنز نشدند، درحالی‌که نخبگان ایرانی دو طلا، سه نقره و یک برنز به دست آوردند.

به گزارش خبرگزاری آنا؛ پس از برگزاری شصت‌وششمین دوره المپیاد جهانی ریاضی (IMO ۲۰۲۵) که امسال در استرالیا برگزار شد، وب‌سایت مث‌ارنا ارزیابی تازه‌ای از توانمندی مدل‌های زبانی پیشرفته در حل مسائل این رقابت معتبر منتشر کرد. نتایج به‌دست‌آمده از این آزمایش نشان می‌دهد که هیچ‌یک از مدل‌های هوش مصنوعی بررسی‌شده موفق به کسب امتیاز کافی برای دریافت مدال برنز نشده‌اند.

در این ارزیابی، پنج مدل زبانی پیشرفته شامل Gemini ۲.۵ Pro ،o۳ (high) ،o۴-mini ،Grok-۴ و DeepSeek-R۱ در برابر پرسش‌های شش‌گانه المپیاد ریاضی قرار گرفتند. هر مدل مجاز بود برای هر سوال چهار پاسخ مجزا ارائه دهد. این پاسخ‌ها پس از عبور از مرحله انتخاب بهترین خروجی (best-of-n) توسط تیمی از چهار داور دارای تجربه در سطح المپیاد بین‌المللی مورد بررسی قرار گرفتند.

به گفته مث‌ارنا، مدل Gemini ۲.۵ Pro با کسب ۱۳ امتیاز از مجموع ۴۲ امتیاز ممکن و دقت میانگین ۳۱ درصدی، بالاترین عملکرد را در میان مدل‌های بررسی‌شده داشت. با این حال، این عدد همچنان کمتر از حداقل امتیاز لازم برای مدال برنز یعنی ۱۹ امتیاز بود. مدل o۳ (high) نیز با کسب ۱۶ درصد دقت و هزینه کمتر، جایگاه دوم را به خود اختصاص داد. در سوی دیگر، مدل Grok-۴ با وجود صرف هزینه‌ای بیش از ۵۰۰ دلار، تنها به دقت ۱۱ درصدی دست یافت و هیچ سوالی را بیش از نیمی از راه حل نکرد.

از جمله نکات قابل‌توجه این ارزیابی، تفاوت معنادار میان نتایج به‌دست‌آمده از این آزمون با بنچمارک‌های رسمی ارائه‌شده از سوی شرکت‌های سازنده مدل‌ها بود. کارشناسان مث‌ارنا علت اصلی این اختلاف را عدم آموزش مستقیم مدل‌ها بر روی سوالات المپیاد‌های اخیر دانستند. سوالات المپیاد جهانی ریاضی به‌طور مداوم تغییر می‌کنند و الگو‌های تازه‌ای را ارائه می‌دهند؛ امری که باعث می‌شود مدل‌های فعلی با چالش‌های پیش‌بینی‌نشده‌ای مواجه شوند.

در روش ارزیابی مث‌ارنا، برای هر مسئله، ۳۲ پاسخ مختلف از مدل‌ها تولید شد. این پاسخ‌ها سپس در قالب رقابتی درون‌مدلی (برنده از میان دو پاسخ) توسط همان مدل ارزیابی شدند تا بهترین پاسخ نهایی انتخاب شود. این پاسخ برتر سپس در اختیار داوران انسانی قرار گرفت. هزینه نهایی تولید هر پاسخ در این فرآیند بین ۳ تا ۲۰ دلار برآورد شده است.

بررسی کیفی پاسخ‌ها نشان می‌دهد که برخی از مدل‌ها همچنان در شناسایی صحیح ساختار‌های اثباتی دچار مشکل‌اند. به‌ویژه مدل Grok-۴ اغلب پاسخ‌هایی بدون توضیح کافی ارائه می‌داد و تنها به نتیجه نهایی اشاره می‌کرد. از سوی دیگر، مدل Gemini ۲.۵ Pro گاهی به نقل قول از قضایای غیرواقعی متوسل می‌شد که به گفته کارشناسان می‌تواند اعتماد به خروجی مدل را کاهش دهد.

همچنین در ارزیابی‌ها مشخص شد که مدل‌ها به‌طور نسبی در حل دو سوال چهارم و پنجم عملکرد بهتری داشتند و در برخی موارد استراتژی‌های درستی را اتخاذ کردند، اما در مرحله نهایی اثبات دچار لغزش شدند. این الگو نشان می‌دهد که در صورت رفع مشکلات منطقی موجود، امکان بهبود عملکرد مدل‌ها در رقابت‌های مشابه در آینده وجود دارد.

بررسی اولیه پاسخ‌های خام مدل‌ها نیز بیانگر آن است که بدون استفاده از روش انتخاب بهترین پاسخ، میانگین دقت مدل‌ها به کمتر از ۱۰ درصد می‌رسید. به اعتقاد داوران، برخی پاسخ‌هایی که در نهایت انتخاب نشدند، گرچه از نظر نگارشی ساخت‌یافته‌تر به‌نظر می‌رسیدند، اما دارای اشتباهات محتوایی بیشتری بودند.

وب‌سایت مث‌ارنا که هدف خود را ارائه ارزیابی‌های دقیق، قابل تکرار و بدون آلایش از توان مدل‌های زبانی در مسائل پیشرفته ریاضی تعریف کرده، اعلام کرده است که تمامی خروجی‌ها، سوالات و نتایج داوری به‌صورت کامل در اختیار عموم قرار دارد و پژوهشگران می‌توانند تحلیل‌های دقیق‌تری از عملکرد مدل‌ها ارائه دهند.

گفتنی است در جریان برگزاری المپیاد جهانی ریاضی ۲۰۲۵، تیم ایران موفق به کسب دو مدال طلا، سه مدال نقره و یک مدال برنز شد. این عملکرد درخشان بار دیگر جایگاه ایران را در میان تیم‌های برتر جهانی تثبیت کرد.

انتهای پیام/

ارسال نظر
رسپینا
گوشتیران
قالیشویی ادیب