نخبگان ایرانی در المپیاد جهانی ریاضی ۲۰۲۵، هوش مصنوعی را شکست دادند

به گزارش خبرگزاری آنا؛ پس از برگزاری شصتوششمین دوره المپیاد جهانی ریاضی (IMO ۲۰۲۵) که امسال در استرالیا برگزار شد، وبسایت مثارنا ارزیابی تازهای از توانمندی مدلهای زبانی پیشرفته در حل مسائل این رقابت معتبر منتشر کرد. نتایج بهدستآمده از این آزمایش نشان میدهد که هیچیک از مدلهای هوش مصنوعی بررسیشده موفق به کسب امتیاز کافی برای دریافت مدال برنز نشدهاند.
در این ارزیابی، پنج مدل زبانی پیشرفته شامل Gemini ۲.۵ Pro ،o۳ (high) ،o۴-mini ،Grok-۴ و DeepSeek-R۱ در برابر پرسشهای ششگانه المپیاد ریاضی قرار گرفتند. هر مدل مجاز بود برای هر سوال چهار پاسخ مجزا ارائه دهد. این پاسخها پس از عبور از مرحله انتخاب بهترین خروجی (best-of-n) توسط تیمی از چهار داور دارای تجربه در سطح المپیاد بینالمللی مورد بررسی قرار گرفتند.
به گفته مثارنا، مدل Gemini ۲.۵ Pro با کسب ۱۳ امتیاز از مجموع ۴۲ امتیاز ممکن و دقت میانگین ۳۱ درصدی، بالاترین عملکرد را در میان مدلهای بررسیشده داشت. با این حال، این عدد همچنان کمتر از حداقل امتیاز لازم برای مدال برنز یعنی ۱۹ امتیاز بود. مدل o۳ (high) نیز با کسب ۱۶ درصد دقت و هزینه کمتر، جایگاه دوم را به خود اختصاص داد. در سوی دیگر، مدل Grok-۴ با وجود صرف هزینهای بیش از ۵۰۰ دلار، تنها به دقت ۱۱ درصدی دست یافت و هیچ سوالی را بیش از نیمی از راه حل نکرد.
از جمله نکات قابلتوجه این ارزیابی، تفاوت معنادار میان نتایج بهدستآمده از این آزمون با بنچمارکهای رسمی ارائهشده از سوی شرکتهای سازنده مدلها بود. کارشناسان مثارنا علت اصلی این اختلاف را عدم آموزش مستقیم مدلها بر روی سوالات المپیادهای اخیر دانستند. سوالات المپیاد جهانی ریاضی بهطور مداوم تغییر میکنند و الگوهای تازهای را ارائه میدهند؛ امری که باعث میشود مدلهای فعلی با چالشهای پیشبینینشدهای مواجه شوند.
در روش ارزیابی مثارنا، برای هر مسئله، ۳۲ پاسخ مختلف از مدلها تولید شد. این پاسخها سپس در قالب رقابتی درونمدلی (برنده از میان دو پاسخ) توسط همان مدل ارزیابی شدند تا بهترین پاسخ نهایی انتخاب شود. این پاسخ برتر سپس در اختیار داوران انسانی قرار گرفت. هزینه نهایی تولید هر پاسخ در این فرآیند بین ۳ تا ۲۰ دلار برآورد شده است.
بررسی کیفی پاسخها نشان میدهد که برخی از مدلها همچنان در شناسایی صحیح ساختارهای اثباتی دچار مشکلاند. بهویژه مدل Grok-۴ اغلب پاسخهایی بدون توضیح کافی ارائه میداد و تنها به نتیجه نهایی اشاره میکرد. از سوی دیگر، مدل Gemini ۲.۵ Pro گاهی به نقل قول از قضایای غیرواقعی متوسل میشد که به گفته کارشناسان میتواند اعتماد به خروجی مدل را کاهش دهد.
همچنین در ارزیابیها مشخص شد که مدلها بهطور نسبی در حل دو سوال چهارم و پنجم عملکرد بهتری داشتند و در برخی موارد استراتژیهای درستی را اتخاذ کردند، اما در مرحله نهایی اثبات دچار لغزش شدند. این الگو نشان میدهد که در صورت رفع مشکلات منطقی موجود، امکان بهبود عملکرد مدلها در رقابتهای مشابه در آینده وجود دارد.
بررسی اولیه پاسخهای خام مدلها نیز بیانگر آن است که بدون استفاده از روش انتخاب بهترین پاسخ، میانگین دقت مدلها به کمتر از ۱۰ درصد میرسید. به اعتقاد داوران، برخی پاسخهایی که در نهایت انتخاب نشدند، گرچه از نظر نگارشی ساختیافتهتر بهنظر میرسیدند، اما دارای اشتباهات محتوایی بیشتری بودند.
وبسایت مثارنا که هدف خود را ارائه ارزیابیهای دقیق، قابل تکرار و بدون آلایش از توان مدلهای زبانی در مسائل پیشرفته ریاضی تعریف کرده، اعلام کرده است که تمامی خروجیها، سوالات و نتایج داوری بهصورت کامل در اختیار عموم قرار دارد و پژوهشگران میتوانند تحلیلهای دقیقتری از عملکرد مدلها ارائه دهند.
گفتنی است در جریان برگزاری المپیاد جهانی ریاضی ۲۰۲۵، تیم ایران موفق به کسب دو مدال طلا، سه مدال نقره و یک مدال برنز شد. این عملکرد درخشان بار دیگر جایگاه ایران را در میان تیمهای برتر جهانی تثبیت کرد.
انتهای پیام/