×
اجتماعی
شناسه خبر : 324481
تاریخ انتشار : چهارشنبه 1405/03/27 ساعت 02:00
هوش مصنوعی هنوز حریف ریاضیدانان برتر نمی‌شود

هوش مصنوعی هنوز حریف ریاضیدانان برتر نمی‌شود

در یک ارزیابی تازه با مسائل تحقیقاتی و جدید ریاضی، چهار سیستم هوش مصنوعی نتوانستند عملکردی هم‌سطح ریاضیدانان برجسته انسانی ارائه دهند و همچنان فاصله مهارتی باقی مانده است.

نورنیوز-گروه اجتماعی: هوش مصنوعی دقیق‌ترین آزمون ریاضی خود را تاکنون پشت سر گذاشته است. نتایج آماده است و مدل‌های هوش مصنوعی که در آن شرکت کردند، به مهارت‌های حل مسئله ریاضیدانان برتر نرسیدند.

به نقل از نیچر، این آزمون بخشی از پروژه‌ای به نام First Proof به معنای اثبات اول است که هدف از آن ارزیابی توانایی هوش مصنوعی در حل سوالات پیچیده در ریاضیات است. ۱۰ مسئله ریاضی در سطح تحقیق برای چهار سیستم هوش مصنوعی مطرح شد. سپس هیئت منصفه‌ای از متخصصان انسانی ناشناس در زمینه‌های ریاضی مربوطه، پاسخ‌های مدل‌ها را ارزیابی کردند. این آزمون اولین آزمون از نوع خود بود که به طور همزمان سه شرط کلیدی را برآورده می‌کرد: اول، شامل سوالات ریاضی در سطح تحقیق بود؛ دوم، شامل مسائلی بود که در داده‌های آموزشی ظاهر نشده بودند و سوم، به طور رسمی توسط ریاضیدانان درجه‌بندی شده بود.

این یافته‌ها پس از پیشرفت‌های اخیر هوش مصنوعی در حل مسائل ریاضی رخ داده است. برای مثال، ماه گذشته، یک چت‌بات ساخته شده توسط شرکت فناوری اوپن ای‌آی در سانفرانسیسکو، کالیفرنیا، یک چالش ریاضی ۸۰ ساله را که توسط ریاضیدان فقید، پاول اردوش، مطرح شده بود، حل کرد. گروه فرست پروف می‌گوید که تکرارهای آینده این آزمون می‌تواند به محققان کمک کند تا قضاوت کنند که مدل‌های هوش مصنوعی چقدر می‌توانند به عنوان مثال، در حل خودکار مسائل، بررسی اثبات‌ها یا ایفای نقش دستیاران تحقیق برای ریاضیدانان مفید باشند.

یکی از نوآوری‌های مهم آزمون فرست پروف این بود که سوالات قبلا در هیچ کجای مقالات منتشر شده یا در اینترنت ذکر نشده بودند و این خطر را که مدل‌ها به سادگی اطلاعاتی را که در طول آموزش خود آموخته‌اند، تکرار کنند، از بین می‌برد. در عوض، ۱۰ محقق از طیف گسترده‌ای از تخصص‌های ریاضی، هر کدام سوالی را ارائه دادند که در جریان تحقیقات خود حل کرده بودند، اما هنوز منتشر نکرده بودند.

فرست پروف در ماه فوریه یک آزمون آزمایشی با دسته‌ای متفاوت از مسائل جدید برگزار کرد. در آن دور، هر کسی می‌توانست سیستم‌های هوش مصنوعی مورد علاقه خود را روی مسائل امتحان کند و بسیاری از گروه‌ها این کار را انجام دادند اما نتایج به طور رسمی تأیید نشد. همچنین هیچ راهی برای بررسی مستقل اینکه هوش مصنوعی کمکی از انسان‌ها دریافت نکرده است یا خیر، وجود نداشت. این بار، فرست پروف خودش آزمایش را اجرا کرد: گروه از مدل‌ها خواست تا مسائل را به روشی کاملاً خودکار حل کنند و گروهی متشکل از ۳۰ ریاضیدان برای بررسی پاسخ‌ها به کار گرفته شدند. جرمی آویگاد، ریاضیدان و رئیس موسسه استدلال به کمک رایانه در ریاضیات در دانشگاه کارنگی ملون در پیتسبورگ، پنسیلوانیا، می‌گوید: برگزارکنندگان به وضوح با دقت بیشتری به دسته دوم فکر کرده‌اند تا آن را کنترل‌شده‌تر و سیستماتیک‌تر کنند.

قانون دیگر این بود که مدل‌های شرکت‌کننده باید در دسترس عموم باشند. این بدان معنا بود که Aletheia گوگل که سیستمی است که به طور خاص برای حل مسائل ریاضی طراحی شده است و نسخه کامل و منتشر نشده  Claude Mythos، مدلی که توسط آنتروپیک در سانفرانسیسکو، کالیفرنیا ساخته شده است، قابل استفاده نبودند. اوپن ای‌آی تنها شرکت بزرگی بود که با مدل ChatGPT ۵.۵ Pro خود در این آزمایش شرکت کرد.

سیستم‌های دیگر توسط سه گروه دانشگاهی، از دانشگاه کالیفرنیا، لس‌آنجلس (UCLA،  دانشگاه پرینستون در نیوجرسی و موسسه فناوری فدرال سوئیس (ETH) در زوریخ ارائه شدند. هر سه دانشگاه، «مهارهایی» بر روی چت‌بات‌های موجود، مانند  چت جی‌پی‌تی، جمینای گوگل و نسخه عمومی کلاود آنتروپیک ساختند. مهار، سیستمی خودکار است که از یک چت‌بات سوالی می‌پرسد و پاسخ آن توسط یک چت‌بات دیگر، اغلب با رفت و برگشت‌های مکرر، بررسی می‌شود.

نتایج ریاضی

مدل تیم موسسه فناوری فدرال سوئیس بهترین عملکرد را داشت و ۶ از ۱۰ مسئله را با سیستمی حل کرد که در آن پاسخ‌های چت جی‌پی‌تی توسط یک «شورای مشورتی» متشکل از هر سه چت‌بات اصلی بررسی شده یا بهبود یافته بود. تیم دانشگاه کالیفرنیا، لس‌آنجلس که یک مهار بر روی چت جی‌پی‌تی ساخته بود، دومین تیم برتر بود و پس از آن تیم چت جی‌پی‌تی اوپن ای‌آی بدون مهار و پرینستون مهاره‌ای که عمدتا از Gemini ۳.۱ Pro به عنوان پشتیبان خود استفاده می‌کند، قرار گرفتند.

یوهانس اشمیت، ریاضیدانی که عضوی از تیم موسسه فناوری فدرال سوئیس بود، می‌گوید که برای تنظیم دقیق سیستم خود قبل از مسابقه، او و همکارانش با جامعه ریاضی گسترده‌تر تماس گرفتند و از آنها مسائل را درخواست کردند. پاسخ شگفت‌انگیز بود: ظرف چند روز، ۳۰ مسئله ارسالی از حوزه‌های مختلف ریاضیات دریافت کردیم و مردم بسیار کنجکاو و روشنفکر بودند.

لورن ویلیامز، ریاضیدان دانشگاه هاروارد در کمبریج، ماساچوست و عضو تیم فرست پروف، می‌گوید: مشخص نیست که آیا مسائل حل نشده لزوما سخت‌تر از بقیه بوده‌اند یا خیر. او می‌افزاید: من فکر می‌کنم مسائلی که حل نشده بودند، چه از نظر موضوع و چه از نظر ایده‌های اثبات، از چیزهایی که قبلا در مقالات علمی آمده بودند، دورتر بودند.

مدل‌های استدلال همچنین مستعد توهم یا تولید خروجی‌های واقعا نادرست بودند، حتی زمانی که صریحا به آنها گفته می‌شد که منابع خود را بررسی کنند که مشکلی شناخته شده در مدل‌های زبانی بزرگ است.

ویلیامز می‌گوید که از کمبود «شدید» استناد در تمام پاسخ‌های مدل‌های هوش مصنوعی شگفت‌زده شده است به ویژه در مورد مسئله ۲، که چندین مدل با اقتباس از روشی که یک مسئله مشابه در گذشته توسط انسان‌ها حل شده بود، آن را حل کردند. چندین راه حل، در برخی موارد، کپی کردن عبارات از مقاله قبلی به صورت خط به خط و استفاده مجدد از نمادگذاری‌ها و اصطلاحات دقیق بود، اما هرگز به آن مقاله در هیچ کجا استناد نکردند.

اکنون که مسائل فرست پروف منتشر شده‌اند، شرکت‌هایی که رسما در آن شرکت نکرده‌اند، احتمالا از آنها برای آزمایش غیررسمی سیستم‌های خود استفاده خواهند کرد. کوین بارتو، ریاضیدان دانشگاه کمبریج انگلستان که معیارهای ریاضی غیررسمی خود را برای هوش مصنوعی اجرا کرده است، می‌گوید: شخصا از دیدن مدل‌های داخلی آزمایش‌ شده از سه آزمایشگاه لذت می‌بردم، فقط برای اینکه ببینم مرز واقعی در حال حاضر کجاست.


نظرات

آخرین اخبار
هوش مصنوعی در آزمون تمرکز از انسان عقب ماند
نابغه 10 ساله‌ای که دنیای مد را شگفت‌زده کرد
هوش مصنوعی هنوز حریف ریاضیدانان برتر نمی‌شود
آتش‌سوزی در الخضیره؛ اختلال برقی علت احتمالی حادثه
روسیه: به تحریم‌های جدید اروپا پاسخ مؤثر می‌دهیم
هشدار قرارگاه خاتم‌الانبیا به رژیم صهیونیستی
ابلاغ دستورالعمل بهداشتی نذورات محرم و صفر
رهبر انصارالله: ایران در برابر طاغوت زمان به پیروزی عظیمی دست یافت
توقف مجوز تولید خودروهای مونتاژی با ارزبری بالا
عصر زیر پا گذاشتن حقوق ملت ایران تمام شده است
ثبت‌نام حج 1406 زودتر آغاز می‌شود
عرضه 5.7 همت کالا در مزایده اموال تملیکی آغاز شد
دیدار سفرای آمریکای لاتین مقیم تهران با عراقچی
بازداشت چند نفر پس از ادعای توطئه در کاخ سفید
پاپ از توافق ایران و آمریکا استقبال کرد
رفیعی: کاهش مصرف پلاستیک، راهی برای تقویت تاب‌آوری اقتصادی است
بیانیه وزارت دفاع روسیه درباره شلیک هشدار به قایق انگلیسی
ترکیب نهایی فرنگی‌کاران ایران برای قهرمانی جهان اعلام شد
چگونه مذاکرات جمعه را به امر ملی پیوند بزنیم؟
چین: جامعه بین‌الملل از مذاکرات ایران و آمریکا حمایت کند
امکان خرید با کارت های بانکی ایرانی در روسیه به‌زودی فراهم می‌شود
هریس: آمریکا در نهایت به برجام بازمی‌گردد
روایت همتی از سازوکار اطمینان‌بخش آزادسازی منابع بلوکه‌شده
سیمایی رئیس کارگروه دانشگاهیان مراسم تشییع رهبر شهید شد
هیچ پیشنهادی برای دیدار پوتین و زلنسکی در آمریکا دریافت نشده است
دوران پساجنگ نیازمند حکمرانی جدی‌تر در حوزه زنان و خانواده است
استقلال غافلگیر نمی‌شود؛ دو سناریو برای نقل‌وانتقالات طراحی شد
سازمان ملل: توافق ایران و آمریکا می‌تواند نقطه عطف صلح یمن باشد
حکیم: انحصار سلاح به معنای تضعیف الحشد الشعبی نیست
«باید برخاست»، شعار محوری و «مشت گره‌کرده»، نشان رسمی مراسم «بدرقه آقای شهید ایران»
عکس های منتخب جام جهانی 2026 - روز چهارم
بمباران مناطق مسکونی در جنوب لبنان؛4 شهید و زخمی
نخست‌وزیر عراق از توافق آمریکا و ایران استقبال کرد
سی‌ان‌ان: ایران توان بستن تنگه هرمز را در اختیار دارد
اکران خصوصی «نیم‌شب» با حضور رئیس‌جمهور و خانواده شهدای سلامت برگزار شد
تحلیلگر اسرائیلی: احساس شکست در اسرائیل عمیق‌تر از جنگ33 روزه است
پیش بینی قیمت طلا و سکه چهارشنبه 27 خرداد 1405
ادعای رسانه اسرائیلی: تل‌آویو از مفاد توافق ایران و آمریکا بی‌خبر است
ایران نیوزلند در جمع 4 بازی پرتماشاگر جام جهانی
تأکید عراقچی و البوسعیدی بر ثبات دریایی در تنگه هرمز
رئیس جمهور: ایران خود را برای همه گزینه‌ها آماده کرده است
ترامپ در حال بررسی برکناری مقامات ارشد به دلیل مخالفت با توافق ایران
پزشکیان: مأموریت نظام سلامت فراتر از درمان بیماری‌هاست
برنامه آزمون‌های نهایی تیر و مرداد 1405 اعلام شد
قیمت نقره امروز سه شنبه 26 خرداد 1405 +جدول
پیش‌ بینی قیمت دلار چهارشنبه 27 خرداد 1405 / دلار در مسیر از دست‌دادن خطوط حمایت
لاوروف: عضویت اوکراین در اتحادیه اروپا می‌تواند به فروپاشی این اتحادیه منجر شود
توافق ایران و آمریکا در سوئیس امضا می‌شود
سردار ابن‌الرضا: در جریان جنگ تولید سلاح‌های پیشرفته متوقف نشد
سیاست خارجی اروپا میان ادعا و واقعیت