×
اجتماعی
شناسه خبر : 311914
تاریخ انتشار : چهارشنبه 1405/02/02 ساعت 08:48
چرا نباید از هوش مصنوعی مشورت پزشکی بگیریم؟

چرا نباید از هوش مصنوعی مشورت پزشکی بگیریم؟

نتایج یک مطالعه نشان می‌دهد هوش مصنوعی در حدود نیمی از موارد، توصیه‌های نامناسب یا مشکل‌ساز درباره سلامت ارائه می‌کند و کارشناسان تأکید دارند تصمیم‌های پزشکی باید بر پایه نظر پزشک متخصص اتخاذ شود.

 نورنیوز-گروه اجتماعی:تصور کنید که دور از جانتان به تازگی سرطان در مراحل اولیه در شما تشخیص داده شده است و قبل از ملاقات بعدی با پزشکتان، سوالی را در یک چت‌بات هوش مصنوعی تایپ می‌کنید مبنی بر اینکه «کدام کلینیک‌ها می‌توانند سرطان را با موفقیت درمان کنند؟»

در عرض چند ثانیه، پاسخی شسته‌رفته و پاورقی‌دار دریافت می‌کنید که انگار توسط یک پزشک متخصص نوشته شده است.

به ادعاهایی که بی‌اساس هستند، پاورقی‌ها به جایی نمی‌رسند و چت‌بات هرگز اشاره نمی‌کند که خود سوال ممکن است سوال اشتباهی برای پرسیدن باشد.

این سناریو فرضی نیست. تقریباً می‌توان گفت این همان چیزی است که تیمی متشکل از هفت محقق هنگام قرار دادن پنج چت‌بات محبوب جهان در یک تست استرس سیستماتیک اطلاعات سلامت به آن دست یافتند و نتایج آن در مجله BMJ Open منتشر شده است.

از هر کدام از چت‌بات‌های ChatGPT، Gemini، Grok، Meta AI و DeepSeek، 50 سوال در مورد سلامت و پزشکی در مورد سرطان، واکسن‌ها، سلول‌های بنیادی، تغذیه و عملکرد ورزشی پرسیده شد.

دو متخصص به طور مستقل هر پاسخ را ارزیابی کردند. آنها دریافتند که تقریباً 20 درصد از پاسخ‌ها «بسیار مشکل‌ساز»، نیمی از آنها «مشکل‌ساز» و 30 درصد «تا حدودی مشکل‌ساز» بودند.

هیچ یک از چت‌بات‌ها به طور قابل اعتمادی فهرست‌های مرجع کاملاً دقیقی تولید نکردند و تنها دو مورد از 250 سوال به طور کامل از پاسخ دادن امتناع ورزیدند.

در مجموع، هر پنج چت‌بات تقریباً عملکرد یکسانی داشتند. گراک(Grok) بدترین عملکرد را داشت که 58 درصد از پاسخ‌هایش به عنوان «مشکل‌ساز» علامت‌گذاری شد، بالاتر از ChatGPT با 52 درصد و Meta AI با 50 درصد.

با این حال، عملکرد بر اساس موضوع متفاوت بود. چت‌بات‌ها به بهترین شکل واکسن‌ها و سرطان را مدیریت کردند که زمینه‌هایی با بدنه‌های تحقیقاتی بزرگ و ساختاریافته هستند. با این حال تقریباً یک چهارم مواقع پاسخ‌های مشکل‌دار ارائه دادند.

آنها بیشتر در مورد تغذیه و عملکرد ورزشی، حوزه‌هایی که مملو از توصیه‌های متناقض آنلاین هستند و شواهد دقیق در عمل کمتر است، دچار مشکل شدند.

سوالات با پایان باز جایی بودند که واقعاً اوضاع به هم می‌ریخت. 32 درصد از این پاسخ‌ها بسیار مشکل‌ساز ارزیابی شدند، در حالی که فقط 7 درصد برای پاسخ‌های بسته این مشکل را داشتند. این تمایز اهمیت دارد، زیرا اکثر پرسش‌های مربوط به سلامت در دنیای واقعی، پرسش‌های با پایان باز هستند.

مردم از چت‌بات‌ها سوالات درست یا غلط نمی‌پرسند. آنها چیزهایی مانند این می‌پرسند که «کدام مکمل‌ها برای سلامت به صورت کلی بهترین هستند؟» این نوع پرسش، پاسخی روان و مطمئن اما بالقوه مضر را می‌طلبد.

هنگامی که محققان از هر چت‌بات فهرست 10 مرجع علمی را خواستند، میانگین امتیاز کامل بودن آن فهرست فقط 40 درصد بود.

هیچ چت‌باتی در 25 تلاش، حتی یک فهرست مرجع کاملاً دقیق هم ارائه نکرد. خطاها از نویسندگان اشتباه و لینک‌های خراب گرفته تا مقالات کاملاً ساختگی متغیر بود.

این یک خطر خاص است، زیرا منابع مانند مدرک به نظر می‌رسند. یک خواننده غیرحرفه‌ای که یک فهرست استناد با قالب‌بندی منظم را می‌بیند، دلیل کمی برای شک به محتوای آن دارد.

چرا چت‌بات‌ها اشتباه می‌کنند؟

یک دلیل ساده وجود دارد که چرا چت‌بات‌ها پاسخ‌های پزشکی را اشتباه می‌دهند. مدل‌های زبانی همه چیز را نمی‌دانند. آنها بر اساس داده‌های آموزشی و زمینه خود، محتمل‌ترین کلمه بعدی از نظر آماری را پیش‌بینی می‌کنند. آنها شواهد را نمی‌سنجند یا قضاوت ارزشی نمی‌کنند.

مطالب آموزشی آنها شامل مقالات داوری‌شده و همچنین محتوای رِدیت، وبلاگ‌های سلامت و استدلال‌های رسانه‌های اجتماعی است.

محققان سوالات خنثی نپرسیدند. آنها عمداً دستورالعمل‌هایی را طراحی کردند که چت‌بات‌ها را به سمت ارائه پاسخ‌های گمراه‌کننده سوق دهد. این یک تکنیک استاندارد تست استرس در تحقیقات ایمنی هوش مصنوعی است که به عنوان «تیم قرمز» شناخته می‌شود.

این بدان معناست که میزان خطا احتمالاً بیش از آنچه با عبارات خنثی‌تر مواجه می‌شوید، است. این مطالعه همچنین نسخه‌های رایگان هر مدل موجود در فوریه 2025 را آزمایش کرد. نسخه‌های پولی و نسخه‌های جدیدتر ممکن است عملکرد بهتری داشته باشند.

با این حال، اکثر مردم از این نسخه‌های رایگان استفاده می‌کنند و اکثر سوالات مربوط به سلامت با دقت بیان نشده‌اند. شرایط مطالعه نشان می‌دهد که مردم واقعاً چگونه از این ابزارها استفاده می‌کنند.

یافته‌های مقاله به صورت جداگانه وجود ندارند. آنها در میان مجموعه‌ای رو به رشد از شواهد قرار می‌گیرند که تصویری منسجم را ترسیم می‌کنند.

مطالعه‌ای در فوریه 2026 در مجله Nature Medicine نکته‌ای شگفت‌انگیز را نشان داد. خود چت‌بات‌ها تقریباً در ۹۵ درصد مواقع می‌توانستند پاسخ پزشکی صحیح را دریافت کنند، اما وقتی افراد واقعی از همین چت‌بات‌ها استفاده می‌کردند، فقط کمتر از ۳۵ درصد مواقع به پاسخ صحیح می‌رسیدند که بهتر از افرادی که اصلاً از آنها استفاده نمی‌کردند، نبود.

به عبارت ساده، مسئله فقط این نیست که آیا چت‌بات پاسخ صحیح را ارائه می‌دهد یا خیر، بلکه این است که آیا کاربران روزمره می‌توانند آن پاسخ را به درستی درک و استفاده کنند یا خیر.

یک مطالعه اخیر که در مجله Jama Network Open منتشر شده است، ۲۱ مدل هوش مصنوعی پیشرو را آزمایش کرد. محققان از آنها خواستند که تشخیص‌های پزشکی احتمالی را بررسی کنند.

وقتی به مدل‌ها فقط جزئیات اولیه مانند سن، جنسیت و علائم بیمار داده می‌شد، آنها در بیش از ۸۰ درصد مواقع در ارائه مجموعه صحیحی از شرایط ممکن شکست می‌خوردند، اما هنگامی که محققان یافته‌های معاینه و نتایج آزمایشگاهی را وارد کردند، دقت به بالای ۹۰ درصد رسید.

در همین حال، یک مطالعه دیگر در ایالات متحده که در مجله Nature Communications Medicine منتشر شده است، نشان داد که چت‌بات‌ها به راحتی اصطلاحات پزشکی ساختگی را تکرار و حتی در مورد آنها توضیح می‌دهند.

روی هم رفته، این مطالعات نشان می‌دهند که نقاط ضعف موجود در مطالعه جدید، ویژگی‌های یک روش تجربی نیستند، بلکه منعکس کننده چیزی اساسی‌تر در مورد جایگاه امروز فناوری هستند.

این چت‌بات‌ها از بین نمی‌روند و نباید هم بروند. آنها می‌توانند موضوعات پیچیده را خلاصه کنند، به تهیه سوالات برای پزشکان کمک کنند و به عنوان نقطه شروعی برای تحقیق عمل کنند، اما این مطالعه به روشنی بیان می‌کند که نباید با آنها به عنوان مراجع پزشکی مستقل رفتار شود.

اگر از یکی از این چت‌بات‌ها برای مشاوره پزشکی استفاده می‌کنید، هرگونه ادعای سلامتی که ارائه می‌دهد را بررسی کنید، ارجاعات آن را به عنوان پیشنهادهایی برای بررسی به جای واقعیت در نظر نگیرید و توجه کنید که پاسخ، مطمئن به نظر می‌رسد، اما هیچ سلب مسئولیتی ارائه نمی‌دهد.


نظرات

آخرین اخبار
چین از حل‌وفصل دیپلماتیک اختلافات ایران و آمریکا حمایت کرد
بحران سوخت ناشی از جنگ؛ لوفت‌هانزا 20 هزار پرواز را لغو می‌کند
آمریکا حضور هاکبی در دور دوم مذاکرات اسرائیل و لبنان را تأیید کرد
پزشکیان: سپاه نهادی برخاسته از مردم و پاسدار استقلال و عزت کشور است
حملات هوایی سرنوشت جنگ را تعیین نکرد؛ ایران به نبرد ادامه داد
پیام سرلشکر حاتمی به مناسبت سالروز سپاه: اتحاد نیروهای مسلح ضامن امنیت کشور است
انفجار تانک در رزمایش ژاپن؛ 3 نظامی کشته شدند
الجزیره: کشتی باری در نزدیکی عمان مورد حمله قرار گرفت
توافق تجاری هند و آمریکا تا پایان ژوئن نهایی می‌شود
عارف: دسترسی برابر و بدون تبعیض به اینترنت باید برای همه فراهم باشد
آخرین قیمت مرغ در بازار ؛ امروز چهارشنبه 2 اردیبهشت
درگیری‌های خاورمیانه تابستان دشواری برای بازار انرژی رقم می‌زند
نوراینفو | 5 توصیه برای داشتن قلبی سالم
نوراینفو | این علائم یعنی تیروئید شما درست کار نمیکند!
نوراینفو | 5 راهکار برای یادگیری بیشتر
نوراینفو | 10 ماده غذایی موثر برای افزایش سرعت سوخت و ساز بدن
ارکستری که رهبرش نت‌ بلد نیست!
مدیرکل آژانس: روند پایان جنگ «پیچیده» است و باید تداوم یابد
نماینده مجلس: «نقض عهد آمریکا» مانع ادامه مذاکرات در پاکستان شد
ملاحظاتی درباره آینده جنگ رمضان
حقوق و مستمری فروردین بازنشستگان تامین اجتماعی واریز شد
تو رستم تهمتنی!
تکذیب قاطع تهران؛ ادعاهای اسرائیل درباره باکو بی‌اساس است
پرسه‌زنی هواپیماهای جاسوسی آمریکا در آسمان عراق
سیاستمدار پیشین آلمان از ترامپ و نتانیاهو به‌شدت انتقاد کرد
پایان تعلیق: از تحریم تا جنگ
دروازه‌بان سابق پرسپولیس درگذشت
انتقاد دو مقام نظامی سابق از عملکرد دولت نتانیاهو
شمایل تنظیم‌گری تنگه هرمز پس از جنگ
پشت پرده ماجرای جلیقه ضدگلوله نتانیاهو فاش شد
ترافیک سنگین در ورودی‌های تهران
طلای جهانی پس از افت روز گذشته، دوباره صعودی شد
آغاز هفته آینده با بارش؛ پیش‌بینی رگبار، رعدوبرق و وزش باد شدید
کشتی‌های آمریکایی اهداف مشروع خواهند بود
چرا ترامپ پس از تهدید به جنگ با اعلام آتش‌بس یک‌طرفه، عقب نشینی کرد؟
امروز آخرین مهلت ثبت‌نام وام ودیعه مسکن متاهلی و وام تحصیلی دانشجویان
قیمت خودرو داخلی و خارجی امروز چهارشنبه 2 اردیبهشت 1405 + جدول
قطب نمای انرژی جهان در حال چرخش به سمت راکتورهای هسته ای است
نورنما | 2 اردیبهشت سالروز تأسیس سپاه پاسداران انقلاب اسلامی
جام جهانی 2026؛ میزبان مکزیکی در تعقیب رؤیای عبور از یک هشتم نهایی
بازار خودرو قفل شد؛ معاملات به صفر رسید
سازمان ملل: تمدید آتش‌بس میان آمریکا و ایران گامی مهم برای کاهش تنش است
سپاه: دشمن به «خلا شناختی» رسید؛ پاسخ «آنی و قاطع» به هر تهدید جدید
دیپلماسی نشانه ضعف نیست، مسئولیتی ملی برای بازگرداندن حاکمیت است
حزب‌الله «خط زرد» تعیین‌شده در جنوب لبنان را به رسمیت نمی‌شناسد
اقتصادنگار | اقتصاد ایران در مواجهه با جنگ چقدر آماده بود؟
چرا نباید از هوش مصنوعی مشورت پزشکی بگیریم؟
مقام مستعفی دولت ترامپ: آمریکا باید مانند ریگان نیروهایش را از خاورمیانه خارج کند
جاسوس موساد صبح امروز به دار مجازات آویخته شد
برنامه مسابقات ورزشی امروز چهارشنبه 2 اردیبهشت 1405 + جدول پخش