GPT-5.5 পিএইচডি গণিত পরীক্ষায় ফেল, আপনার AI টুল কতটা নির্ভরযোগ্য?
গণিত বিশ্লেষণে উপপাদ্য প্রমাণের দক্ষতা যাচাইয়ের জন্য তৈরি নতুন বেঞ্চমার্ক MA-ProofBench-এ GPT-5.5 মাত্র 16% স্কোর করেছে। অধিকাংশ মডেল পিএইচডি-স্তরের সমস্যায় প্রায় শূন্য স্কোর পেয়েছে। গবেষণাটি ভবিষ্যতের AI-এর গাণিতিক দক্ষতার সীমাবদ্ধতা তুলে ধরেছে।
গণিত বিশ্লেষণে উপপাদ্য প্রমাণের দক্ষতা যাচাইয়ের জন্য তৈরি নতুন বেঞ্চমার্ক MA-ProofBench-এ GPT-5.5 মাত্র 16% স্কোর করেছে। অধিকাংশ মডেল পিএইচডি-স্তরের সমস্যায় প্রায় শূন্য স্কোর পেয়েছে। গবেষণাটি ভবিষ্যতের AI-এর গাণিতিক দক্ষতার সীমাবদ্ধতা তুলে ধরেছে।
গণিত বিশ্লেষণে উপপাদ্য প্রমাণের জন্য তৈরি নতুন বেঞ্চমার্ক MA-ProofBench-এ GPT-5.5 মাত্র 16% স্কোর করেছে। বেঞ্চমার্কটিতে স্নাতক স্তরের সমস্যায় GPT-5.5 Pass@8 পদ্ধতিতে 16% এবং পিএইচডি স্তরের সমস্যায় 5% স্কোর পেয়েছে। অধিকাংশ মডেল পিএইচডি স্তরের কঠিন সমস্যায় শূন্যের কাছাকাছি স্কোর পেয়েছে।
এই বেঞ্চমার্কটি বিশেষভাবে গুরুত্বপূর্ণ কারণ এটি শুধু গণিত সমাধানের চেয়ে জটিল উপপাদ্য প্রমাণের দক্ষতা যাচাই করে। MA-ProofBench গণিত বিশ্লেষণের মৌলিক ধারণা যেমন ক্যালকুলাস, রিয়েল অ্যানালাইসিস এবং টপোলজির মতো বিষয়ের উপপাদ্য প্রমাণের ওপর ফোকাস করে। এই বেঞ্চমার্ক AI-এর যৌক্তিক চিন্তা এবং ডিডাক্টিভ রিজনিং দক্ষতার একটি কঠিন পরীক্ষা।
গবেষণাপত্রটি জুন 2026-এ arXiv প্রিপ্রিন্ট হিসেবে প্রকাশিত হয়েছে। গবেষকরা GPT-5.5 সহ বিভিন্ন আধুনিক AI মডেল পরীক্ষা করেছেন। Pass@8 পদ্ধতিতে প্রতিটি মডেলকে আটটি ভিন্ন উত্তর তৈরি করতে দেওয়া হয় এবং সঠিক উত্তর পাওয়া গেলে তা গণনা করা হয়। GPT-5.5 স্নাতক স্তরে 16% স্কোর পেলেও পিএইচডি স্তরে তা নেমে 5%-এ আসে।
অন্যান্য মডেলের অবস্থা আরও খারাপ। বেশিরভাগ মডেল পিএইচডি স্তরের সমস্যায় শূন্যের কাছাকাছি স্কোর পেয়েছে। এর অর্থ হলো এই মডেলগুলো জটিল গাণিতিক উপপাদ্য প্রমাণ করতে কার্যত অক্ষম। গবেষণাটি দেখিয়েছে যে বর্তমান AI-র গাণিতিক বিশ্লেষণে মৌলিক সীমাবদ্ধতা রয়েছে।
বাংলাদেশের প্রযুক্তি ও শিক্ষা খাতে এই গবেষণার প্রভাব রয়েছে। বাংলাদেশের বিশ্ববিদ্যালয়গুলোতে গণিত ও কম্পিউটার বিজ্ঞান শিক্ষার্থীরা AI-র সাহায্যে গবেষণা করার চেষ্টা করে। তবে এই বেঞ্চমার্ক দেখায় যে উচ্চস্তরের গাণিতিক সমস্যা সমাধানে AI এখনও নির্ভরযোগ্য নয়। শিক্ষার্থী ও গবেষকদের উচিত AI-কে সম্পূর্ণ নির্ভরযোগ্য হাতিয়ার হিসেবে না দেখে সাহায্যকারী হিসেবে ব্যবহার করা।
ভবিষ্যতে AI মডেলগুলোর গাণিতিক দক্ষতা উন্নত করার জন্য নতুন পদ্ধতি প্রয়োজন। গবেষকরা মনে করেন আরও উন্নত আর্কিটেকচার এবং বিশেষায়িত প্রশিক্ষণ পদ্ধতি এই সমস্যা সমাধানে সাহায্য করতে পারে। MA-ProofBench বেঞ্চমার্কটি AI গবেষণার একটি গুরুত্বপূর্ণ মাইলফলক হবে বলে আশা করা যায়।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...