LIVE
গবেষণাGPT-5.5 পিএইচডি গণিত পরীক্ষায় ফেল, আপনার AI টুল কতটা নির্ভরযোগ্য?বাংলাদেশচট্টগ্রামে AI ট্রাফিক সিস্টেম আসছে, যানজট কমবে ৩ গুণটুলAI এজেন্টের খরচ নিয়ন্ত্রণে নতুন টুল, ক্লাউড ছাড়াই কাজ করবেটুলZapier ও OpenAI দিয়ে প্রতিদিনের কাজে ঘণ্টার পর ঘণ্টা বাঁচানটুলএআই মডেল রাউটিংয়ে বিপ্লব, খরচ কমবে ৬০%গবেষণা২০২৬ সালে AI মডেলের সাফল্য নির্ভর করবে ডেটার মানের ওপর, জানুন কেনটুলAI এজেন্ট সুরক্ষায় বিপ্লব: Beyond Identity-এর Ceros প্ল্যাটফর্মে কী পাচ্ছে বাংলাদেশ?ইন্ডাস্ট্রিAnthropic বিলিং পরিবর্তন বাতিল, OpenAI-এর সঙ্গে দাম যুদ্ধে সুবিধা পাবেন ব্যবহারকারীরাটুলফেসবুকে এলো AI Mode, পাবলিক পোস্ট থেকে উত্তর পাবেন এখনইইন্ডাস্ট্রিচীনের DeepSeek-এ ৭.৪ বিলিয়ন ডলার বিনিয়োগ, AI খাতে নতুন সম্ভাবনাইন্ডাস্ট্রিতুরস্কে ফেসিয়াল রিকগনিশনে ৫ লাখ টাকা জরিমানা, বাংলাদেশেও সতর্কতা জরুরিমডেলট্রান্সফরমার মডেল বুঝলে AI কাজে লাভ ৩ গুণ, জানুন কীভাবেগবেষণাGPT-5.5 পিএইচডি গণিত পরীক্ষায় ফেল, আপনার AI টুল কতটা নির্ভরযোগ্য?বাংলাদেশচট্টগ্রামে AI ট্রাফিক সিস্টেম আসছে, যানজট কমবে ৩ গুণটুলAI এজেন্টের খরচ নিয়ন্ত্রণে নতুন টুল, ক্লাউড ছাড়াই কাজ করবেটুলZapier ও OpenAI দিয়ে প্রতিদিনের কাজে ঘণ্টার পর ঘণ্টা বাঁচানটুলএআই মডেল রাউটিংয়ে বিপ্লব, খরচ কমবে ৬০%গবেষণা২০২৬ সালে AI মডেলের সাফল্য নির্ভর করবে ডেটার মানের ওপর, জানুন কেনটুলAI এজেন্ট সুরক্ষায় বিপ্লব: Beyond Identity-এর Ceros প্ল্যাটফর্মে কী পাচ্ছে বাংলাদেশ?ইন্ডাস্ট্রিAnthropic বিলিং পরিবর্তন বাতিল, OpenAI-এর সঙ্গে দাম যুদ্ধে সুবিধা পাবেন ব্যবহারকারীরাটুলফেসবুকে এলো AI Mode, পাবলিক পোস্ট থেকে উত্তর পাবেন এখনইইন্ডাস্ট্রিচীনের DeepSeek-এ ৭.৪ বিলিয়ন ডলার বিনিয়োগ, AI খাতে নতুন সম্ভাবনাইন্ডাস্ট্রিতুরস্কে ফেসিয়াল রিকগনিশনে ৫ লাখ টাকা জরিমানা, বাংলাদেশেও সতর্কতা জরুরিমডেলট্রান্সফরমার মডেল বুঝলে AI কাজে লাভ ৩ গুণ, জানুন কীভাবে
হোম/নিউজ/রিসার্চ
রিসার্চ৫ মিনিট পড়া

GPT-5.5 পিএইচডি গণিত পরীক্ষায় ফেল, আপনার AI টুল কতটা নির্ভরযোগ্য?

গণিত বিশ্লেষণে উপপাদ্য প্রমাণের দক্ষতা যাচাইয়ের জন্য তৈরি নতুন বেঞ্চমার্ক MA-ProofBench-এ GPT-5.5 মাত্র 16% স্কোর করেছে। অধিকাংশ মডেল পিএইচডি-স্তরের সমস্যায় প্রায় শূন্য স্কোর পেয়েছে। গবেষণাটি ভবিষ্যতের AI-এর গাণিতিক দক্ষতার সীমাবদ্ধতা তুলে ধরেছে।

d
সম্পাদকীয় টিম
স্টাফ রিপোর্টার · ১ ঘণ্টা আগে · সূত্র: dev.to ML
GPT-5.5 পিএইচডি গণিত পরীক্ষায় ফেল, আপনার AI টুল কতটা নির্ভরযোগ্য?

গণিত বিশ্লেষণে উপপাদ্য প্রমাণের দক্ষতা যাচাইয়ের জন্য তৈরি নতুন বেঞ্চমার্ক MA-ProofBench-এ GPT-5.5 মাত্র 16% স্কোর করেছে। অধিকাংশ মডেল পিএইচডি-স্তরের সমস্যায় প্রায় শূন্য স্কোর পেয়েছে। গবেষণাটি ভবিষ্যতের AI-এর গাণিতিক দক্ষতার সীমাবদ্ধতা তুলে ধরেছে।

গণিত বিশ্লেষণে উপপাদ্য প্রমাণের জন্য তৈরি নতুন বেঞ্চমার্ক MA-ProofBench-এ GPT-5.5 মাত্র 16% স্কোর করেছে। বেঞ্চমার্কটিতে স্নাতক স্তরের সমস্যায় GPT-5.5 Pass@8 পদ্ধতিতে 16% এবং পিএইচডি স্তরের সমস্যায় 5% স্কোর পেয়েছে। অধিকাংশ মডেল পিএইচডি স্তরের কঠিন সমস্যায় শূন্যের কাছাকাছি স্কোর পেয়েছে।

এই বেঞ্চমার্কটি বিশেষভাবে গুরুত্বপূর্ণ কারণ এটি শুধু গণিত সমাধানের চেয়ে জটিল উপপাদ্য প্রমাণের দক্ষতা যাচাই করে। MA-ProofBench গণিত বিশ্লেষণের মৌলিক ধারণা যেমন ক্যালকুলাস, রিয়েল অ্যানালাইসিস এবং টপোলজির মতো বিষয়ের উপপাদ্য প্রমাণের ওপর ফোকাস করে। এই বেঞ্চমার্ক AI-এর যৌক্তিক চিন্তা এবং ডিডাক্টিভ রিজনিং দক্ষতার একটি কঠিন পরীক্ষা।

গবেষণাপত্রটি জুন 2026-এ arXiv প্রিপ্রিন্ট হিসেবে প্রকাশিত হয়েছে। গবেষকরা GPT-5.5 সহ বিভিন্ন আধুনিক AI মডেল পরীক্ষা করেছেন। Pass@8 পদ্ধতিতে প্রতিটি মডেলকে আটটি ভিন্ন উত্তর তৈরি করতে দেওয়া হয় এবং সঠিক উত্তর পাওয়া গেলে তা গণনা করা হয়। GPT-5.5 স্নাতক স্তরে 16% স্কোর পেলেও পিএইচডি স্তরে তা নেমে 5%-এ আসে।

অন্যান্য মডেলের অবস্থা আরও খারাপ। বেশিরভাগ মডেল পিএইচডি স্তরের সমস্যায় শূন্যের কাছাকাছি স্কোর পেয়েছে। এর অর্থ হলো এই মডেলগুলো জটিল গাণিতিক উপপাদ্য প্রমাণ করতে কার্যত অক্ষম। গবেষণাটি দেখিয়েছে যে বর্তমান AI-র গাণিতিক বিশ্লেষণে মৌলিক সীমাবদ্ধতা রয়েছে।

বাংলাদেশের প্রযুক্তি ও শিক্ষা খাতে এই গবেষণার প্রভাব রয়েছে। বাংলাদেশের বিশ্ববিদ্যালয়গুলোতে গণিত ও কম্পিউটার বিজ্ঞান শিক্ষার্থীরা AI-র সাহায্যে গবেষণা করার চেষ্টা করে। তবে এই বেঞ্চমার্ক দেখায় যে উচ্চস্তরের গাণিতিক সমস্যা সমাধানে AI এখনও নির্ভরযোগ্য নয়। শিক্ষার্থী ও গবেষকদের উচিত AI-কে সম্পূর্ণ নির্ভরযোগ্য হাতিয়ার হিসেবে না দেখে সাহায্যকারী হিসেবে ব্যবহার করা।

ভবিষ্যতে AI মডেলগুলোর গাণিতিক দক্ষতা উন্নত করার জন্য নতুন পদ্ধতি প্রয়োজন। গবেষকরা মনে করেন আরও উন্নত আর্কিটেকচার এবং বিশেষায়িত প্রশিক্ষণ পদ্ধতি এই সমস্যা সমাধানে সাহায্য করতে পারে। MA-ProofBench বেঞ্চমার্কটি AI গবেষণার একটি গুরুত্বপূর্ণ মাইলফলক হবে বলে আশা করা যায়।

আরও পড়ুন

🌐 তথ্যসূত্র ও স্বচ্ছতা

এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।

ট্যাগ:#রিসার্চ#AI#বাংলাদেশ#dev.to ML
AD
📧

AI নিউজ সরাসরি ইমেইলে পান

প্রতিদিনের সেরা AI খবর বাছাই করে আপনার inbox-এ পাঠাই। বিজ্ঞাপন নেই।

মূল প্রতিবেদন: dev.to ML

সোর্স দেখুন ↗

মন্তব্য

লোড হচ্ছে...