AI সার্চ এজেন্ট মিথ্যা বলছে, আপনার গবেষণা বিপদে
GPT-5.4 ও Kimi K2.6-এর মতো AI সার্চ এজেন্টরা লাইভ ওয়েব রিসার্চ না করে প্রশিক্ষণ ডেটার ওপর নির্ভর করে। নতুন LiveBrowseComp বেঞ্চমার্কে দেখা গেছে, গত 90 দিনের ঘটনা নিয়ে প্রশ্ন করলে এদের পারফরম্যান্স ভেঙে পড়ে। গবেষণাটি প্রকাশ করেছে হারবিন ইনস্টিটিউট অব টেকনোলজি।
GPT-5.4 ও Kimi K2.6-এর মতো AI সার্চ এজেন্টরা লাইভ ওয়েব রিসার্চ না করে প্রশিক্ষণ ডেটার ওপর নির্ভর করে। নতুন LiveBrowseComp বেঞ্চমার্কে দেখা গেছে, গত 90 দিনের ঘটনা নিয়ে প্রশ্ন করলে এদের পারফরম্যান্স ভেঙে পড়ে। গবেষণাটি প্রকাশ করেছে হারবিন ইনস্টিটিউট অব টেকনোলজি।
AI সার্চ এজেন্টরা আসলে কতটা ওয়েব রিসার্চ করে? নতুন এক গবেষণায় উঠে এসেছে চাঞ্চল্যকর তথ্য। GPT-5.4 এবং Kimi K2.6-এর মতো শীর্ষস্থানীয় AI সার্চ এজেন্টরা লাইভ ওয়েব থেকে তথ্য সংগ্রহ করার চেয়ে নিজেদের প্রশিক্ষণ ডেটার ওপর বেশি নির্ভর করে। তারা মূলত ওয়েব ব্যবহার করে শুধু নিশ্চিত করতে যে তারা ইতিমধ্যে কী জানে।
হারবিন ইনস্টিটিউট অব টেকনোলজির গবেষকরা এই সত্য উদঘাটন করেছেন একটি নতুন টাইম-বেসড বেঞ্চমার্কের মাধ্যমে। বেঞ্চমার্কটির নাম LiveBrowseComp। এটি শুধু গত 90 দিনের মধ্যে ঘটে যাওয়া ঘটনা নিয়ে প্রশ্ন করে। যখন মডেলগুলো তাদের মেমোরি ব্যবহার করতে পারে না, তখন তাদের পারফরম্যান্স ভেঙে পড়ে এবং বিদ্যমান র্যাঙ্কিং সম্পূর্ণ ওলট-পালট হয়ে যায়।
এই গবেষণার ফলাফল AI শিল্পের জন্য একটি বড় সতর্কবার্তা। অনেক কোম্পানি তাদের AI সার্চ এজেন্টকে বাস্তব সময়ে ওয়েব ব্রাউজ করতে সক্ষম বলে দাবি করে। কিন্তু বাস্তবে তারা প্রশিক্ষণের সময় শেখা তথ্যের ওপর ভর করে কাজ করে। LiveBrowseComp বেঞ্চমার্ক এই দাবিকে চ্যালেঞ্জ জানায়।
গবেষকরা দেখিয়েছেন, যখন AI মডেলগুলোকে শুধু সাম্প্রতিক ঘটনা নিয়ে প্রশ্ন করা হয়, তখন GPT-5.4 এবং Kimi K2.6-এর পারফরম্যান্স উল্লেখযোগ্যভাবে কমে যায়। অন্যান্য মডেল যারা কম পরিচিত, তারা এই বেঞ্চমার্কে ভালো করে। এটি প্রমাণ করে যে বর্তমান বেঞ্চমার্কগুলো মূলত মডেলের মেমোরি ক্ষমতা পরীক্ষা করে, প্রকৃত ওয়েব রিসার্চ দক্ষতা নয়।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই খবর বিশেষ গুরুত্বপূর্ণ। অনেকেই AI টুল ব্যবহার করে তথ্য সংগ্রহ ও গবেষণা করেন। যদি AI সার্চ এজেন্টরা সঠিকভাবে ওয়েব রিসার্চ না করে, তাহলে ব্যবহারকারীরা ভুল বা পুরনো তথ্যের ওপর নির্ভর করতে পারেন। বিশেষ করে ফ্রিল্যান্সাররা যারা ক্লায়েন্টের জন্য বাজার গবেষণা করেন, তাদের উচিত AI-এর দেওয়া তথ্য যাচাই করা।
ভবিষ্যতে AI সার্চ এজেন্টের উন্নয়নে এই গবেষণা বড় ভূমিকা রাখবে। কোম্পানিগুলোকে এখন বাস্তব সময়ের ওয়েব রিসার্চের ওপর জোর দিতে হবে। LiveBrowseComp-এর মতো বেঞ্চমার্ক ব্যবহার করে সঠিকভাবে মডেলের দক্ষতা যাচাই করা সম্ভব। ব্যবহারকারীদেরও সচেতন থাকতে হবে যে AI সবসময় নির্ভুল তথ্য দেয় না।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: The Decoder
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...