ব্রিটিশ গবেষণা: AI এজেন্টের প্রকৃত ক্ষমতা ১০ গুণ বেশি, বাংলাদেশের ফ্রিল্যান্সারদের জন্য বড় সুযোগ
যুক্তরাজ্যের AI নিরাপত্তা ইনস্টিটিউট (AISI) দেখিয়েছে যে প্রচলিত বেঞ্চমার্ক পরীক্ষাগুলো AI এজেন্টের প্রকৃত ক্ষমতা কমিয়ে দেখায়। টোকেন বাজেট 10 গুণ বাড়ালে সফটওয়্যার ইঞ্জিনিয়ারিং কাজে সাফল্যের হার ২৫ শতাংশ বেড়ে যায়। নতুন মডেলগুলো বেশি টোকেন বাজেটে সবচেয়ে বেশি উন্নতি দেখিয়েছে, যার ফলে প্রকৃত অগ্রগতি আগের চেয়ে ৬০ শতাংশ বেশি বলে চিহ্নিত হয়েছে।
যুক্তরাজ্যের AI নিরাপত্তা ইনস্টিটিউট (AISI) দেখিয়েছে যে প্রচলিত বেঞ্চমার্ক পরীক্ষাগুলো AI এজেন্টের প্রকৃত ক্ষমতা কমিয়ে দেখায়। টোকেন বাজেট 10 গুণ বাড়ালে সফটওয়্যার ইঞ্জিনিয়ারিং কাজে সাফল্যের হার ২৫ শতাংশ বেড়ে যায়। নতুন মডেলগুলো বেশি টোকেন বাজেটে সবচেয়ে বেশি উন্নতি দেখিয়েছে, যার ফলে প্রকৃত অগ্রগতি আগের চেয়ে ৬০ শতাংশ বেশি বলে চিহ্নিত হয়েছে।
যুক্তরাজ্যের AI নিরাপত্তা ইনস্টিটিউট (AISI) একটি নতুন গবেষণায় দেখিয়েছে যে বর্তমানে ব্যবহৃত স্ট্যান্ডার্ড AI বেঞ্চমার্ক পরীক্ষাগুলো স্বয়ংক্রিয় এজেন্টের (AI agent) প্রকৃত ক্ষমতা নিয়মিতভাবে কমিয়ে দেখাচ্ছে। এই গবেষণায় মোট 7টি ভিন্ন বেঞ্চমার্ক পরীক্ষা করা হয়েছে।
এর কারণ হলো, প্রচলিত পরীক্ষাগুলোতে কম্পিউট বাজেট বা টোকেন বাজেটের একটি কঠোর সীমা বেঁধে দেওয়া হয়। টোকেন বাজেট মূলত AI মডেল কতগুলো ধাপ বা গণনা করতে পারবে তার একটি ক্যাপ। গবেষণায় দেখা গেছে, এই বাজেট 10 গুণ বাড়িয়ে দিলে সফটওয়্যার ইঞ্জিনিয়ারিং সংক্রান্ত কাজগুলোতে সাফল্যের হার প্রায় 25 শতাংশ বেড়ে যায়।
এই গবেষণার সবচেয়ে গুরুত্বপূর্ণ দিক হলো, নতুন এবং আরও উন্নত AI মডেলগুলো এই অতিরিক্ত টোকেন বাজেট থেকে সবচেয়ে বেশি সুবিধা পেয়েছে। AISI জানিয়েছে, টোকেন বাজেটের ওপর নির্ভর করে AI-এর সীমান্তবর্তী (frontier) অগ্রগতি আগের পরিমাপের চেয়ে প্রায় 60 শতাংশ বেশি খাড়া। অর্থাৎ, AI এজেন্টরা আসলে আমরা যা ভাবছি তার চেয়ে অনেক দ্রুত উন্নতি করছে।
গবেষণাটি AI মডেলগুলোর মূল্যায়নের একটি মৌলিক সমস্যা তুলে ধরেছে। বর্তমানে বেশিরভাগ পরীক্ষা শুধুমাত্র মডেলের নির্দিষ্ট একটি আউটপুট তৈরি করার ক্ষমতা পরিমাপ করে। কিন্তু বাস্তব জগতে AI এজেন্টদের একাধিক ধাপে কাজ করতে হয়, যেমন একটি কোড লেখা, ডিবাগ করা এবং চালানো। টোকেন বাজেট কম থাকলে মডেলটি এই দীর্ঘ প্রক্রিয়া সম্পন্ন করার আগেই থেমে যায়।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই গবেষণার বিশেষ গুরুত্ব রয়েছে। স্থানীয় AI টুল ব্যবহারকারীরা প্রায়ই মনে করেন যে বর্তমান মডেলগুলো দুর্বল। কিন্তু আসলে সমস্যাটি মডেলের সীমাবদ্ধতা নয়, বরং পরীক্ষার পদ্ধতির ত্রুটি হতে পারে। বেশি টোকেন বাজেট দিলে GPT-4 বা Claude-এর মতো মডেলগুলো অনেক জটিল কাজও সঠিকভাবে করতে পারে।
এই গবেষণা থেকে শিক্ষা নিয়ে বাংলাদেশের স্টার্টআপ ও গবেষকরা তাদের নিজস্ব AI সমাধানের মূল্যায়ন পদ্ধতি পরিবর্তন করতে পারেন। টোকেন বাজেট বাড়িয়ে দিয়ে তারা মডেলের প্রকৃত সক্ষমতা পরিমাপ করতে পারবেন। এটি বিশেষ করে কোড জেনারেশন, অটোমেশন এবং ডেটা অ্যানালাইসিসের মতো ক্ষেত্রে কাজে লাগবে।
AISI-এর এই ফলাফল AI নিরাপত্তা ও নিয়ন্ত্রণ নীতির জন্যও গুরুত্বপূর্ণ। নীতিনির্ধারকরা যদি কম টোকেন বাজেটের পরীক্ষার ওপর ভিত্তি করে সিদ্ধান্ত নেন, তাহলে তারা AI-এর প্রকৃত ঝুঁকি ও সম্ভাবনা বুঝতে ব্যর্থ হবেন। ভবিষ্যতে আরও বাস্তবসম্মত এবং নমনীয় বেঞ্চমার্ক তৈরি করার প্রয়োজনীয়তা এই গবেষণা স্পষ্ট করেছে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: The Decoder
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...