LIVE
গবেষণাসাধারণ AI এজেন্টই জিতল, বিশেষজ্ঞ মডেলের সমান পারফরম্যান্স বাংলাদেশে কাজে লাগবেগবেষণাAI এজেন্ট এখন সাধারণ কাজেও বিশেষজ্ঞের মতো সফল, জানুন কী লাভ হবেটুলবাংলাদেশি ডেভেলপারদের জন্য নতুন টুল 'wurk', এজেন্টদের নিরাপদে কাজ করাবেটুলAI এজেন্টের ঝুঁকি কমাবে Developers.ai-র উরুক, জানুন কী লাভইন্ডাস্ট্রিML প্রকল্প ব্যর্থতার মূল কারণ: ব্যবসায়িক লক্ষ্য ঠিক না করাই দায়ীমডেলব্যবসায়িক লক্ষ্য না থাকলে AI প্রজেক্ট ব্যর্থ নিশ্চিত, জানুন সমাধানটুলসেলফি দিয়েই জানুন প্রথম ইমপ্রেশন, ChatGPT-র নতুন ফিচারে চাকরির ইন্টারভিউতে সুবিধাইন্ডাস্ট্রি৮ দিনে মাত্র ১ ডলার আয়, সার্ভার চালু রাখতে সাহায্য চাইলো AI কোম্পানিইন্ডাস্ট্রিGoogle DeepMind-এ ইউনিয়ন আলোচনায় শীর্ষ নেতারা নেই, ক্ষুব্ধ কর্মীরাইন্ডাস্ট্রিমাসে ৪৮৪৭ ডলার খরচ কমিয়ে ১২১ ডলার, জানুন বাংলাদেশি স্টার্টআপের কৌশলইন্ডাস্ট্রিমাসে ৪,৮৪৭ ডলার AI খরচ ৯৭.৫% কমানো সম্ভব, দেখালেন বাংলাদেশি ডেভেলপারইন্ডাস্ট্রিGoogle DeepMind ও A24-এর জোটে AI-তে সিনেমার গল্প বলার নতুন দিগন্তগবেষণাসাধারণ AI এজেন্টই জিতল, বিশেষজ্ঞ মডেলের সমান পারফরম্যান্স বাংলাদেশে কাজে লাগবেগবেষণাAI এজেন্ট এখন সাধারণ কাজেও বিশেষজ্ঞের মতো সফল, জানুন কী লাভ হবেটুলবাংলাদেশি ডেভেলপারদের জন্য নতুন টুল 'wurk', এজেন্টদের নিরাপদে কাজ করাবেটুলAI এজেন্টের ঝুঁকি কমাবে Developers.ai-র উরুক, জানুন কী লাভইন্ডাস্ট্রিML প্রকল্প ব্যর্থতার মূল কারণ: ব্যবসায়িক লক্ষ্য ঠিক না করাই দায়ীমডেলব্যবসায়িক লক্ষ্য না থাকলে AI প্রজেক্ট ব্যর্থ নিশ্চিত, জানুন সমাধানটুলসেলফি দিয়েই জানুন প্রথম ইমপ্রেশন, ChatGPT-র নতুন ফিচারে চাকরির ইন্টারভিউতে সুবিধাইন্ডাস্ট্রি৮ দিনে মাত্র ১ ডলার আয়, সার্ভার চালু রাখতে সাহায্য চাইলো AI কোম্পানিইন্ডাস্ট্রিGoogle DeepMind-এ ইউনিয়ন আলোচনায় শীর্ষ নেতারা নেই, ক্ষুব্ধ কর্মীরাইন্ডাস্ট্রিমাসে ৪৮৪৭ ডলার খরচ কমিয়ে ১২১ ডলার, জানুন বাংলাদেশি স্টার্টআপের কৌশলইন্ডাস্ট্রিমাসে ৪,৮৪৭ ডলার AI খরচ ৯৭.৫% কমানো সম্ভব, দেখালেন বাংলাদেশি ডেভেলপারইন্ডাস্ট্রিGoogle DeepMind ও A24-এর জোটে AI-তে সিনেমার গল্প বলার নতুন দিগন্ত
হোম/নিউজ/রিসার্চ
রিসার্চ৫ মিনিট পড়া

ব্রিটিশ গবেষণা: AI এজেন্টের প্রকৃত ক্ষমতা ১০ গুণ বেশি, বাংলাদেশের ফ্রিল্যান্সারদের জন্য বড় সুযোগ

যুক্তরাজ্যের AI নিরাপত্তা ইনস্টিটিউট (AISI) দেখিয়েছে যে প্রচলিত বেঞ্চমার্ক পরীক্ষাগুলো AI এজেন্টের প্রকৃত ক্ষমতা কমিয়ে দেখায়। টোকেন বাজেট 10 গুণ বাড়ালে সফটওয়্যার ইঞ্জিনিয়ারিং কাজে সাফল্যের হার ২৫ শতাংশ বেড়ে যায়। নতুন মডেলগুলো বেশি টোকেন বাজেটে সবচেয়ে বেশি উন্নতি দেখিয়েছে, যার ফলে প্রকৃত অগ্রগতি আগের চেয়ে ৬০ শতাংশ বেশি বলে চিহ্নিত হয়েছে।

T
সম্পাদকীয় টিম
স্টাফ রিপোর্টার · ২ ঘণ্টা আগে · সূত্র: The Decoder
ব্রিটিশ গবেষণা: AI এজেন্টের প্রকৃত ক্ষমতা ১০ গুণ বেশি, বাংলাদেশের ফ্রিল্যান্সারদের জন্য বড় সুযোগ

যুক্তরাজ্যের AI নিরাপত্তা ইনস্টিটিউট (AISI) দেখিয়েছে যে প্রচলিত বেঞ্চমার্ক পরীক্ষাগুলো AI এজেন্টের প্রকৃত ক্ষমতা কমিয়ে দেখায়। টোকেন বাজেট 10 গুণ বাড়ালে সফটওয়্যার ইঞ্জিনিয়ারিং কাজে সাফল্যের হার ২৫ শতাংশ বেড়ে যায়। নতুন মডেলগুলো বেশি টোকেন বাজেটে সবচেয়ে বেশি উন্নতি দেখিয়েছে, যার ফলে প্রকৃত অগ্রগতি আগের চেয়ে ৬০ শতাংশ বেশি বলে চিহ্নিত হয়েছে।

যুক্তরাজ্যের AI নিরাপত্তা ইনস্টিটিউট (AISI) একটি নতুন গবেষণায় দেখিয়েছে যে বর্তমানে ব্যবহৃত স্ট্যান্ডার্ড AI বেঞ্চমার্ক পরীক্ষাগুলো স্বয়ংক্রিয় এজেন্টের (AI agent) প্রকৃত ক্ষমতা নিয়মিতভাবে কমিয়ে দেখাচ্ছে। এই গবেষণায় মোট 7টি ভিন্ন বেঞ্চমার্ক পরীক্ষা করা হয়েছে।

এর কারণ হলো, প্রচলিত পরীক্ষাগুলোতে কম্পিউট বাজেট বা টোকেন বাজেটের একটি কঠোর সীমা বেঁধে দেওয়া হয়। টোকেন বাজেট মূলত AI মডেল কতগুলো ধাপ বা গণনা করতে পারবে তার একটি ক্যাপ। গবেষণায় দেখা গেছে, এই বাজেট 10 গুণ বাড়িয়ে দিলে সফটওয়্যার ইঞ্জিনিয়ারিং সংক্রান্ত কাজগুলোতে সাফল্যের হার প্রায় 25 শতাংশ বেড়ে যায়।

এই গবেষণার সবচেয়ে গুরুত্বপূর্ণ দিক হলো, নতুন এবং আরও উন্নত AI মডেলগুলো এই অতিরিক্ত টোকেন বাজেট থেকে সবচেয়ে বেশি সুবিধা পেয়েছে। AISI জানিয়েছে, টোকেন বাজেটের ওপর নির্ভর করে AI-এর সীমান্তবর্তী (frontier) অগ্রগতি আগের পরিমাপের চেয়ে প্রায় 60 শতাংশ বেশি খাড়া। অর্থাৎ, AI এজেন্টরা আসলে আমরা যা ভাবছি তার চেয়ে অনেক দ্রুত উন্নতি করছে।

গবেষণাটি AI মডেলগুলোর মূল্যায়নের একটি মৌলিক সমস্যা তুলে ধরেছে। বর্তমানে বেশিরভাগ পরীক্ষা শুধুমাত্র মডেলের নির্দিষ্ট একটি আউটপুট তৈরি করার ক্ষমতা পরিমাপ করে। কিন্তু বাস্তব জগতে AI এজেন্টদের একাধিক ধাপে কাজ করতে হয়, যেমন একটি কোড লেখা, ডিবাগ করা এবং চালানো। টোকেন বাজেট কম থাকলে মডেলটি এই দীর্ঘ প্রক্রিয়া সম্পন্ন করার আগেই থেমে যায়।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই গবেষণার বিশেষ গুরুত্ব রয়েছে। স্থানীয় AI টুল ব্যবহারকারীরা প্রায়ই মনে করেন যে বর্তমান মডেলগুলো দুর্বল। কিন্তু আসলে সমস্যাটি মডেলের সীমাবদ্ধতা নয়, বরং পরীক্ষার পদ্ধতির ত্রুটি হতে পারে। বেশি টোকেন বাজেট দিলে GPT-4 বা Claude-এর মতো মডেলগুলো অনেক জটিল কাজও সঠিকভাবে করতে পারে।

এই গবেষণা থেকে শিক্ষা নিয়ে বাংলাদেশের স্টার্টআপ ও গবেষকরা তাদের নিজস্ব AI সমাধানের মূল্যায়ন পদ্ধতি পরিবর্তন করতে পারেন। টোকেন বাজেট বাড়িয়ে দিয়ে তারা মডেলের প্রকৃত সক্ষমতা পরিমাপ করতে পারবেন। এটি বিশেষ করে কোড জেনারেশন, অটোমেশন এবং ডেটা অ্যানালাইসিসের মতো ক্ষেত্রে কাজে লাগবে।

AISI-এর এই ফলাফল AI নিরাপত্তা ও নিয়ন্ত্রণ নীতির জন্যও গুরুত্বপূর্ণ। নীতিনির্ধারকরা যদি কম টোকেন বাজেটের পরীক্ষার ওপর ভিত্তি করে সিদ্ধান্ত নেন, তাহলে তারা AI-এর প্রকৃত ঝুঁকি ও সম্ভাবনা বুঝতে ব্যর্থ হবেন। ভবিষ্যতে আরও বাস্তবসম্মত এবং নমনীয় বেঞ্চমার্ক তৈরি করার প্রয়োজনীয়তা এই গবেষণা স্পষ্ট করেছে।

আরও পড়ুন

🌐 তথ্যসূত্র ও স্বচ্ছতা

এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।

ট্যাগ:#রিসার্চ#AI#বাংলাদেশ#The Decoder
AD
📧

AI নিউজ সরাসরি ইমেইলে পান

প্রতিদিনের সেরা AI খবর বাছাই করে আপনার inbox-এ পাঠাই। বিজ্ঞাপন নেই।

মূল প্রতিবেদন: The Decoder

সোর্স দেখুন ↗

মন্তব্য

লোড হচ্ছে...