AI মডেলের চেয়ে এগিয়ে বাংলাদেশি গবেষকের ফ্রেমওয়ার্ক, স্কোর ৬২.৫%
একজন গবেষক তৈরি করেছেন agent-eval ফ্রেমওয়ার্ক, যা বাস্তব এজেন্টিক লুপে LLM-এর কার্যক্ষমতা যাচাই করে। 5টি মডেলের মধ্যে সেরা স্কোর ছিল 62.5% এবং সবচেয়ে খারাপ স্কোর ছিল 34%। সব মডেল একই তিনটি প্রতিপক্ষ পরিস্থিতিতে ব্যর্থ হয়েছে।
একজন গবেষক তৈরি করেছেন agent-eval ফ্রেমওয়ার্ক, যা বাস্তব এজেন্টিক লুপে LLM-এর কার্যক্ষমতা যাচাই করে। 5টি মডেলের মধ্যে সেরা স্কোর ছিল 62.5% এবং সবচেয়ে খারাপ স্কোর ছিল 34%। সব মডেল একই তিনটি প্রতিপক্ষ পরিস্থিতিতে ব্যর্থ হয়েছে।
একজন স্বাধীন গবেষক agent-eval নামে একটি নতুন মূল্যায়ন ফ্রেমওয়ার্ক তৈরি করেছেন। এই ফ্রেমওয়ার্কটি বাস্তব এজেন্টিক লুপে লাইভ LLM ব্যাকএন্ডের বিরুদ্ধে টুল কল চালায়। এরপর এটি একটি তিন-স্তরের অ্যাসারশন পিরামিড ব্যবহার করে আউটপুট মূল্যায়ন করে।
গবেষক 5টি জনপ্রিয় LLM-এর বিরুদ্ধে 10টি প্রতিপক্ষ পরিস্থিতি প্রয়োগ করেছেন। ফলাফল ছিল উদ্বেগজনক। সবচেয়ে ভালো পারফর্ম করা মডেলটি মাত্র 62.5% স্কোর অর্জন করেছে। সবচেয়ে খারাপ মডেলটি পেয়েছে মাত্র 34%।
সব মডেল একই তিনটি পরীক্ষায় ব্যর্থ হয়েছে। এই ব্যর্থতা AI নিরাপত্তা নিয়ে নতুন প্রশ্ন তুলেছে। প্রচলিত মূল্যায়ন পদ্ধতি মডেলের ট্রিভিয়া জ্ঞান বা কোড লেখার ক্ষমতা পরীক্ষা করে। কিন্তু agent-eval বাস্তব জগতের ব্যবহারের সময় মডেল কতটা নিরাপদ ও নির্ভরযোগ্য তা যাচাই করে।
তিন-স্তরের অ্যাসারশন পিরামিড প্রথমে মৌলিক আউটপুট বৈধতা পরীক্ষা করে। দ্বিতীয় স্তরে টুল কলের সঠিকতা যাচাই করা হয়। তৃতীয় স্তরে প্রতিপক্ষ আক্রমণের বিরুদ্ধে মডেলের প্রতিরোধ ক্ষমতা মূল্যায়ন করা হয়। এই পদ্ধতি প্রচলিত ইভালের চেয়ে অনেক বেশি গভীর বিশ্লেষণ দেয়।
প্রতিটি মডেলকেই রিয়েল টাইমে টুল কল করতে হয়েছে। গবেষক এমন পরিস্থিতি তৈরি করেছেন যেখানে মডেলকে প্রতারণামূলক ইনপুট দিয়ে বিভ্রান্ত করার চেষ্টা করা হয়েছে। ফলাফলে দেখা গেছে, বর্তমান মডেলগুলো সহজ প্রতিপক্ষ কৌশলেও টিকতে পারেনি।
বাংলাদেশের ডেভেলপার ও AI গবেষকদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। দেশে AI-চালিত অ্যাপ্লিকেশন ও চ্যাটবট তৈরি করছে বহু স্টার্টআপ। তাদের মডেলগুলো বাস্তব ব্যবহারের সময় কতটা নিরাপদ তা নিশ্চিত করতে হবে। ফ্রিল্যান্সার ও শিক্ষার্থীদের জন্য এই গবেষণা একটি সতর্কবার্তা। AI মডেলকে অন্ধভাবে বিশ্বাস না করে কঠোর পরীক্ষা করা উচিত।
ভবিষ্যতে আরও উন্নত প্রতিরক্ষা ব্যবস্থা তৈরি করতে হবে। গবেষকরা প্রতিপক্ষ প্রশিক্ষণ ও মডেল গার্ডরেল নিয়ে কাজ করছেন। agent-eval ফ্রেমওয়ার্কটি ওপেন সোর্স হিসেবে প্রকাশ করা হয়েছে। যেকোনো ডেভেলপার এটি ব্যবহার করে নিজের মডেল পরীক্ষা করতে পারবেন।
AI নিরাপত্তা নিশ্চিত করতে এই ধরনের বাস্তবভিত্তিক মূল্যায়ন পদ্ধতি অপরিহার্য। শুধু বেঞ্চমার্ক স্কোর দেখে সন্তুষ্ট না হয়ে মডেলের দুর্বলতা চিহ্নিত করতে হবে। বাংলাদেশের AI সম্প্রদায়ের জন্য এটি একটি মূল্যবান শিক্ষা।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to AI
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...