AI মূল্যায়নে ৮/১০ জাল স্কোর বন্ধ, নতুন রুব্রিকে লাভবান হবেন ফ্রিল্যান্সাররা
বড় ভাষার মডেল (LLM) যখন 1-10 স্কেলে কিছু মূল্যায়ন করতে বলা হয়, তখন প্রায়ই সবকিছুকে 8/10 দেয়। একটি AI সোশ্যাল নেটওয়ার্কে পরীক্ষিত নতুন রুব্রিক ডিজাইন এই সমস্যার সমাধান করেছে, যাতে বড় মডেলে স্যুইচ করার প্রয়োজন পড়েনি।
বড় ভাষার মডেল (LLM) যখন 1-10 স্কেলে কিছু মূল্যায়ন করতে বলা হয়, তখন প্রায়ই সবকিছুকে 8/10 দেয়। একটি AI সোশ্যাল নেটওয়ার্কে পরীক্ষিত নতুন রুব্রিক ডিজাইন এই সমস্যার সমাধান করেছে, যাতে বড় মডেলে স্যুইচ করার প্রয়োজন পড়েনি।
আপনি যদি কখনো একটি বড় ভাষার মডেলকে (LLM) 1 থেকে 10 স্কেলে কিছু রেট দিতে বলেন, তাহলে আপনি একটি অদ্ভুত সমস্যার মুখোমুখি হয়েছেন। মডেলটি প্রায় সব কিছুকেই 8/10 স্কোর দেয়। এটি একটি পরিচিত সমস্যা, যাকে বলা হয় এলএলএম-এজ-জাজ বাঞ্চিং প্রবলেম। সম্প্রতি dev.to AI-তে প্রকাশিত একটি গবেষণা এই সমস্যার একটি কার্যকর এবং সহজ সমাধান উপস্থাপন করেছে।
গবেষণাটি পরিচালিত হয় একটি AI-নির্মিত সোশ্যাল নেটওয়ার্ক 'দ্য কলোনি' (The Colony)-তে। সেখানে একটি কঠোর ভোটিং এজেন্ট তৈরি করা হয়েছিল। প্রথম লাইভ রানে দেখা যায়, মোট 22টি গুরুত্বপূর্ণ পোস্টের মধ্যে 17টিকেই মডেলটি 8/10 স্কোর দিয়েছে। অথচ একটি পোস্ট আপভোট পাওয়ার জন্য 9 স্কোর প্রয়োজন ছিল। মডেলটি পোস্টটির প্রশংসা করত, কিন্তু তাকে আপভোট দিত না। এই সমস্যা সমাধানের জন্যই নতুন রুব্রিক তৈরি করা হয়।
এই বাঞ্চিং সমস্যার মূল কারণ হলো, মডেলটি চরম স্কোর (যেমন 1 বা 10) দিতে দ্বিধাবোধ করে। এটি একটি নিরাপদ, মধ্যমপন্থী স্কোর বেছে নেয়। বড় মডেলে স্যুইচ না করেই এই সমস্যার সমাধান করা সম্ভব হয়েছে শুধুমাত্র রুব্রিক (নির্দেশিকা) পুনর্নির্মাণের মাধ্যমে। নতুন রুব্রিকটিতে প্রতিটি স্কোরের জন্য নির্দিষ্ট এবং স্পষ্ট মানদণ্ড নির্ধারণ করা হয়েছে।
গবেষকরা দেখেছেন, যখন রুব্রিকটি অস্পষ্ট ছিল, তখন মডেলটি নিজের বিচারবুদ্ধি প্রয়োগ করে সবকিছুকে গড় স্কোর দিয়েছে। কিন্তু যখন রুব্রিকটি নির্দিষ্ট বৈশিষ্ট্যের সাথে স্কোর যুক্ত করে দেওয়া হয়, যেমন 'এই বৈশিষ্ট্য থাকলে 9, না থাকলে 7' — তখন মডেলটি আরও সঠিকভাবে মূল্যায়ন করতে পেরেছে। এই পরিবর্তনটি মডেলের স্কোরিং প্যাটার্নে উল্লেখযোগ্য পরিবর্তন এনেছে।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং AI গবেষকদের জন্য এই খবরটি বিশেষভাবে গুরুত্বপূর্ণ। বর্তমানে অনেক বাংলা ভাষাভিত্তিক AI টুল এবং চ্যাটবট তৈরি হচ্ছে। এই টুলগুলো যদি কোনো কন্টেন্ট বা কোডের গুণগত মান নির্ধারণ করতে ব্যবহার করা হয়, তাহলে 8/10 বাঞ্চিং সমস্যা তাদের ফলাফলকে অবিশ্বস্ত করে তুলতে পারে। এই সহজ রুব্রিক ফিক্স ব্যবহার করে তারা বড় মডেলের খরচ ছাড়াই আরও নির্ভরযোগ্য মূল্যায়ন সিস্টেম তৈরি করতে পারবে।
ভবিষ্যতে, AI-ভিত্তিক মূল্যায়ন সিস্টেমের নির্ভরযোগ্যতা বাড়ানোর জন্য এই ধরনের রুব্রিক ডিজাইন পদ্ধতি আরও গুরুত্বপূর্ণ হয়ে উঠবে। গবেষকরা ইতিমধ্যে আরও জটিল এবং বহু-স্তরীয় মূল্যায়নের জন্য অনুরূপ কৌশল নিয়ে কাজ করছেন। এই আবিষ্কারটি প্রমাণ করে যে, বড় এবং ব্যয়বহুল মডেলের প্রয়োজন ছাড়াই বুদ্ধিমান ডিজাইনের মাধ্যমে AI-এর কর্মক্ষমতা উন্নত করা সম্ভব।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to AI
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...