LLM-এর 8/10 বাঞ্চিং সমস্যা কী?

এটি একটি সাধারণ সমস্যা যেখানে বড় ভাষার মডেল (LLM) কোনো কিছুকে 1-10 স্কেলে মূল্যায়ন করতে বললে অধিকাংশ জিনিসকেই 8/10 স্কোর দেয়। মডেলটি চরম স্কোর এড়িয়ে নিরাপদ মধ্যম স্কোর বেছে নেয়।

এই সমস্যার সমাধান কীভাবে করা হয়েছে?

বড় মডেলে স্যুইচ না করে শুধুমাত্র মূল্যায়নের রুব্রিক (নির্দেশিকা) পুনর্নির্মাণ করে সমাধান করা হয়েছে। নতুন রুব্রিকে প্রতিটি স্কোরের জন্য স্পষ্ট এবং নির্দিষ্ট মানদণ্ড নির্ধারণ করা হয়েছে, যা মডেলকে আরও সঠিক মূল্যায়ন করতে সাহায্য করে।

বাংলাদেশের ডেভেলপাররা এই সমাধান কীভাবে ব্যবহার করতে পারে?

বাংলাদেশের ডেভেলপাররা তাদের নিজস্ব AI টুল বা চ্যাটবটে কন্টেন্ট বা কোডের গুণগত মান নির্ধারণের জন্য এই পদ্ধতি ব্যবহার করতে পারে। এটি বড় মডেলের খরচ ছাড়াই আরও নির্ভরযোগ্য এবং সঠিক মূল্যায়ন সিস্টেম তৈরি করতে সাহায্য করবে।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

AI মূল্যায়নে ৮/১০ জাল স্কোর বন্ধ, নতুন রুব্রিকে লাভবান হবেন ফ্রিল্যান্সাররা

বড় ভাষার মডেল (LLM) যখন 1-10 স্কেলে কিছু মূল্যায়ন করতে বলা হয়, তখন প্রায়ই সবকিছুকে 8/10 দেয়। একটি AI সোশ্যাল নেটওয়ার্কে পরীক্ষিত নতুন রুব্রিক ডিজাইন এই সমস্যার সমাধান করেছে, যাতে বড় মডেলে স্যুইচ করার প্রয়োজন পড়েনি।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৫০ দিন আগে · সূত্র: dev.to AI

AI মূল্যায়নে ৮/১০ জাল স্কোর বন্ধ, নতুন রুব্রিকে লাভবান হবেন ফ্রিল্যান্সাররা

আপনি যদি কখনো একটি বড় ভাষার মডেলকে (LLM) 1 থেকে 10 স্কেলে কিছু রেট দিতে বলেন, তাহলে আপনি একটি অদ্ভুত সমস্যার মুখোমুখি হয়েছেন। মডেলটি প্রায় সব কিছুকেই 8/10 স্কোর দেয়। এটি একটি পরিচিত সমস্যা, যাকে বলা হয় এলএলএম-এজ-জাজ বাঞ্চিং প্রবলেম। সম্প্রতি dev.to AI-তে প্রকাশিত একটি গবেষণা এই সমস্যার একটি কার্যকর এবং সহজ সমাধান উপস্থাপন করেছে।

গবেষণাটি পরিচালিত হয় একটি AI-নির্মিত সোশ্যাল নেটওয়ার্ক 'দ্য কলোনি' (The Colony)-তে। সেখানে একটি কঠোর ভোটিং এজেন্ট তৈরি করা হয়েছিল। প্রথম লাইভ রানে দেখা যায়, মোট 22টি গুরুত্বপূর্ণ পোস্টের মধ্যে 17টিকেই মডেলটি 8/10 স্কোর দিয়েছে। অথচ একটি পোস্ট আপভোট পাওয়ার জন্য 9 স্কোর প্রয়োজন ছিল। মডেলটি পোস্টটির প্রশংসা করত, কিন্তু তাকে আপভোট দিত না। এই সমস্যা সমাধানের জন্যই নতুন রুব্রিক তৈরি করা হয়।

এই বাঞ্চিং সমস্যার মূল কারণ হলো, মডেলটি চরম স্কোর (যেমন 1 বা 10) দিতে দ্বিধাবোধ করে। এটি একটি নিরাপদ, মধ্যমপন্থী স্কোর বেছে নেয়। বড় মডেলে স্যুইচ না করেই এই সমস্যার সমাধান করা সম্ভব হয়েছে শুধুমাত্র রুব্রিক (নির্দেশিকা) পুনর্নির্মাণের মাধ্যমে। নতুন রুব্রিকটিতে প্রতিটি স্কোরের জন্য নির্দিষ্ট এবং স্পষ্ট মানদণ্ড নির্ধারণ করা হয়েছে।

গবেষকরা দেখেছেন, যখন রুব্রিকটি অস্পষ্ট ছিল, তখন মডেলটি নিজের বিচারবুদ্ধি প্রয়োগ করে সবকিছুকে গড় স্কোর দিয়েছে। কিন্তু যখন রুব্রিকটি নির্দিষ্ট বৈশিষ্ট্যের সাথে স্কোর যুক্ত করে দেওয়া হয়, যেমন 'এই বৈশিষ্ট্য থাকলে 9, না থাকলে 7' — তখন মডেলটি আরও সঠিকভাবে মূল্যায়ন করতে পেরেছে। এই পরিবর্তনটি মডেলের স্কোরিং প্যাটার্নে উল্লেখযোগ্য পরিবর্তন এনেছে।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং AI গবেষকদের জন্য এই খবরটি বিশেষভাবে গুরুত্বপূর্ণ। বর্তমানে অনেক বাংলা ভাষাভিত্তিক AI টুল এবং চ্যাটবট তৈরি হচ্ছে। এই টুলগুলো যদি কোনো কন্টেন্ট বা কোডের গুণগত মান নির্ধারণ করতে ব্যবহার করা হয়, তাহলে 8/10 বাঞ্চিং সমস্যা তাদের ফলাফলকে অবিশ্বস্ত করে তুলতে পারে। এই সহজ রুব্রিক ফিক্স ব্যবহার করে তারা বড় মডেলের খরচ ছাড়াই আরও নির্ভরযোগ্য মূল্যায়ন সিস্টেম তৈরি করতে পারবে।

ভবিষ্যতে, AI-ভিত্তিক মূল্যায়ন সিস্টেমের নির্ভরযোগ্যতা বাড়ানোর জন্য এই ধরনের রুব্রিক ডিজাইন পদ্ধতি আরও গুরুত্বপূর্ণ হয়ে উঠবে। গবেষকরা ইতিমধ্যে আরও জটিল এবং বহু-স্তরীয় মূল্যায়নের জন্য অনুরূপ কৌশল নিয়ে কাজ করছেন। এই আবিষ্কারটি প্রমাণ করে যে, বড় এবং ব্যয়বহুল মডেলের প্রয়োজন ছাড়াই বুদ্ধিমান ডিজাইনের মাধ্যমে AI-এর কর্মক্ষমতা উন্নত করা সম্ভব।

AI মূল্যায়নে ৮/১০ জাল স্কোর বন্ধ, নতুন রুব্রিকে লাভবান হবেন ফ্রিল্যান্সাররা

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০