AI মডেল মূল্যায়নে বড় পরিবর্তন, নির্ভরযোগ্যতা বেড়েছে ৬৬%
একটি AI ডেভেলপমেন্ট টিম তাদের LLM-as-judge মূল্যায়ন পদ্ধতি 5-শ্রেণি থেকে বাইনারি স্কোরিংয়ে পরিবর্তন করেছে। এই পরিবর্তনের ফলে Cohen's kappa স্কোর 0.47 থেকে 0.78-এ উন্নীত হয়েছে, যা মডেল মূল্যায়নের নির্ভরযোগ্যতা উল্লেখযোগ্যভাবে বাড়িয়েছে।
একটি AI ডেভেলপমেন্ট টিম তাদের LLM-as-judge মূল্যায়ন পদ্ধতি 5-শ্রেণি থেকে বাইনারি স্কোরিংয়ে পরিবর্তন করেছে। এই পরিবর্তনের ফলে Cohen's kappa স্কোর 0.47 থেকে 0.78-এ উন্নীত হয়েছে, যা মডেল মূল্যায়নের নির্ভরযোগ্যতা উল্লেখযোগ্যভাবে বাড়িয়েছে।
AI মডেলের গুণগত মান যাচাইয়ের একটি গুরুত্বপূর্ণ পদ্ধতি LLM-as-judge-এ বড় ধরনের পরিবর্তন এনেছে একটি প্রযুক্তি দল। তারা 1 থেকে 5 স্কেলের পরিবর্তে বাইনারি স্কোরিং পদ্ধতি ব্যবহার শুরু করেছে। এই পরিবর্তনের ফলে মডেল মূল্যায়নের নির্ভরযোগ্যতা 66 শতাংশ বেড়েছে।
আগের পদ্ধতিতে 5-শ্রেণির হেল্পফুলনেস স্কেল ব্যবহার করা হতো। সেখানে গড় স্কোর দেখে CI গেট সবুজ থাকত। কিন্তু মানুষের সাথে তুলনা করে দেখা গেছে Cohen's kappa মাত্র 0.47 ছিল। Cohen's kappa হলো দুটি মূল্যায়নকারীর মধ্যে চুক্তির মাত্রা মাপার একটি পরিসংখ্যানিক পদ্ধতি। 0.47 মানে মাঝারি মাত্রার চুক্তি, যা নির্ভরযোগ্য নয়।
টিমটি বুঝতে পেরেছে সমস্যাটি টুলিংয়ের নয়, বরং রুব্রিকের। রুব্রিক হলো মূল্যায়নের মানদণ্ডের একটি সেট। একই মূল্যায়নকারীরা যখন প্রতি-ক্রাইটেরিয়ন বাইনারি স্কেলে পুনরায় রেটিং দেয়, তখন Cohen's kappa 0.78-এ পৌঁছেছে। 0.78 মানে শক্তিশালী চুক্তি, যা মডেল মূল্যায়নকে আরও নির্ভরযোগ্য করে তুলেছে।
এই পরিবর্তনের জন্য CI পাইপলাইনও আপডেট করতে হয়েছে। CI বা কন্টিনিউয়াস ইন্টিগ্রেশন হলো কোড পরিবর্তন স্বয়ংক্রিয়ভাবে পরীক্ষা করার একটি সিস্টেম। দলটি Promptfoo নামক একটি টুল ব্যবহার করে। Promptfoo হলো LLM মূল্যায়নের জন্য একটি ওপেন সোর্স ফ্রেমওয়ার্ক। নতুন স্কোরিং শেপের সাথে মানিয়ে নিতে Promptfoo কনফিগারেশন পরিবর্তন করতে হয়েছে।
Promptfoo কনফিগারেশনে কী পরিবর্তন এসেছে তা নিয়ে বিস্তারিত আলোচনা করা হয়েছে মূল আর্টিকেলে। পুরো পরিবর্তনটি পদ্ধতিগত সিদ্ধান্তের পরে ইঞ্জিনিয়ারিং কাজের ফল। এটি একটি যুদ্ধের গল্প নয় বরং একটি প্যাটার্ন শেয়ারিং, যা অন্যান্য ডেভেলপারদের জন্য সহায়ক হতে পারে।
বাংলাদেশের AI ডেভেলপার ও গবেষকদের জন্য এই পরিবর্তন গুরুত্বপূর্ণ। যারা নিজেদের LLM-ভিত্তিক অ্যাপ্লিকেশন তৈরি করছেন, তারা এই পদ্ধতি ব্যবহার করে মডেল মূল্যায়নের নির্ভরযোগ্যতা বাড়াতে পারেন। বিশেষ করে যারা চ্যাটবট, কন্টেন্ট জেনারেশন বা অটোমেশন টুল তৈরি করছেন, তাদের জন্য এই পদ্ধতি কার্যকর হতে পারে। ফ্রিল্যান্সার ও স্টার্টআপগুলোর জন্য এটি একটি সহজ ও কার্যকর সমাধান।
ভবিষ্যতে আরও উন্নত মূল্যায়ন পদ্ধতি আসতে পারে। তবে বর্তমানে বাইনারি স্কোরিং পদ্ধতি LLM-as-judge-এর জন্য সবচেয়ে নির্ভরযোগ্য বিকল্প হিসেবে দেখা দিয়েছে। যারা AI মডেলের গুণগত মান নিয়ে কাজ করছেন, তারা এই পদ্ধতি ব্যবহার করে আরও সঠিক ফলাফল পেতে পারেন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...