AI বিচারকের রায়ে কারচুপি! উত্তর অদলবদলেই বদলে যাচ্ছে ফলাফল
AI মডেল বিচারক উত্তর পড়ার ক্রম অনুসারে পক্ষপাত দেখায়। Nexus Labs-এর গবেষণায় দেখা গেছে, শুধু উত্তর অদলবদল করলেই ১৮% ক্ষেত্রে রায় বদলে যায়। ডুয়াল-পাস স্কোরিং পদ্ধতি এই ত্রুটি ৪%-এ নামিয়ে এনেছে।
AI মডেল বিচারক উত্তর পড়ার ক্রম অনুসারে পক্ষপাত দেখায়। Nexus Labs-এর গবেষণায় দেখা গেছে, শুধু উত্তর অদলবদল করলেই ১৮% ক্ষেত্রে রায় বদলে যায়। ডুয়াল-পাস স্কোরিং পদ্ধতি এই ত্রুটি ৪%-এ নামিয়ে এনেছে।
AI মডেল যখন বিচারকের ভূমিকা পালন করে, তখন তার রায় কি পুরোপুরি নির্ভরযোগ্য? Nexus Labs-এর সাম্প্রতিক গবেষণা বলছে, উত্তর পড়ার ক্রম পরিবর্তন করলেই ১৮% ক্ষেত্রে রায় বদলে যেতে পারে। এই সমস্যার নাম পজিশন বায়াস।
পজিশন বায়াস মানে হলো, LLM বা বড় ভাষার মডেল জাজ হিসেবে কাজ করার সময় প্রথমে যে উত্তরটি পড়ে, সেটিকেই বেশি পছন্দ করে। Nexus Labs তাদের পেয়ারওয়াইজ ইভালুয়েশন সিস্টেমে এই বায়াস ধরা পড়ে। তারা দেখেছে, উত্তর A যদি জাজ প্রম্পটে প্রথমে আসে, তাহলে ১৮% ক্ষেত্রে সেটি উত্তর B-এর চেয়ে ভালো বলে বিবেচিত হয়। অথচ একই উত্তর অদলবদল করলে রায় উল্টে যায়।
Nexus Labs-এর দল এই বায়াস আবিষ্কার করে যখন তাদের এজেন্ট-অটোমেশন মডেলের একটি রিগ্রেশন লিডারবোর্ডে ৬ পয়েন্টের জয় দেখাচ্ছিল। কিন্তু একজন সহকর্মী একই পরীক্ষা পুনরায় চালালে সেই জয় পুরোপুরি অদৃশ্য হয়ে যায়। তখন তারা বুঝতে পারে, উত্তর ক্রমের কারণেই এই অসঙ্গতি ঘটছে।
এই সমস্যা সমাধানের জন্য Nexus Labs ডুয়াল-পাস স্কোরিং পদ্ধতি তৈরি করেছে। এই পদ্ধতিতে জাজ মডেল একই জোড়া উত্তর দুবার মূল্যায়ন করে। প্রথমবার উত্তর A আগে থাকে, দ্বিতীয়বার উত্তর B আগে থাকে। তারপর দুই রায়ের গড় নিয়ে চূড়ান্ত সিদ্ধান্ত নেওয়া হয়। এই পদ্ধতি ফ্লিপ রেট ১৮% থেকে কমিয়ে ৪%-এর নিচে নিয়ে এসেছে।
এই গবেষণা AI মূল্যায়ন পদ্ধতির জন্য অত্যন্ত গুরুত্বপূর্ণ। বর্তমানে অনেক AI ডেভেলপার এবং গবেষক LLM-কে জাজ হিসেবে ব্যবহার করে বিভিন্ন মডেলের পারফরম্যান্স তুলনা করেন। কিন্তু পজিশন বায়াস থাকলে সেই তুলনা ভুল হতে পারে। বিশেষ করে যখন দুটি মডেলের পারফরম্যান্স খুব কাছাকাছি থাকে, তখন ১৮% ফ্লিপ রেট পুরো লিডারবোর্ডের নির্ভরযোগ্যতা নিয়ে প্রশ্ন তোলে।
বাংলাদেশের প্রেক্ষাপটেও এই খবর গুরুত্বপূর্ণ। বাংলাদেশে AI এবং মেশিন লার্নিং নিয়ে কাজ করা ডেভেলপার ও গবেষকের সংখ্যা বাড়ছে। অনেক স্টার্টআপ এবং শিক্ষাপ্রতিষ্ঠান LLM-ভিত্তিক টুল তৈরি করছে। তারা যদি LLM-কে জাজ হিসেবে ব্যবহার করে নিজেদের মডেল মূল্যায়ন করে, তাহলে পজিশন বায়াসের কারণে ভুল সিদ্ধান্ত নেওয়ার ঝুঁকি থাকে। ডুয়াল-পাস স্কোরিং পদ্ধতি ব্যবহার করে তারা আরও নির্ভরযোগ্য ফলাফল পেতে পারে।
ভবিষ্যতে আরও উন্নত পদ্ধতি তৈরি হবে বলে আশা করা যায়। Nexus Labs-এর এই গবেষণা দেখিয়েছে যে LLM-কে জাজ হিসেবে ব্যবহার করার সময় সতর্ক থাকা জরুরি। শুধু উত্তর ক্রম নয়, প্রম্পটের ভাষা, উত্তরগুলোর দৈর্ঘ্য এবং অন্যান্য ফ্যাক্টরও রায়কে প্রভাবিত করতে পারে। গবেষকরা এখন এই বিষয়গুলো নিয়ে কাজ করছেন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...