LIVE
ইন্ডাস্ট্রিOpenAI-র নতুন চিপে AI খরচ কমবে, ফ্রিল্যান্সারদের লাভ কত?টুলগুগলের নতুন AI ফিচারে পুরনো সিস্টেম ঝুঁকিতে, আপডেট না করলেই বিপদটুলAI নির্ভরযোগ্যতা বাড়বে: LiteLLM বনাম Correctover-এর আসল পার্থক্য জানুনগবেষণাAI-এর সিদ্ধান্ত প্রক্রিয়া উন্মোচন: গবেষকদের নতুন কৌশল বাংলাদেশের ফ্রিল্যান্সারদের কাজে লাগবেটুলLangChain দিয়ে AI Agent বানিয়ে মাসে আয় করুন, দেখুন নতুন টিউটোরিয়ালটুলKubernetes-এ LLM API ডিপ্লয়: টোকেন স্কেলিংয়ে খরচ কমবে ৩ গুণটুলবাংলাদেশে এখন চ্যাটজিপিটি প্লাসের পেমেন্ট সমস্যার সমাধান মিললটুলবাংলাদেশি ফ্রিল্যান্সারদের জন্য সুখবর: Best of AI এখন ওপেন সোর্সহটGPT-5.6 আসছে তিন ভার্সনে, আপনার কাজের গতি বাড়বে ৩ গুণইন্ডাস্ট্রিAI চিপ সংকটে জার্মান অটো সরবরাহকারী Aumovio চুক্তি হারানোর ঝুঁকিতেইন্ডাস্ট্রিফ্লোরিডা বার সদস্যদের বিনামূল্যে AI টুল দিচ্ছে, বাংলাদেশের আইনজীবীদের কী লাভ?মডেলগুগলের নতুন AI আপনার সব ডিভাইস এক কমান্ডে চালাবে, জানুন কী লাভইন্ডাস্ট্রিOpenAI-র নতুন চিপে AI খরচ কমবে, ফ্রিল্যান্সারদের লাভ কত?টুলগুগলের নতুন AI ফিচারে পুরনো সিস্টেম ঝুঁকিতে, আপডেট না করলেই বিপদটুলAI নির্ভরযোগ্যতা বাড়বে: LiteLLM বনাম Correctover-এর আসল পার্থক্য জানুনগবেষণাAI-এর সিদ্ধান্ত প্রক্রিয়া উন্মোচন: গবেষকদের নতুন কৌশল বাংলাদেশের ফ্রিল্যান্সারদের কাজে লাগবেটুলLangChain দিয়ে AI Agent বানিয়ে মাসে আয় করুন, দেখুন নতুন টিউটোরিয়ালটুলKubernetes-এ LLM API ডিপ্লয়: টোকেন স্কেলিংয়ে খরচ কমবে ৩ গুণটুলবাংলাদেশে এখন চ্যাটজিপিটি প্লাসের পেমেন্ট সমস্যার সমাধান মিললটুলবাংলাদেশি ফ্রিল্যান্সারদের জন্য সুখবর: Best of AI এখন ওপেন সোর্সহটGPT-5.6 আসছে তিন ভার্সনে, আপনার কাজের গতি বাড়বে ৩ গুণইন্ডাস্ট্রিAI চিপ সংকটে জার্মান অটো সরবরাহকারী Aumovio চুক্তি হারানোর ঝুঁকিতেইন্ডাস্ট্রিফ্লোরিডা বার সদস্যদের বিনামূল্যে AI টুল দিচ্ছে, বাংলাদেশের আইনজীবীদের কী লাভ?মডেলগুগলের নতুন AI আপনার সব ডিভাইস এক কমান্ডে চালাবে, জানুন কী লাভ
হোম/নিউজ/রিসার্চ
রিসার্চ৫ মিনিট পড়া

AI বিচারকের রায়ে কারচুপি! উত্তর অদলবদলেই বদলে যাচ্ছে ফলাফল

AI মডেল বিচারক উত্তর পড়ার ক্রম অনুসারে পক্ষপাত দেখায়। Nexus Labs-এর গবেষণায় দেখা গেছে, শুধু উত্তর অদলবদল করলেই ১৮% ক্ষেত্রে রায় বদলে যায়। ডুয়াল-পাস স্কোরিং পদ্ধতি এই ত্রুটি ৪%-এ নামিয়ে এনেছে।

d
সম্পাদকীয় টিম
স্টাফ রিপোর্টার · ৩ ঘণ্টা আগে · সূত্র: dev.to ML
AI বিচারকের রায়ে কারচুপি! উত্তর অদলবদলেই বদলে যাচ্ছে ফলাফল

AI মডেল বিচারক উত্তর পড়ার ক্রম অনুসারে পক্ষপাত দেখায়। Nexus Labs-এর গবেষণায় দেখা গেছে, শুধু উত্তর অদলবদল করলেই ১৮% ক্ষেত্রে রায় বদলে যায়। ডুয়াল-পাস স্কোরিং পদ্ধতি এই ত্রুটি ৪%-এ নামিয়ে এনেছে।

AI মডেল যখন বিচারকের ভূমিকা পালন করে, তখন তার রায় কি পুরোপুরি নির্ভরযোগ্য? Nexus Labs-এর সাম্প্রতিক গবেষণা বলছে, উত্তর পড়ার ক্রম পরিবর্তন করলেই ১৮% ক্ষেত্রে রায় বদলে যেতে পারে। এই সমস্যার নাম পজিশন বায়াস।

পজিশন বায়াস মানে হলো, LLM বা বড় ভাষার মডেল জাজ হিসেবে কাজ করার সময় প্রথমে যে উত্তরটি পড়ে, সেটিকেই বেশি পছন্দ করে। Nexus Labs তাদের পেয়ারওয়াইজ ইভালুয়েশন সিস্টেমে এই বায়াস ধরা পড়ে। তারা দেখেছে, উত্তর A যদি জাজ প্রম্পটে প্রথমে আসে, তাহলে ১৮% ক্ষেত্রে সেটি উত্তর B-এর চেয়ে ভালো বলে বিবেচিত হয়। অথচ একই উত্তর অদলবদল করলে রায় উল্টে যায়।

Nexus Labs-এর দল এই বায়াস আবিষ্কার করে যখন তাদের এজেন্ট-অটোমেশন মডেলের একটি রিগ্রেশন লিডারবোর্ডে ৬ পয়েন্টের জয় দেখাচ্ছিল। কিন্তু একজন সহকর্মী একই পরীক্ষা পুনরায় চালালে সেই জয় পুরোপুরি অদৃশ্য হয়ে যায়। তখন তারা বুঝতে পারে, উত্তর ক্রমের কারণেই এই অসঙ্গতি ঘটছে।

এই সমস্যা সমাধানের জন্য Nexus Labs ডুয়াল-পাস স্কোরিং পদ্ধতি তৈরি করেছে। এই পদ্ধতিতে জাজ মডেল একই জোড়া উত্তর দুবার মূল্যায়ন করে। প্রথমবার উত্তর A আগে থাকে, দ্বিতীয়বার উত্তর B আগে থাকে। তারপর দুই রায়ের গড় নিয়ে চূড়ান্ত সিদ্ধান্ত নেওয়া হয়। এই পদ্ধতি ফ্লিপ রেট ১৮% থেকে কমিয়ে ৪%-এর নিচে নিয়ে এসেছে।

এই গবেষণা AI মূল্যায়ন পদ্ধতির জন্য অত্যন্ত গুরুত্বপূর্ণ। বর্তমানে অনেক AI ডেভেলপার এবং গবেষক LLM-কে জাজ হিসেবে ব্যবহার করে বিভিন্ন মডেলের পারফরম্যান্স তুলনা করেন। কিন্তু পজিশন বায়াস থাকলে সেই তুলনা ভুল হতে পারে। বিশেষ করে যখন দুটি মডেলের পারফরম্যান্স খুব কাছাকাছি থাকে, তখন ১৮% ফ্লিপ রেট পুরো লিডারবোর্ডের নির্ভরযোগ্যতা নিয়ে প্রশ্ন তোলে।

বাংলাদেশের প্রেক্ষাপটেও এই খবর গুরুত্বপূর্ণ। বাংলাদেশে AI এবং মেশিন লার্নিং নিয়ে কাজ করা ডেভেলপার ও গবেষকের সংখ্যা বাড়ছে। অনেক স্টার্টআপ এবং শিক্ষাপ্রতিষ্ঠান LLM-ভিত্তিক টুল তৈরি করছে। তারা যদি LLM-কে জাজ হিসেবে ব্যবহার করে নিজেদের মডেল মূল্যায়ন করে, তাহলে পজিশন বায়াসের কারণে ভুল সিদ্ধান্ত নেওয়ার ঝুঁকি থাকে। ডুয়াল-পাস স্কোরিং পদ্ধতি ব্যবহার করে তারা আরও নির্ভরযোগ্য ফলাফল পেতে পারে।

ভবিষ্যতে আরও উন্নত পদ্ধতি তৈরি হবে বলে আশা করা যায়। Nexus Labs-এর এই গবেষণা দেখিয়েছে যে LLM-কে জাজ হিসেবে ব্যবহার করার সময় সতর্ক থাকা জরুরি। শুধু উত্তর ক্রম নয়, প্রম্পটের ভাষা, উত্তরগুলোর দৈর্ঘ্য এবং অন্যান্য ফ্যাক্টরও রায়কে প্রভাবিত করতে পারে। গবেষকরা এখন এই বিষয়গুলো নিয়ে কাজ করছেন।

আরও পড়ুন

🌐 তথ্যসূত্র ও স্বচ্ছতা

এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।

ট্যাগ:#রিসার্চ#AI#বাংলাদেশ#dev.to ML
AD
📧

AI নিউজ সরাসরি ইমেইলে পান

প্রতিদিনের সেরা AI খবর বাছাই করে আপনার inbox-এ পাঠাই। বিজ্ঞাপন নেই।

মূল প্রতিবেদন: dev.to ML

সোর্স দেখুন ↗

মন্তব্য

লোড হচ্ছে...