Apple গবেষণা: ৯ AI বিচারকের মতামত আসলে মাত্র ২ জনের সমান, নির্ভরযোগ্যতা নিয়ে প্রশ্ন
Apple ML গবেষণায় দেখা গেছে, 9টি ভিন্ন ভিন্ন AI মডেলের তৈরি মূল্যায়ন প্যানেল কার্যত মাত্র 2টি স্বাধীন ভোটের সমান। এই তথ্য AI নির্ভরযোগ্যতা ও মূল্যায়ন পদ্ধতি নিয়ে নতুন চিন্তার খোরাক দিয়েছে।
Apple ML গবেষণায় দেখা গেছে, 9টি ভিন্ন ভিন্ন AI মডেলের তৈরি মূল্যায়ন প্যানেল কার্যত মাত্র 2টি স্বাধীন ভোটের সমান। এই তথ্য AI নির্ভরযোগ্যতা ও মূল্যায়ন পদ্ধতি নিয়ে নতুন চিন্তার খোরাক দিয়েছে।
অ্যাপলের মেশিন লার্নিং গবেষকরা একটি গুরুত্বপূর্ণ গবেষণায় দেখিয়েছেন যে, একাধিক বড় ভাষার মডেল বা LLM-কে বিচারক হিসেবে ব্যবহার করলে তাদের ভোটের কার্যকারিতা অনেক কমে যায়। একটি প্যানেলে 9টি অত্যাধুনিক LLM রাখলেও তারা কার্যত মাত্র 2টি স্বাধীন ভোটের সমান মূল্য প্রদান করে। এই গবেষণাটি LLM-as-a-judge পদ্ধতির নির্ভরযোগ্যতা নিয়ে গভীর প্রশ্ন তুলেছে।
গবেষকরা একটি কাঠামো তৈরি করেছেন যা এই ধরনের মূল্যায়ন প্যানেলের প্রকৃত তথ্যগত মূল্য মাপতে পারে। তারা দেখতে চেয়েছেন, প্যানেলের নির্ভরযোগ্যতা আদর্শ স্বাধীন ভোটিং ব্যবস্থার কত কাছাকাছি। এই গবেষণার ফলাফল AI মডেলের মূল্যায়ন পদ্ধতিতে বড় ধরনের পরিবর্তন আনতে পারে।
গবেষণায় 7টি ভিন্ন মডেল পরিবারের 9টি অত্যাধুনিক LLM ব্যবহার করা হয়েছে। এই মডেলগুলোকে তিনটি প্রাকৃতিক ভাষা অনুমান ডেটাসেটের ওপর পরীক্ষা করা হয়। প্রতিটি ডেটাসেটে প্রতি আইটেমের জন্য 100টি মানব অনুমোদন ছিল। ফলাফলে দেখা যায়, 9 জন বিচারক কার্যত মাত্র 2টি কার্যকর ভোট প্রদান করেছে। এর কারণ হলো এই মডেলগুলোর মধ্যে পারস্পরিক সম্পর্কযুক্ত ত্রুটি বা correlated errors বিদ্যমান।
এই পারস্পরিক সম্পর্কযুক্ত ত্রুটির কারণে মডেলগুলো একে অপরের থেকে সম্পূর্ণ স্বাধীনভাবে সিদ্ধান্ত নিতে পারে না। ফলে বিভিন্ন মডেলের ভোট একই দিকে ঝুঁকে পড়ে এবং প্যানেলের বৈচিত্র্য কমে যায়। গবেষকরা বলেছেন, এই সমস্যা সমাধান না করলে LLM-as-a-judge পদ্ধতি প্রত্যাশিত নির্ভরযোগ্যতা দিতে পারবে না।
বাংলাদেশের প্রেক্ষাপটে এই গবেষণা বিশেষভাবে গুরুত্বপূর্ণ। দেশের স্টার্টআপ ও প্রযুক্তি প্রতিষ্ঠানগুলো বিভিন্ন কাজে LLM ব্যবহার করছে। যেমন কনটেন্ট মডারেশন, গ্রাহক সেবা, এবং ডেটা বিশ্লেষণ। গবেষণার ফলাফল বলছে, শুধু একাধিক মডেল ব্যবহার করলেই যথেষ্ট নয়। বরং মডেলগুলোর স্বাধীনতা ও বৈচিত্র্য নিশ্চিত করা জরুরি। অন্যথায় মূল্যায়ন পদ্ধতি ভুল সিদ্ধান্ত দিতে পারে।
ভবিষ্যতে গবেষকরা আরও উন্নত পদ্ধতি তৈরি করতে চান যেখানে মডেলগুলোর মধ্যে পারস্পরিক সম্পর্ক কমানো যাবে। এর মাধ্যমে LLM মূল্যায়ন প্যানেলের নির্ভরযোগ্যতা বাড়ানো সম্ভব হবে। বাংলাদেশের ডেভেলপার ও গবেষকদের জন্য এই গবেষণা একটি সতর্কবার্তা। AI মডেলের ওপর নির্ভর করার আগে তাদের সীমাবদ্ধতা বোঝা অত্যন্ত জরুরি।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Apple ML Research
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...