ফেইথফুলনেস মেট্রিক 0.67 মানে কী?

এর মানে হলো ৬৭ শতাংশ উত্তর তথ্যের সাথে বিশ্বস্ত। বাকি ৩৩ শতাংশ উত্তর ভুল বা বিভ্রান্তিকর হতে পারে। এই মেট্রিক শুধু দেখায় যে উত্তর কতটা নির্ভরযোগ্য, কিন্তু প্রকৃত ভুলের হার বোঝায় না।

রির্যাংকার কী এবং কেন এটি সমস্যা সমাধান করতে পারেনি?

রির্যাংকার হলো একটি টুল যা RAG সিস্টেমের আনা তথ্যগুলোকে গুরুত্ব অনুসারে সাজায়। এটি P@1 মেট্রিক সামান্য উন্নত করলেও সিস্টেমের সামগ্রিক নির্ভুলতা বাড়াতে পারেনি। কারণ রির্যাংকার শুধু তথ্যের অর্ডার পরিবর্তন করে, ভুল তথ্য সরিয়ে দেয় না।

বাংলাদেশের ডেভেলপাররা এই গবেষণা থেকে কী শিখতে পারেন?

বাংলাদেশের ডেভেলপাররা শিখতে পারেন যে শুধু একটি মেট্রিকের ওপর নির্ভর না করে সিস্টেমকে স্বাধীন জাজ মডেল দিয়ে পরীক্ষা করা উচিত। নিজের সিস্টেম নিজে মূল্যায়ন করলে পক্ষপাতিত্ব দেখা দিতে পারে। বাইরের মূল্যায়ন পদ্ধতি ব্যবহার করে প্রকৃত ভুল চিহ্নিত করা জরুরি।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

RAG সিস্টেমে প্রতি ৩ উত্তরে ১টি ভুল, জানেন কীভাবে ঠিক করবেন?

একজন ডেভেলপার নিজের হার্ডওয়্যারে জাপানি RAG সিস্টেম তৈরি করে দেখেছেন যে ফেইথফুলনেস মেট্রিক 0.67 হলেও এক-তৃতীয়াংশ উত্তর ভুল। রির্যাংকার যোগ করলেও নির্ভুলতা সামান্যই বেড়েছে। স্বাধীন জাজ মডেল ব্যবহার করে তিনি বের করে এনেছেন সিস্টেমের প্রকৃত দুর্বলতা।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৮ দিন আগে · সূত্র: dev.to ML

RAG সিস্টেমে প্রতি ৩ উত্তরে ১টি ভুল, জানেন কীভাবে ঠিক করবেন?

একজন ডেভেলপার নিজের হার্ডওয়্যারে তৈরি করা জাপানি RAG সিস্টেমের নির্ভুলতা যাচাই করে চমকে গেছেন। ফেইথফুলনেস মেট্রিক 0.67 দেখালেও প্রতি ৩টি উত্তরের মধ্যে ১টি ভুল ছিল। তিনি একটি স্বাধীন জাজ মডেল দিয়ে মূল্যায়ন করেছেন এবং দেখেছেন যে সিস্টেম নিজের ভুল ধরে ফেলতে পারে না।

RAG বা Retrieval-Augmented Generation এমন একটি পদ্ধতি যেখানে AI মডেল প্রথমে তথ্য খুঁজে আনে এবং তারপর সেই তথ্যের ভিত্তিতে উত্তর তৈরি করে। এই পদ্ধতি বর্তমানে অনেক প্রযুক্তি কোম্পানি ও ডেভেলপার ব্যবহার করছেন। কিন্তু এই গবেষণা দেখিয়েছে যে শুধু ফেইথফুলনেস মেট্রিক দেখলে সিস্টেমের প্রকৃত অবস্থা বোঝা যায় না।

ডেভেলপারটি তার RTX 5090 GPU এবং Ollama টুল ব্যবহার করে একটি অন-প্রিম জাপানি RAG সিস্টেম তৈরি করেছেন। তিনি প্রথমে একটি রির্যাংকার যোগ করেছেন যা সাধারণত ফলাফলের মান উন্নত করতে ব্যবহৃত হয়। কিন্তু রির্যাংকার P@1 মেট্রিক সামান্য উন্নত করলেও সামগ্রিক নির্ভুলতা বাড়ায়নি। P@1 হলো প্রথম উত্তরের নির্ভুলতা মাপার একটি মেট্রিক।

সবচেয়ে বড় সমস্যা ছিল ফেইথফুলনেস মেট্রিক নিজেই। এই মেট্রিক দেখায় যে সিস্টেম কতটা বিশ্বস্তভাবে তথ্য উপস্থাপন করছে। কিন্তু 0.67 মানে হলো ৬৭ শতাংশ উত্তর বিশ্বস্ত। বাকি ৩৩ শতাংশ উত্তর ভুল বা বিভ্রান্তিকর। ডেভেলপারটি একটি স্বাধীন জাজ মডেল ব্যবহার করে এই ভুলগুলো চিহ্নিত করেছেন।

স্বাধীন জাজ মডেল ব্যবহারের কারণ হলো সিস্টেম নিজের উত্তর নিজে মূল্যায়ন করলে পক্ষপাতিত্ব দেখা দেয়। জাজ মডেল বাইরে থেকে সিস্টেমের উত্তর পরীক্ষা করে এবং প্রকৃত ভুলগুলো বের করে আনে। এই পদ্ধতি ব্যবহার করে ডেভেলপারটি দেখেছেন যে রির্যাংকার যোগ করলেও সিস্টেমের ভুলের হার কমেনি।

বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এই গবেষণা গুরুত্বপূর্ণ। অনেকেই নিজেদের প্রজেক্টে RAG সিস্টেম ব্যবহার করছেন বা তৈরি করছেন। শুধু ফেইথফুলনেস মেট্রিক দেখে সিস্টেমকে নির্ভরযোগ্য মনে করা বিপজ্জনক হতে পারে। স্বাধীন জাজ মডেল বা অন্য কোনো বাইরের মূল্যায়ন পদ্ধতি ব্যবহার করা উচিত।

ভবিষ্যতে RAG সিস্টেমের নির্ভুলতা বাড়াতে নতুন পদ্ধতি প্রয়োজন। শুধু রির্যাংকার বা ফেইথফুলনেস মেট্রিক নয়, বরং একাধিক মেট্রিক ও বাইরের মূল্যায়ন ব্যবহার করা জরুরি। ডেভেলপারদের উচিত নিজেদের সিস্টেমকে নিয়মিতভাবে স্বাধীন মডেল দিয়ে পরীক্ষা করা।

RAG সিস্টেমে প্রতি ৩ উত্তরে ১টি ভুল, জানেন কীভাবে ঠিক করবেন?

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০