AI মডেলের নির্ভুলতা ৭ পয়েন্ট কমলেও পারফরম্যান্সে বড় চমক
INT4 কোয়ান্টাইজেশনের পর Perplexity মাত্র 0.04 পরিবর্তিত হলেও একটি 14B মডেলের মাল্টি-স্টেপ টাস্ক নির্ভুলতা 7 পয়েন্ট কমে গেছে। গবেষণায় দেখা যাচ্ছে, Perplexity কোয়ান্টাইজড মডেলের প্রকৃত কর্মক্ষমতা মূল্যায়নে সম্পূর্ণ অবিশ্বস্ত। ডোমেইন-নির্দিষ্ট ইভালুয়েশন স্যুট ব্যবহারের প্রয়োজনীয়তা নতুন করে প্রমাণিত হয়েছে।
INT4 কোয়ান্টাইজেশনের পর Perplexity মাত্র 0.04 পরিবর্তিত হলেও একটি 14B মডেলের মাল্টি-স্টেপ টাস্ক নির্ভুলতা 7 পয়েন্ট কমে গেছে। গবেষণায় দেখা যাচ্ছে, Perplexity কোয়ান্টাইজড মডেলের প্রকৃত কর্মক্ষমতা মূল্যায়নে সম্পূর্ণ অবিশ্বস্ত। ডোমেইন-নির্দিষ্ট ইভালুয়েশন স্যুট ব্যবহারের প্রয়োজনীয়তা নতুন করে প্রমাণিত হয়েছে।
গবেষণায় বড় চমক দিয়েছে Nexus Labs। তাদের একটি ফাইন-টিউন করা 14B মডেলকে INT4 কোয়ান্টাইজ করার পর Perplexity মাত্র 0.04 পয়েন্ট বেড়েছে। কিন্তু একটি ডোমেইন ইভালুয়েশন স্যুটে মাল্টি-স্টেপ টাস্ক সম্পাদনের নির্ভুলতা 7 পয়েন্ট কমে গেছে। গবেষকরা বলছেন, Perplexity কোয়ান্টাইজড মডেলের জন্য একটি ভয়ানক গ্রহণযোগ্যতা গেট।
কোম্পানিটি প্রায় মডেলটি প্রোডাকশনে পাঠিয়ে দিয়েছিল। কারণ Perplexity স্কোর প্রায় অপরিবর্তিত ছিল। শুধুমাত্র একটি ডোমেইন-নির্দিষ্ট ইভালুয়েশন স্যুটই প্রকৃত ক্ষতি ধরে ফেলতে পেরেছে। এই ঘটনা মেশিন লার্নিং কমিউনিটিতে একটি গুরুত্বপূর্ণ প্রশ্ন তুলেছে: আমরা কি মডেল মূল্যায়নের জন্য সঠিক মেট্রিক ব্যবহার করছি?
Perplexity একটি বহুল ব্যবহৃত মেট্রিক যা মডেলের ভাষা বোঝার ক্ষমতা পরিমাপ করে। কিন্তু এটি মডেলের কাজ সম্পাদনের দক্ষতা পরিমাপ করে না। Nexus Labs-এর গবেষণায় দেখা গেছে, একটি 14B Qwen2.5 মডেলের INT4 কোয়ান্টাইজেশনের সময় Perplexity প্রায় অপরিবর্তিত থাকলেও মাল্টি-স্টেপ ওয়ার্কফ্লো সম্পাদনে ব্যাপক ঘাটতি দেখা দিয়েছে।
কোয়ান্টাইজেশন একটি কৌশল যা মডেলের আকার এবং মেমোরি ব্যবহার কমায়। এটি বড় মডেলকে ছোট ডিভাইসে চালানোর সুযোগ করে দেয়। কিন্তু এই গবেষণা দেখিয়েছে, কোয়ান্টাইজেশনের প্রভাব শুধু Perplexity দিয়ে বোঝা যায় না। ডোমেইন-নির্দিষ্ট কাজের জন্য আলাদা ইভালুয়েশন স্যুট প্রয়োজন।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই গবেষণা বিশেষ গুরুত্বপূর্ণ। যারা বড় ভাষার মডেল নিয়ে কাজ করেন, তারা কোয়ান্টাইজেশন করার সময় শুধু Perplexity দেখেই সিদ্ধান্ত নিতে পারবেন না। নিজেদের নির্দিষ্ট কাজের জন্য আলাদা পরীক্ষা তৈরি করা জরুরি। অন্যথায় প্রোডাকশনে গিয়ে বড় ধরনের সমস্যায় পড়তে পারেন।
Nexus Labs একটি সিরিজ B স্টার্টআপ যা এন্টারপ্রাইজ এজেন্ট অটোমেশনে কাজ করে। তাদের দলে মাত্র 10 জন মানুষ ইভাল পাইপলাইন স্পর্শ করে। এই ছোট দলই একটি গুরুত্বপূর্ণ শিক্ষা দিয়েছে: মডেল মূল্যায়নে শুধু প্রচলিত মেট্রিকের ওপর নির্ভর না করে নিজেদের ডোমেইন-নির্দিষ্ট পরীক্ষা তৈরি করা প্রয়োজন।
ভবিষ্যতে মডেল কোয়ান্টাইজেশন এবং মূল্যায়নের জন্য নতুন মানদণ্ড তৈরি হতে পারে। এই গবেষণা প্রমাণ করেছে, Perplexity একা কোনও মডেলের প্রকৃত কর্মক্ষমতা মূল্যায়নে যথেষ্ট নয়। ডেভেলপারদের উচিত তাদের নির্দিষ্ট কাজের জন্য আলাদা ইভালুয়েশন স্যুট তৈরি করা এবং সেটি নিয়মিত আপডেট করা।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...