On-policy distillation কীভাবে কাজ করে?

একটি ছোট শিক্ষার্থী মডেল নিজে নিজে উত্তর তৈরি করে। একটি বড় শিক্ষক মডেল সেই উত্তর টোকেন বাই টোকেন মূল্যায়ন করে। শিক্ষার্থী তার নিজের ভুল থেকে শেখে, শিক্ষকের উত্তর কপি করে নয়।

এই পদ্ধতি সাধারণ ফাইন-টিউনিংয়ের চেয়ে ভালো কেন?

সাধারণ ফাইন-টিউনিংয়ে শিক্ষার্থী শিক্ষকের নিখুঁত উত্তর কপি করে। দীর্ঘ যুক্তির ধারায় সেই কপির ভুলগুলো জমে বড় ত্রুটি তৈরি করে। On-policy পদ্ধতি শিক্ষার্থীকে তার নিজের অবস্থায় প্রশিক্ষণ দিয়ে ত্রুটির সঞ্চয় কমায়।

বাংলাদেশের ডেভেলপাররা কীভাবে এই গবেষণা ব্যবহার করতে পারেন?

ছোট মডেল কম কম্পিউট পাওয়ারে চলে, তাই সীমিত বাজেটেও উন্নত AI অ্যাপ তৈরি সম্ভব। ডেভেলপাররা স্থানীয় ভাষায় কাজ করা মডেল তৈরি করতে এই পদ্ধতি ব্যবহার করতে পারেন। এটি দীর্ঘ টেক্সট বিশ্লেষণ এবং কোড জেনারেশনের মতো কাজে বিশেষ কার্যকর।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

ছোট AI মডেল এখন বড় মডেলের মতো যুক্তি দেবে, নিজের ভুল থেকেই শেখে

একটি নতুন গবেষণা পদ্ধতি ছোট AI মডেলকে তার নিজের ভুল থেকে শিখিয়ে বড় মডেলের মতো যুক্তি করার ক্ষমতা দিচ্ছে। On-policy distillation নামের এই কৌশলটি শিক্ষার্থী মডেলের ত্রুটির সঞ্চয় কমিয়ে ফ্রন্টিয়ার রিজনিংয়ের দরজা খুলে দিয়েছে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৩ ঘণ্টা আগে · সূত্র: dev.to ML

ছোট AI মডেল এখন বড় মডেলের মতো যুক্তি দেবে, নিজের ভুল থেকেই শেখে

ছোট আকারের AI মডেলগুলোকে এখন বড় মডেলের মতো জটিল যুক্তি করার ক্ষমতা দেওয়া সম্ভব হচ্ছে। dev.to ML সূত্রে জানা গেছে, On-policy distillation নামের একটি নতুন কৌশল এই কাজটি করছে। এই পদ্ধতিতে একটি ছোট 'শিক্ষার্থী' মডেল নিজে নিজে উত্তর তৈরি করে। তারপর একটি শক্তিশালী 'শিক্ষক' মডেল সেই উত্তরগুলো টোকেন বাই টোকেন মূল্যায়ন করে।

ফলাফলে শিক্ষার্থী মডেলটি তার নিজের ভুল থেকে শেখে। এটি অফ-পলিসি পদ্ধতির মতো শিক্ষকের নিখুঁত উত্তর কপি করে না। অফ-পলিসি পদ্ধতিতে ছোট মডেল শুধু শিক্ষকের সঠিক উত্তর অনুকরণ করে। কিন্তু দীর্ঘ যুক্তির ধারায় সেই অনুকরণের ভুলগুলো জমে বড় ত্রুটিতে পরিণত হয়।

On-policy distillation এই সমস্যার সমাধান করেছে। এটি শিক্ষার্থী মডেলকে সেই অবস্থাগুলোর ওপর প্রশিক্ষণ দেয় যেখানে মডেলটি বাস্তবে পৌঁছায়। গবেষকরা দেখিয়েছেন যে এই পদ্ধতি ছোট মডেলের ফ্রন্টিয়ার রিজনিং ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। এর জন্য বিশাল কম্পিউট পাওয়ারের প্রয়োজন হয় না।

প্রথাগত ফাইন-টিউনিং পদ্ধতিতে শিক্ষার্থী মডেল শিক্ষকের সঠিক উত্তর কপি করে। কিন্তু দীর্ঘ যুক্তির শৃঙ্খলে একটি ছোট ভুল পরবর্তী সব ধাপকে প্রভাবিত করে। On-policy পদ্ধতি এই ত্রুটির সঞ্চয় কমিয়ে আনে। শিক্ষার্থী মডেল তার নিজের তৈরি করা প্রতিটি টোকেনের জন্য শিক্ষকের কাছ থেকে গ্রেড পায়।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং শিক্ষার্থীদের জন্য এই গবেষণার বাস্তব অর্থ অনেক বড়। ছোট মডেলগুলো কম্পিউটেশনাল রিসোর্স কম খরচ করে। ফলে সীমিত বাজেটেও উন্নত AI অ্যাপ্লিকেশন তৈরি করা সম্ভব হবে। স্থানীয় ভাষায় কাজ করা মডেলগুলো আরও নির্ভুল যুক্তি দিতে পারবে।

বিশেষ করে দীর্ঘ টেক্সট বিশ্লেষণ, কোড জেনারেশন এবং মাল্টি-স্টেপ সমস্যা সমাধানের কাজে এই পদ্ধতি কার্যকর হবে। শিক্ষার্থী, গবেষক এবং উদ্যোক্তারা বড় মডেলের ওপর নির্ভর না করেই নিজেদের মডেল তৈরি করতে পারবেন।

ভবিষ্যতে On-policy distillation আরও ছোট ডিভাইসে যেমন স্মার্টফোনে উন্নত AI চালানোর পথ খুলে দিতে পারে। গবেষণাটি AI ক্ষেত্রে ছোট মডেলের সম্ভাবনাকে নতুন করে সংজ্ঞায়িত করছে।

ছোট AI মডেল এখন বড় মডেলের মতো যুক্তি দেবে, নিজের ভুল থেকেই শেখে

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০