AI মডেল তৈরির খরচ কমলো ৩ গুণ, বাংলাদেশি ফ্রিল্যান্সারদের জন্য বড় সুযোগ
গবেষকরা এলএলএম ডিস্টিলেশনে হিডেন রিপ্রেজেন্টেশন অ্যালাইনমেন্ট ব্যবহার করে কেএল ডাইভারজেন্সের ভ্যারিয়েন্স শূন্যে নামিয়ে এনেছেন। ডিটারমিনিস্টিক MSE লস পলিসি-গ্রেডিয়েন্ট ডিস্টিলেশন থেকে স্টোকাস্টিসিটি দূর করেছে। এটি অন-পলিসি ডিস্টিলেশনের দীর্ঘদিনের উচ্চ ভ্যারিয়েন্স সমস্যার সমাধান করেছে।
গবেষকরা এলএলএম ডিস্টিলেশনে হিডেন রিপ্রেজেন্টেশন অ্যালাইনমেন্ট ব্যবহার করে কেএল ডাইভারজেন্সের ভ্যারিয়েন্স শূন্যে নামিয়ে এনেছেন। ডিটারমিনিস্টিক MSE লস পলিসি-গ্রেডিয়েন্ট ডিস্টিলেশন থেকে স্টোকাস্টিসিটি দূর করেছে। এটি অন-পলিসি ডিস্টিলেশনের দীর্ঘদিনের উচ্চ ভ্যারিয়েন্স সমস্যার সমাধান করেছে।
বড় ভাষার মডেল বা এলএলএম ডিস্টিলেশনের জগতে একটি বড় সাফল্য এসেছে। গবেষকরা হিডেন রিপ্রেজেন্টেশন অ্যালাইনমেন্ট ব্যবহার করে কেএল ডাইভারজেন্সের ভ্যারিয়েন্স পুরোপুরি শূন্যে নামিয়ে এনেছেন। এই পদ্ধতি অন-পলিসি এলএলএম ডিস্টিলেশনকে একটি নয়েজ-মুক্ত অপটিমাইজেশন সমস্যায় পরিণত করেছে।
এই আবিষ্কারের মূল চাবিকাঠি হলো ডিটারমিনিস্টিক MSE লস। এটি পলিসি-গ্রেডিয়েন্ট ডিস্টিলেশন পাইপলাইন থেকে সমস্ত স্টোকাস্টিসিটি বা এলোমেলোতা দূর করে দিয়েছে। আগের পদ্ধতিতে মডেল আউটপুটে ভ্যারিয়েন্স বেশি থাকায় প্রশিক্ষণ অস্থির হয়ে পড়ত। নতুন পদ্ধতি সেই সমস্যার সমাধান করেছে।
গবেষকরা দেখিয়েছেন যে অন-পলিসি ডিস্টিলেশন বা OPD আগে কেএল ডাইভারজেন্স স্যাম্পল করত প্রায় 150 হাজার টোকেনের বিশাল ভোকাবুলারি থেকে। এই বিশাল ভোকাবুলারি মন্টে কার্লো ভ্যারিয়েন্সকে অনেক বাড়িয়ে দিত। এর ফলে প্রশিক্ষণের শেষ পর্যায়ে মডেলের পারফরম্যান্স স্থবির হয়ে পড়ত।
এই নতুন পদ্ধতি টিচার মডেলকে ব্ল্যাক বক্স হিসেবে না দেখে তার হিডেন রিপ্রেজেন্টেশন বা লুকানো উপস্থাপনাগুলো সরাসরি ব্যবহার করে। স্টুডেন্ট মডেলকে টিচারের হিডেন স্টেটের সাথে মিলে যেতে বাধ্য করা হয়। এই অ্যালাইনমেন্ট প্রক্রিয়াটি সম্পূর্ণ ডিটারমিনিস্টিক হওয়ায় ভ্যারিয়েন্স সম্পূর্ণভাবে দূর হয়ে যায়।
বাংলাদেশের ডেভেলপার এবং এআই গবেষকদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। এলএলএম ডিস্টিলেশন বড় মডেলকে ছোট এবং দ্রুততর করার একটি কার্যকর উপায়। এই পদ্ধতি ছোট মডেলকে বড় মডেলের মতোই আউটপুট দিতে শেখায়। কম্পিউটেশনাল রিসোর্স সীমিত হলে এই পদ্ধতি বিশেষভাবে কাজে লাগে।
ফ্রিল্যান্সার এবং স্টার্টআপের জন্য এই পদ্ধতি বড় মডেল ব্যবহারের খরচ কমাতে সাহায্য করবে। শিক্ষার্থীরা তাদের গবেষণায় ছোট মডেল দিয়েও বড় মডেলের মতো ফলাফল পেতে পারে। স্থানীয় প্রযুক্তি কোম্পানিগুলো তাদের নিজস্ব ভাষার মডেল তৈরি করতে এই পদ্ধতি ব্যবহার করতে পারে।
ভবিষ্যতে এই পদ্ধতি আরও উন্নত হবে বলে আশা করা যায়। গবেষকরা ইতিমধ্যে বিভিন্ন ধরনের মডেলে এই পদ্ধতি পরীক্ষা করছেন। এলএলএম ডিস্টিলেশন আরও নির্ভরযোগ্য এবং কার্যকর হওয়ার সম্ভাবনা তৈরি হয়েছে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...