১২ জিবি জিপিইউতেই ৩০ বিলিয়ন প্যারামিটার মডেল ট্রেনিং, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগ
একজন ডেভেলপার নতুন USAF পদ্ধতি তৈরি করেছে যা MoE মডেলকে স্পার্স ওয়েট ট্রেনিংয়ের মাধ্যমে সাধারণ কনজিউমার GPU-তেই ফাইন-টিউন করতে দেয়। ফলে ৩০ বিলিয়ন প্যারামিটার মডেলও ১২ জিবি মেমরিতে ট্রেনিং সম্ভব হচ্ছে।
একজন ডেভেলপার নতুন USAF পদ্ধতি তৈরি করেছে যা MoE মডেলকে স্পার্স ওয়েট ট্রেনিংয়ের মাধ্যমে সাধারণ কনজিউমার GPU-তেই ফাইন-টিউন করতে দেয়। ফলে ৩০ বিলিয়ন প্যারামিটার মডেলও ১২ জিবি মেমরিতে ট্রেনিং সম্ভব হচ্ছে।
AI মডেল ফাইন-টিউনিংয়ের জগতে বড় ধরনের পরিবর্তন এনেছে একটি নতুন ওপেন সোর্স পদ্ধতি। একজন স্বাধীন ডেভেলপার USAF নামের একটি স্পার্স ফাইন-টিউনিং মেথড তৈরি করেছেন যা MoE (Mixture of Experts) আর্কিটেকচারের মডেলকে সাধারণ কনজিউমার গ্রাফিক্স কার্ডে ফাইন-টিউন করতে সক্ষম করে।
এই পদ্ধতির মূল লক্ষ্য ছিল সহজ এবং সোজা। ডেভেলপার Reddit-এর r/MachineLearning ফোরামে জানিয়েছেন, যদি আপনার GPU কোনো MoE মডেলের ইনফারেন্স চালাতে পারে তাহলে সেটি যেন ফাইন-টিউনিংও করতে পারে। তিনি তার AMD RX 6750 XT (12 GB) GPU-তে Qwen3-30B-A3B মডেল ফাইন-টিউন করে দেখিয়েছেন যে এটি কাজ করে।
USAF পদ্ধতি প্রচলিত অ্যাডাপ্টার-ভিত্তিক ফাইন-টিউনিংয়ের বদলে স্পার্স এক্সপার্ট ওয়েট এবং রাউটারকে ট্রেন করে। এর ফলে মডেলের সব প্যারামিটার আপডেট না করেই শুধুমাত্র প্রয়োজনীয় অংশ পরিবর্তন করা হয়। এটি মেমরির ব্যবহার অনেক কমিয়ে আনে এবং ফাইন-টিউনিংয়ের গতি বাড়ায়।
MoE মডেলগুলোতে একাধিক ছোট ছোট নিউরাল নেটওয়ার্ক থাকে যাদের এক্সপার্ট বলা হয়। প্রতিটি ইনপুটের জন্য শুধুমাত্র কয়েকটি এক্সপার্ট সক্রিয় হয়। USAF এই কাঠামোকে কাজে লাগিয়ে শুধুমাত্র সক্রিয় এক্সপার্টগুলোর ওয়েট এবং রাউটার আপডেট করে। বাকি অংশ অপরিবর্তিত থাকে।
প্রকল্পটি সম্পূর্ণ ওপেন সোর্স এবং Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছে। ডেভেলপার স্পষ্ট করে বলেছেন যে তিনি এখান থেকে কোনো ব্যবসা বা অর্থ উপার্জন করতে চান না। শুধুমাত্র প্রযুক্তির সীমা ঠেলে দেওয়াই তার উদ্দেশ্য।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই পদ্ধতি বিশেষভাবে গুরুত্বপূর্ণ। অনেকেরই হাই-এন্ড NVIDIA GPU কেনার সামর্থ্য নেই। USAF ব্যবহার করে তারা তাদের সাধারণ AMD বা NVIDIA কার্ড দিয়েই বড় মডেল ফাইন-টিউন করতে পারবেন। এটি স্থানীয় ভাষার মডেল তৈরি, চ্যাটবট কাস্টমাইজেশন এবং গবেষণার খরচ অনেক কমিয়ে দেবে।
এই পদ্ধতি ভবিষ্যতে আরও ছোট ডিভাইস যেমন ল্যাপটপ বা এমনকি ফোনেও বড় AI মডেল ট্রেনিংয়ের পথ খুলে দিতে পারে। USAF বর্তমানে শুধুমাত্র MoE মডেলের জন্য কাজ করলেও ভবিষ্যতে অন্যান্য আর্কিটেকচারের জন্যও প্রয়োগ করা সম্ভব।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/MachineLearning
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...