USAF কী এবং এটি কীভাবে কাজ করে?

USAF একটি স্পার্স ফাইন-টিউনিং পদ্ধতি যা MoE মডেলের শুধুমাত্র সক্রিয় এক্সপার্ট ওয়েট এবং রাউটার আপডেট করে। এটি মেমরির ব্যবহার কমিয়ে সাধারণ GPU-তে বড় মডেল ট্রেনিং সম্ভব করে।

কোন GPU-তে USAF ব্যবহার করা যাবে?

যেকোনো GPU যা MoE মডেলের ইনফারেন্স চালাতে পারে সেটি USAF ব্যবহার করতে পারবে। উদাহরণস্বরূপ, AMD RX 6750 XT (12 GB) দিয়ে Qwen3-30B-A3B ফাইন-টিউন করা সম্ভব।

USAF কি বিনামূল্যে ব্যবহার করা যাবে?

হ্যাঁ, USAF সম্পূর্ণ ওপেন সোর্স এবং Apache 2.0 লাইসেন্সের অধীনে বিনামূল্যে পাওয়া যাবে। ডেভেলপার এটি থেকে কোনো অর্থ উপার্জন করতে চান না।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

১২ জিবি জিপিইউতেই ৩০ বিলিয়ন প্যারামিটার মডেল ট্রেনিং, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগ

একজন ডেভেলপার নতুন USAF পদ্ধতি তৈরি করেছে যা MoE মডেলকে স্পার্স ওয়েট ট্রেনিংয়ের মাধ্যমে সাধারণ কনজিউমার GPU-তেই ফাইন-টিউন করতে দেয়। ফলে ৩০ বিলিয়ন প্যারামিটার মডেলও ১২ জিবি মেমরিতে ট্রেনিং সম্ভব হচ্ছে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪ ঘণ্টা আগে · সূত্র: Reddit r/MachineLearning

১২ জিবি জিপিইউতেই ৩০ বিলিয়ন প্যারামিটার মডেল ট্রেনিং, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগ

AI মডেল ফাইন-টিউনিংয়ের জগতে বড় ধরনের পরিবর্তন এনেছে একটি নতুন ওপেন সোর্স পদ্ধতি। একজন স্বাধীন ডেভেলপার USAF নামের একটি স্পার্স ফাইন-টিউনিং মেথড তৈরি করেছেন যা MoE (Mixture of Experts) আর্কিটেকচারের মডেলকে সাধারণ কনজিউমার গ্রাফিক্স কার্ডে ফাইন-টিউন করতে সক্ষম করে।

এই পদ্ধতির মূল লক্ষ্য ছিল সহজ এবং সোজা। ডেভেলপার Reddit-এর r/MachineLearning ফোরামে জানিয়েছেন, যদি আপনার GPU কোনো MoE মডেলের ইনফারেন্স চালাতে পারে তাহলে সেটি যেন ফাইন-টিউনিংও করতে পারে। তিনি তার AMD RX 6750 XT (12 GB) GPU-তে Qwen3-30B-A3B মডেল ফাইন-টিউন করে দেখিয়েছেন যে এটি কাজ করে।

USAF পদ্ধতি প্রচলিত অ্যাডাপ্টার-ভিত্তিক ফাইন-টিউনিংয়ের বদলে স্পার্স এক্সপার্ট ওয়েট এবং রাউটারকে ট্রেন করে। এর ফলে মডেলের সব প্যারামিটার আপডেট না করেই শুধুমাত্র প্রয়োজনীয় অংশ পরিবর্তন করা হয়। এটি মেমরির ব্যবহার অনেক কমিয়ে আনে এবং ফাইন-টিউনিংয়ের গতি বাড়ায়।

MoE মডেলগুলোতে একাধিক ছোট ছোট নিউরাল নেটওয়ার্ক থাকে যাদের এক্সপার্ট বলা হয়। প্রতিটি ইনপুটের জন্য শুধুমাত্র কয়েকটি এক্সপার্ট সক্রিয় হয়। USAF এই কাঠামোকে কাজে লাগিয়ে শুধুমাত্র সক্রিয় এক্সপার্টগুলোর ওয়েট এবং রাউটার আপডেট করে। বাকি অংশ অপরিবর্তিত থাকে।

প্রকল্পটি সম্পূর্ণ ওপেন সোর্স এবং Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছে। ডেভেলপার স্পষ্ট করে বলেছেন যে তিনি এখান থেকে কোনো ব্যবসা বা অর্থ উপার্জন করতে চান না। শুধুমাত্র প্রযুক্তির সীমা ঠেলে দেওয়াই তার উদ্দেশ্য।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই পদ্ধতি বিশেষভাবে গুরুত্বপূর্ণ। অনেকেরই হাই-এন্ড NVIDIA GPU কেনার সামর্থ্য নেই। USAF ব্যবহার করে তারা তাদের সাধারণ AMD বা NVIDIA কার্ড দিয়েই বড় মডেল ফাইন-টিউন করতে পারবেন। এটি স্থানীয় ভাষার মডেল তৈরি, চ্যাটবট কাস্টমাইজেশন এবং গবেষণার খরচ অনেক কমিয়ে দেবে।

এই পদ্ধতি ভবিষ্যতে আরও ছোট ডিভাইস যেমন ল্যাপটপ বা এমনকি ফোনেও বড় AI মডেল ট্রেনিংয়ের পথ খুলে দিতে পারে। USAF বর্তমানে শুধুমাত্র MoE মডেলের জন্য কাজ করলেও ভবিষ্যতে অন্যান্য আর্কিটেকচারের জন্যও প্রয়োগ করা সম্ভব।

১২ জিবি জিপিইউতেই ৩০ বিলিয়ন প্যারামিটার মডেল ট্রেনিং, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগ

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০