Luce Spark কীভাবে 16 GB GPU-তে 35B মডেল চালায়?

Luce Spark ক্যালিব্রেশন করে শুধুমাত্র সক্রিয় এক্সপার্টদের GPU-তে রাখে এবং বাকি লং-টেইল এক্সপার্টদের সিস্টেম RAM থেকে ডিমান্ড অনুযায়ী সুয়াপ করে আনে। এতে VRAM ব্যবহার অনেক কমে যায়।

এই টুল ব্যবহার করতে কি কোনো বিশেষ GPU দরকার?

না, একটি সাধারণ 16 GB VRAM-যুক্ত GPU যেমন RTX 3090 বা তার সমতুল্য কার্ডই যথেষ্ট। তবে টুলটি RTX 3090-এ পরীক্ষা করা হয়েছে।

বাংলাদেশের ডেভেলপারদের জন্য Luce Spark-এর সুবিধা কী?

বাংলাদেশের ডেভেলপার ও শিক্ষার্থীরা এখন ব্যয়বহুল হাই-এন্ড GPU ছাড়াই বড় ভাষার মডেল স্থানীয়ভাবে চালিয়ে গবেষণা ও অ্যাপ তৈরি করতে পারবেন, যা খরচ ও প্রবেশের বাধা কমিয়ে দেবে।

হোম/নিউজ/টুল

টুল৫ মিনিট পড়া

১৬ জিবি জিপিইউতেই ৩৫বি মডেল, ফ্রিল্যান্সারদের খরচ কমলো ৩ গুণ

Luce Spark নামের নতুন টুলটি 16 GB GPU-তে 33-35B প্যারামিটারের MoE মডেল চালানোর পথ খুলে দিয়েছে। এটি শুধুমাত্র সক্রিয় এক্সপার্টদের GPU-তে রেখে বাকিগুলো RAM থেকে এনে কাজ করে, যাতে কোনো অফলোড ট্যাক্স না লাগে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৭ দিন আগে · সূত্র: Reddit r/LocalLLaMA

১৬ জিবি জিপিইউতেই ৩৫বি মডেল, ফ্রিল্যান্সারদের খরচ কমলো ৩ গুণ

বাংলাদেশের AI ও প্রযুক্তি সংবাদমাধ্যম AIখবর জানাচ্ছে, স্থানীয় AI মডেল চালানোর জগতে এক বড় সাফল্য এসেছে। Luce Spark নামের একটি নতুন টুল 16 GB VRAM-যুক্ত GPU-তে 33 থেকে 35 বিলিয়ন প্যারামিটারের MoE (Mixture of Experts) মডেল চালানোর সুযোগ করে দিয়েছে। Reddit-এর r/LocalLLaMA সম্প্রদায়ে এই টুলটি ঘোষণা করা হয়েছে।

এই টুলটি বিশেষভাবে গুরুত্বপূর্ণ কারণ আগে এত বড় মডেল চালাতে 24 GB বা তার বেশি VRAM লাগত। এখন একজন ডেভেলপার বা গবেষক একটি সাধারণ RTX 3090 GPU (24 GB VRAM) দিয়েও 16 GB-র নিচে মেমোরি ব্যবহার করে এই মডেলগুলো চালাতে পারবেন। এটি স্থানীয় AI ব্যবহারের খরচ ও প্রবেশের বাধা অনেক কমিয়ে দেবে।

Luce Spark-এর মূল কৌশল হলো মডেলের সব অংশ GPU-তে না রেখে শুধুমাত্র প্রয়োজনীয় অংশগুলো রাখা। MoE মডেলে প্রতি টোকেনের জন্য 256 জন এক্সপার্টের মধ্যে মাত্র 8 জন সক্রিয় হয়। Luce Spark আগে থেকেই ক্যালিব্রেট করে দেখে নেয় কোন এক্সপার্টরা বেশি ব্যবহৃত হয়, অর্থাৎ 'হট'। এই হট এক্সপার্টদের GPU-তে রাখা হয়। বাকি লং-টেইল এক্সপার্টরা সিস্টেম RAM-এ থাকে এবং প্রয়োজন অনুযায়ী GPU-তে আনা হয়।

ফলাফল চোখে পড়ার মতো। Qwen3.6 35B-A3B মডেলটি আগে যেখানে 20.5 GiB মেমোরি নিত, এখন Luce Spark ব্যবহার করে তা মাত্র 13.3 GiB-তে চলে। Laguna XS.2 33B-A3B মডেলটিও 18.8 GiB থেকে নেমে 14.6 GiB-তে এসেছে। উভয় ক্ষেত্রেই মাপা হয়েছে RTX 3090-তে এবং উভয়ই 16 GiB-র নিচে। এটি প্রমাণ করে যে ঐতিহ্যবাহী অফলোড পদ্ধতির চেয়ে এই স্মার্ট সুয়াপিং কৌশল অনেক বেশি কার্যকর।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং শিক্ষার্থীদের জন্য এই খবর অত্যন্ত প্রাসঙ্গিক। এখন তারা ব্যয়বহুল হাই-এন্ড GPU ছাড়াই বড় ভাষার মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন। একটি পুরনো RTX 3090 বা 16 GB VRAM-যুক্ত অন্য GPU দিয়েই তারা স্থানীয়ভাবে শক্তিশালী AI মডেল চালিয়ে বিভিন্ন অ্যাপ্লিকেশন তৈরি করতে পারবেন। এটি গবেষণা ও স্টার্টআপ ইকোসিস্টেমের জন্য একটি বড় সুযোগ।

Luce Spark-এর এই উদ্ভাবন প্রমাণ করে যে বড় মডেল চালানোর জন্য সবসময় বড় হার্ডওয়্যারের প্রয়োজন হয় না। ভবিষ্যতে আরও অপ্টিমাইজেশন আসলে স্থানীয় AI ব্যবহার আরও সহজ ও সাশ্রয়ী হবে বলে আশা করা যায়।

১৬ জিবি জিপিইউতেই ৩৫বি মডেল, ফ্রিল্যান্সারদের খরচ কমলো ৩ গুণ

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০