QAT মডেল বলতে কী বোঝায়?

QAT মানে Quantization-Aware Training। এটি একটি বিশেষ প্রশিক্ষণ পদ্ধতি যেখানে মডেলকে ছোট আকারে রূপান্তরের সময় নির্ভুলতা কমে যাওয়ার জন্য আগে থেকেই প্রস্তুত করা হয়। ফলে ছোট আকারের মডেলও অনেক নির্ভুল থাকে।

120 টোকেন প্রতি সেকেন্ড গতি কীভাবে কাজে লাগবে?

এই গতি সাধারণ চ্যাটবট, টেক্সট জেনারেশন এবং কোডিং সহায়তার জন্য যথেষ্ট দ্রুত। আপনি রিয়েল-টাইমে মডেলের সাথে কথোপকথন করতে পারবেন এবং বড় টেক্সট দ্রুত তৈরি করতে পারবেন।

বাংলাদেশে এই মডেল ব্যবহার করতে কী কী প্রয়োজন?

আপনার কমপক্ষে 12GB VRAM-এর একটি GPU দরকার, যেমন NVIDIA RTX 3060 12GB বা AMD-এর সমতুল্য GPU। এছাড়া llama.cpp সফটওয়্যার এবং Unsloth-এর GGUF ফাইল ডাউনলোড করতে হবে।

হোম/নিউজ/মডেল

মডেল৫ মিনিট পড়া

১২ জিবি ভিআরএএম-এ প্রতি সেকেন্ডে ১২০ টোকেন, গুগলের জেমা ৪ লোকাল এআইতে বিপ্লব

Google-এর নতুন QAT ভার্সনের Gemma 4 12B মডেল মাত্র 12GB VRAM-এ 120 টোকেন প্রতি সেকেন্ড গতি দিচ্ছে। এটি লোকাল AI মডেল চালানোর জন্য একটি বড় অগ্রগতি।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৫ দিন আগে · সূত্র: Reddit r/LocalLLaMA

১২ জিবি ভিআরএএম-এ প্রতি সেকেন্ডে ১২০ টোকেন, গুগলের জেমা ৪ লোকাল এআইতে বিপ্লব

Google সম্প্রতি তাদের Gemma 4 মডেলের QAT (Quantization-Aware Training) ভার্সন প্রকাশ করেছে। এই মডেলটি 12B প্যারামিটার সাইজের হলেও মাত্র 12GB VRAM-এ পুরোপুরি ফিট হয়। Reddit-এর r/LocalLLaMA কমিউনিটির একজন ব্যবহারকারী এটি পরীক্ষা করে চমকপ্রদ ফল পেয়েছেন।

তিনি llama.cpp-এর একটি প্যাচড ভার্সন ব্যবহার করেছেন যাতে Gemma 4-এর MTP (Multi-Token Prediction) ফিচার সক্রিয় ছিল। এর মাধ্যমে তিনি 12GB VRAM-এ প্রতি সেকেন্ডে 120 টোকেন জেনারেট করতে পেরেছেন। এটি আগের যেকোনো তুলনামূলক মডেলের চেয়ে অনেক দ্রুত।

এই সাফল্যের পিছনে কাজ করেছে Unsloth-এর তৈরি GGUF কোয়ান্ট এবং Google-এর নিজস্ব QAT অ্যাসিস্ট্যান্ট ড্রাফট মডেল। Unsloth-এর gemma-4-12B-it-qat-GGUF কোয়ান্ট এবং Google-এর gemma-4-12B-it-qat-q4_0-unquantized-assistant মডেল একসঙ্গে ব্যবহার করে এই গতি অর্জন করা হয়েছে। ব্যবহারকারীটি ড্রাফট মডেলটিকে GGUF ফরম্যাটে কনভার্ট করে HuggingFace-এ আপলোড করেছেন।

এই উন্নয়ন লোকাল AI মডেল চালানোর ক্ষেত্রে একটি বড় মাইলফলক। সাধারণত 12GB VRAM-এর GPU-তে বড় মডেল চালাতে গেলে গতি অনেক কমে যায়। কিন্তু QAT টেকনিক মডেলকে প্রশিক্ষণের সময়ই কোয়ান্টাইজেশনের জন্য অপ্টিমাইজ করে রাখে। ফলে মডেলের নির্ভুলতা প্রায় অক্ষুণ্ণ থাকে কিন্তু গতি ব্যাপকভাবে বেড়ে যায়।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এটি অত্যন্ত গুরুত্বপূর্ণ। এখন তারা মাঝারি মানের GPU (যেমন RTX 3060 12GB) দিয়েও দ্রুত লোকাল AI মডেল চালাতে পারবেন। এতে করে ডেটা প্রাইভেসি বজায় রেখে, ক্লাউড API-এর খরচ ছাড়াই বড় ভাষার মডেল ব্যবহার করা সম্ভব হবে। শিক্ষার্থী এবং গবেষকরাও বিনামূল্যে এই মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন।

ভবিষ্যতে আরও অপ্টিমাইজেশন আসার সম্ভাবনা আছে। Google ইতিমধ্যেই Gemma মডেল পরিবারকে আরও ছোট এবং দ্রুত করার কাজ করছে। এই ধরনের QAT মডেল এবং বিশেষায়িত ড্রাফট মডেল ব্যবহার করে সাধারণ ব্যবহারকারীরাও নিজের কম্পিউটারে শক্তিশালী AI চালাতে পারবেন।

১২ জিবি ভিআরএএম-এ প্রতি সেকেন্ডে ১২০ টোকেন, গুগলের জেমা ৪ লোকাল এআইতে বিপ্লব

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০