১২ জিবি ভিআরএএম-এ প্রতি সেকেন্ডে ১২০ টোকেন, গুগলের জেমা ৪ লোকাল এআইতে বিপ্লব
Google-এর নতুন QAT ভার্সনের Gemma 4 12B মডেল মাত্র 12GB VRAM-এ 120 টোকেন প্রতি সেকেন্ড গতি দিচ্ছে। এটি লোকাল AI মডেল চালানোর জন্য একটি বড় অগ্রগতি।
Google-এর নতুন QAT ভার্সনের Gemma 4 12B মডেল মাত্র 12GB VRAM-এ 120 টোকেন প্রতি সেকেন্ড গতি দিচ্ছে। এটি লোকাল AI মডেল চালানোর জন্য একটি বড় অগ্রগতি।
Google সম্প্রতি তাদের Gemma 4 মডেলের QAT (Quantization-Aware Training) ভার্সন প্রকাশ করেছে। এই মডেলটি 12B প্যারামিটার সাইজের হলেও মাত্র 12GB VRAM-এ পুরোপুরি ফিট হয়। Reddit-এর r/LocalLLaMA কমিউনিটির একজন ব্যবহারকারী এটি পরীক্ষা করে চমকপ্রদ ফল পেয়েছেন।
তিনি llama.cpp-এর একটি প্যাচড ভার্সন ব্যবহার করেছেন যাতে Gemma 4-এর MTP (Multi-Token Prediction) ফিচার সক্রিয় ছিল। এর মাধ্যমে তিনি 12GB VRAM-এ প্রতি সেকেন্ডে 120 টোকেন জেনারেট করতে পেরেছেন। এটি আগের যেকোনো তুলনামূলক মডেলের চেয়ে অনেক দ্রুত।
এই সাফল্যের পিছনে কাজ করেছে Unsloth-এর তৈরি GGUF কোয়ান্ট এবং Google-এর নিজস্ব QAT অ্যাসিস্ট্যান্ট ড্রাফট মডেল। Unsloth-এর gemma-4-12B-it-qat-GGUF কোয়ান্ট এবং Google-এর gemma-4-12B-it-qat-q4_0-unquantized-assistant মডেল একসঙ্গে ব্যবহার করে এই গতি অর্জন করা হয়েছে। ব্যবহারকারীটি ড্রাফট মডেলটিকে GGUF ফরম্যাটে কনভার্ট করে HuggingFace-এ আপলোড করেছেন।
এই উন্নয়ন লোকাল AI মডেল চালানোর ক্ষেত্রে একটি বড় মাইলফলক। সাধারণত 12GB VRAM-এর GPU-তে বড় মডেল চালাতে গেলে গতি অনেক কমে যায়। কিন্তু QAT টেকনিক মডেলকে প্রশিক্ষণের সময়ই কোয়ান্টাইজেশনের জন্য অপ্টিমাইজ করে রাখে। ফলে মডেলের নির্ভুলতা প্রায় অক্ষুণ্ণ থাকে কিন্তু গতি ব্যাপকভাবে বেড়ে যায়।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এটি অত্যন্ত গুরুত্বপূর্ণ। এখন তারা মাঝারি মানের GPU (যেমন RTX 3060 12GB) দিয়েও দ্রুত লোকাল AI মডেল চালাতে পারবেন। এতে করে ডেটা প্রাইভেসি বজায় রেখে, ক্লাউড API-এর খরচ ছাড়াই বড় ভাষার মডেল ব্যবহার করা সম্ভব হবে। শিক্ষার্থী এবং গবেষকরাও বিনামূল্যে এই মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন।
ভবিষ্যতে আরও অপ্টিমাইজেশন আসার সম্ভাবনা আছে। Google ইতিমধ্যেই Gemma মডেল পরিবারকে আরও ছোট এবং দ্রুত করার কাজ করছে। এই ধরনের QAT মডেল এবং বিশেষায়িত ড্রাফট মডেল ব্যবহার করে সাধারণ ব্যবহারকারীরাও নিজের কম্পিউটারে শক্তিশালী AI চালাতে পারবেন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...