বাংলাদেশে AI মডেল ২-বিটে সঙ্কুচিত, মেমোরি খরচ কমবে ৪ গুণ
গবেষকরা OSCAR RotationZoo নামে একটি নতুন পদ্ধতি চালু করেছেন যা 2-বিট KV ক্যাশে কোয়ান্টাইজেশন সম্ভব করেছে। Gemma-4-12B-it, Qwen3-32B এবং Qwen3-4B-Thinking-2507 মডেলের জন্য প্রি-কোয়ান্টাইজড GGUF মডেল পাওয়া যাচ্ছে। কোডটি llama.cpp এবং sglang-এর জন্য প্রকাশ করা হয়েছে।
গবেষকরা OSCAR RotationZoo নামে একটি নতুন পদ্ধতি চালু করেছেন যা 2-বিট KV ক্যাশে কোয়ান্টাইজেশন সম্ভব করেছে। Gemma-4-12B-it, Qwen3-32B এবং Qwen3-4B-Thinking-2507 মডেলের জন্য প্রি-কোয়ান্টাইজড GGUF মডেল পাওয়া যাচ্ছে। কোডটি llama.cpp এবং sglang-এর জন্য প্রকাশ করা হয়েছে।
বড় ভাষা মডেলের মেমোরি চাহিদা কমানোর জন্য একটি গুরুত্বপূর্ণ গবেষণা প্রকাশ পেয়েছে। OSCAR RotationZoo নামের এই পদ্ধতি অফলাইন স্পেকট্রাল কোভ্যারিয়েন্স-অ্যাওয়ার রোটেশন ব্যবহার করে 2-বিট KV ক্যাশে কোয়ান্টাইজেশন সম্ভব করেছে। Reddit-এর r/LocalLLaMA কমিউনিটিতে এই খবরটি প্রথম প্রকাশিত হয়েছে।
এই পদ্ধতির মূল লক্ষ্য হল মডেলের নির্ভুলতা প্রায় অক্ষুণ্ণ রেখে মেমোরি ব্যবহার নাটকীয়ভাবে কমানো। KV ক্যাশে বড় ভাষা মডেলের ইনফারেন্সের সময় একটি বড় বাধা। বিশেষ করে দীর্ঘ কনটেক্সট উইন্ডোতে এটি মেমোরির সিংহভাগ গ্রাস করে। OSCAR RotationZoo এই সমস্যার সমাধান দিচ্ছে।
গবেষকরা ইতিমধ্যে তিনটি জনপ্রিয় মডেলের জন্য প্রি-কোয়ান্টাইজড GGUF ফাইল প্রকাশ করেছেন। এগুলো হল Gemma-4-12B-it, Qwen3-32B এবং Qwen3-4B-Thinking-2507। এই ফাইলগুলো Hugging Face-এ ডাউনলোডের জন্য উপলব্ধ। যেকোনো ব্যবহারকারী সরাসরি এই কোয়ান্টাইজড মডেল ব্যবহার করে মেমোরি খরচ কমাতে পারেন।
কোডটি দুইটি জনপ্রিয় ফ্রেমওয়ার্কের জন্য প্রকাশ করা হয়েছে। প্রথমটি হল llama.cpp এবং দ্বিতীয়টি sglang। llama.cpp লোকাল মেশিনে বড় মডেল চালানোর জন্য জনপ্রিয়। sglang দ্রুত ইনফারেন্স সার্ভিংয়ের জন্য ব্যবহৃত হয়। GitHub-এ এই কোডটি ওপেন সোর্স হিসেবে পাওয়া যাচ্ছে।
বাংলাদেশের ডেভেলপার এবং AI গবেষকদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। দেশে সীমিত GPU এবং মেমোরি সম্পদ নিয়ে কাজ করতে হয়। OSCAR RotationZoo ব্যবহার করে তারা বড় মডেলগুলো কম মেমোরিতে চালাতে পারবেন। এটি ফ্রিল্যান্সার এবং স্টার্টআপদের জন্য একটি বড় সুযোগ। তারা আরও কম খরচে বড় ভাষা মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন।
তবে মনে রাখতে হবে এটি এখনও গবেষণার পর্যায়ে আছে। 2-বিট কোয়ান্টাইজেশনে কিছু নির্ভুলতা কমতে পারে। গবেষকরা এই ক্ষতি কমানোর জন্য নতুন রোটেশন পদ্ধতি ব্যবহার করেছেন। ভবিষ্যতে আরও উন্নত সংস্করণ আসতে পারে। এই গবেষণা বড় মডেলের ব্যবহারকে আরও গণতান্ত্রিক করবে বলে আশা করা যায়।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...