OSCAR RotationZoo কী এবং কেন এটি গুরুত্বপূর্ণ?

OSCAR RotationZoo একটি গবেষণা পদ্ধতি যা বড় ভাষা মডেলের মেমোরি ব্যবহার কমাতে 2-বিট KV ক্যাশে কোয়ান্টাইজেশন করে। এটি গুরুত্বপূর্ণ কারণ এটি মডেলের নির্ভুলতা প্রায় অক্ষুণ্ণ রেখে মেমোরি খরচ নাটকীয়ভাবে কমায়।

কোন মডেলের জন্য প্রি-কোয়ান্টাইজড ফাইল পাওয়া যাচ্ছে?

Gemma-4-12B-it, Qwen3-32B এবং Qwen3-4B-Thinking-2507 মডেলের জন্য প্রি-কোয়ান্টাইজড GGUF ফাইল Hugging Face থেকে ডাউনলোড করা যাবে।

বাংলাদেশের ডেভেলপাররা কীভাবে এই প্রযুক্তি ব্যবহার করতে পারবেন?

বাংলাদেশের ডেভেলপাররা GitHub থেকে কোড ডাউনলোড করে তাদের নিজস্ব মেশিনে কম মেমোরি ব্যবহার করে বড় মডেল চালাতে পারবেন। এটি সীমিত সম্পদ নিয়ে কাজ করা ডেভেলপার ও স্টার্টআপদের জন্য বড় সুযোগ।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

বাংলাদেশে AI মডেল ২-বিটে সঙ্কুচিত, মেমোরি খরচ কমবে ৪ গুণ

গবেষকরা OSCAR RotationZoo নামে একটি নতুন পদ্ধতি চালু করেছেন যা 2-বিট KV ক্যাশে কোয়ান্টাইজেশন সম্ভব করেছে। Gemma-4-12B-it, Qwen3-32B এবং Qwen3-4B-Thinking-2507 মডেলের জন্য প্রি-কোয়ান্টাইজড GGUF মডেল পাওয়া যাচ্ছে। কোডটি llama.cpp এবং sglang-এর জন্য প্রকাশ করা হয়েছে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৫ দিন আগে · সূত্র: Reddit r/LocalLLaMA

বাংলাদেশে AI মডেল ২-বিটে সঙ্কুচিত, মেমোরি খরচ কমবে ৪ গুণ

বড় ভাষা মডেলের মেমোরি চাহিদা কমানোর জন্য একটি গুরুত্বপূর্ণ গবেষণা প্রকাশ পেয়েছে। OSCAR RotationZoo নামের এই পদ্ধতি অফলাইন স্পেকট্রাল কোভ্যারিয়েন্স-অ্যাওয়ার রোটেশন ব্যবহার করে 2-বিট KV ক্যাশে কোয়ান্টাইজেশন সম্ভব করেছে। Reddit-এর r/LocalLLaMA কমিউনিটিতে এই খবরটি প্রথম প্রকাশিত হয়েছে।

এই পদ্ধতির মূল লক্ষ্য হল মডেলের নির্ভুলতা প্রায় অক্ষুণ্ণ রেখে মেমোরি ব্যবহার নাটকীয়ভাবে কমানো। KV ক্যাশে বড় ভাষা মডেলের ইনফারেন্সের সময় একটি বড় বাধা। বিশেষ করে দীর্ঘ কনটেক্সট উইন্ডোতে এটি মেমোরির সিংহভাগ গ্রাস করে। OSCAR RotationZoo এই সমস্যার সমাধান দিচ্ছে।

গবেষকরা ইতিমধ্যে তিনটি জনপ্রিয় মডেলের জন্য প্রি-কোয়ান্টাইজড GGUF ফাইল প্রকাশ করেছেন। এগুলো হল Gemma-4-12B-it, Qwen3-32B এবং Qwen3-4B-Thinking-2507। এই ফাইলগুলো Hugging Face-এ ডাউনলোডের জন্য উপলব্ধ। যেকোনো ব্যবহারকারী সরাসরি এই কোয়ান্টাইজড মডেল ব্যবহার করে মেমোরি খরচ কমাতে পারেন।

কোডটি দুইটি জনপ্রিয় ফ্রেমওয়ার্কের জন্য প্রকাশ করা হয়েছে। প্রথমটি হল llama.cpp এবং দ্বিতীয়টি sglang। llama.cpp লোকাল মেশিনে বড় মডেল চালানোর জন্য জনপ্রিয়। sglang দ্রুত ইনফারেন্স সার্ভিংয়ের জন্য ব্যবহৃত হয়। GitHub-এ এই কোডটি ওপেন সোর্স হিসেবে পাওয়া যাচ্ছে।

বাংলাদেশের ডেভেলপার এবং AI গবেষকদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। দেশে সীমিত GPU এবং মেমোরি সম্পদ নিয়ে কাজ করতে হয়। OSCAR RotationZoo ব্যবহার করে তারা বড় মডেলগুলো কম মেমোরিতে চালাতে পারবেন। এটি ফ্রিল্যান্সার এবং স্টার্টআপদের জন্য একটি বড় সুযোগ। তারা আরও কম খরচে বড় ভাষা মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন।

তবে মনে রাখতে হবে এটি এখনও গবেষণার পর্যায়ে আছে। 2-বিট কোয়ান্টাইজেশনে কিছু নির্ভুলতা কমতে পারে। গবেষকরা এই ক্ষতি কমানোর জন্য নতুন রোটেশন পদ্ধতি ব্যবহার করেছেন। ভবিষ্যতে আরও উন্নত সংস্করণ আসতে পারে। এই গবেষণা বড় মডেলের ব্যবহারকে আরও গণতান্ত্রিক করবে বলে আশা করা যায়।

বাংলাদেশে AI মডেল ২-বিটে সঙ্কুচিত, মেমোরি খরচ কমবে ৪ গুণ

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০