১২ জিবি ভিআরএমেও এলএলএম চালাতে গিয়ে বিপত্তি, জানুন ক্যাশের হিসাব
স্থানীয়ভাবে বড় ভাষার মডেল (LLM) চালানোর সময় শুধু মডেলের ওয়েট নয়, KV ক্যাশের জন্যও পর্যাপ্ত VRAM প্রয়োজন। dev.to-র একটি বিশ্লেষণে দেখা গেছে, 12GB VRAM-এ 8B মডেল লোড হলেও 20,000 টোকেনের পর Out-of-Memory (OOM) ত্রুটি দেখা দিতে পারে।
স্থানীয়ভাবে বড় ভাষার মডেল (LLM) চালানোর সময় শুধু মডেলের ওয়েট নয়, KV ক্যাশের জন্যও পর্যাপ্ত VRAM প্রয়োজন। dev.to-র একটি বিশ্লেষণে দেখা গেছে, 12GB VRAM-এ 8B মডেল লোড হলেও 20,000 টোকেনের পর Out-of-Memory (OOM) ত্রুটি দেখা দিতে পারে।
স্থানীয়ভাবে বড় ভাষার মডেল (LLM) চালানোর সময় শুধু মডেলের ওয়েট নয়, KV ক্যাশের জন্যও পর্যাপ্ত VRAM প্রয়োজন। dev.to-র একটি বিশ্লেষণে দেখা গেছে, 12GB VRAM-এ 8B মডেল লোড হলেও 20,000 টোকেনের পর Out-of-Memory (OOM) ত্রুটি দেখা দিতে পারে।
প্রযুক্তি জগতে একটি সাধারণ প্রশ্ন হলো, আমার 3060 গ্রাফিক্স কার্ডে কি Llama 3 বা Gemma চালানো যাবে? বেশিরভাগ উত্তরই হয় অস্পষ্ট বা অভিজ্ঞতানির্ভর। dev.to-র একটি সাম্প্রতিক নিবন্ধ এই ধাঁধার সমাধান দিয়েছে এবং VRAM ব্যবহারের সঠিক গাণিতিক বিশ্লেষণ উপস্থাপন করেছে।
নিবন্ধটির লেখক নিজেই প্রথমে একটি 8B প্যারামিটার মডেল 12GB VRAM-এ লোড করে সফল হয়েছিলেন। কিন্তু একটি দীর্ঘ ডকুমেন্ট প্রক্রিয়াকরণের সময় 20,000 টোকেনের পর হঠাৎ করেই OOM ত্রুটি দেখা দেয়। কারণটি ছিল KV ক্যাশের অপ্রতুলতা। মডেলের ওয়েট ফিট করলেও মেমোরি ফুরিয়ে গিয়েছিল।
KV ক্যাশ মূলত মডেলের অ্যাটেনশন মেকানিজমের জন্য ব্যবহৃত একটি বাফার। এটি টোকেনের সংখ্যার সাথে বেড়ে যায়। একটি 8B মডেলের জন্য 4,096 টোকেন কনটেক্সট লেন্থে আনুমানিক 1.5GB থেকে 2GB VRAM প্রয়োজন হয় KV ক্যাশের জন্য। দীর্ঘ কনটেক্সট বা বড় ব্যাচ সাইজের ক্ষেত্রে এই প্রয়োজন আরও বেড়ে যায়।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই তথ্য বিশেষ গুরুত্বপূর্ণ। অনেকেই কম খরচে নিজের কম্পিউটারে AI মডেল চালাতে চান। শুধু মডেলের ওয়েট দেখে VRAM কেনা বা মডেল নির্বাচন করলে সমস্যা হতে পারে। উদাহরণস্বরূপ, একটি 7B মডেলের জন্য 8GB VRAM যথেষ্ট মনে হলেও 32,000 টোকেন কনটেক্সটের জন্য অতিরিক্ত 4GB থেকে 5GB VRAM প্রয়োজন হতে পারে।
নিবন্ধটি পরামর্শ দেয়, VRAM নির্বাচনের সময় মডেলের ওয়েটের আকার এবং প্রত্যাশিত কনটেক্সট লেন্থ দুটোই বিবেচনায় নিতে হবে। কোয়ান্টাইজেশন (মডেলের নির্ভুলতা কমিয়ে আকার কমানো) একটি কার্যকর সমাধান হতে পারে। 4-বিট বা 8-বিট কোয়ান্টাইজেশন মডেলের পারফরম্যান্সে বড় প্রভাব না ফেলে VRAM ব্যবহার কমাতে পারে।
ভবিষ্যতে আরও দক্ষ মডেল আর্কিটেকচার এবং উন্নত মেমোরি ম্যানেজমেন্ট কৌশল এই সমস্যা কমিয়ে আনবে বলে আশা করা যায়। তবে বর্তমানে যারা লোকাল LLM নিয়ে কাজ করছেন, তাদের জন্য সঠিক পরিকল্পনা এবং প্রয়োজনীয় VRAM বোঝা অত্যন্ত জরুরি।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...