লোকাল LLM চালানোর জন্য ন্যূনতম কত VRAM প্রয়োজন?

মডেলের আকার এবং কনটেক্সট লেন্থের উপর নির্ভর করে। একটি 7B মডেলের জন্য 8GB VRAM যথেষ্ট হতে পারে, কিন্তু 32,000 টোকেন কনটেক্সটের জন্য 12GB থেকে 16GB VRAM প্রয়োজন হতে পারে।

KV ক্যাশ কী এবং কেন এটি VRAM ব্যবহার করে?

KV ক্যাশ হলো মডেলের অ্যাটেনশন মেকানিজমের জন্য ব্যবহৃত একটি বাফার যা পূর্ববর্তী টোকেনের তথ্য সংরক্ষণ করে। এটি টোকেনের সংখ্যার সাথে বেড়ে যায় এবং দীর্ঘ কনটেক্সটের জন্য বেশি VRAM প্রয়োজন হয়।

কম VRAM-এ বড় মডেল চালানোর উপায় কী?

মডেল কোয়ান্টাইজেশন (4-বিট বা 8-বিট) ব্যবহার করে মডেলের আকার কমানো যায়। এছাড়া ছোট কনটেক্সট লেন্থ ব্যবহার করা বা ব্যাচ সাইজ কমানোও সাহায্য করতে পারে।

হোম/নিউজ/মডেল

মডেল৫ মিনিট পড়া

১২ জিবি ভিআরএমেও এলএলএম চালাতে গিয়ে বিপত্তি, জানুন ক্যাশের হিসাব

স্থানীয়ভাবে বড় ভাষার মডেল (LLM) চালানোর সময় শুধু মডেলের ওয়েট নয়, KV ক্যাশের জন্যও পর্যাপ্ত VRAM প্রয়োজন। dev.to-র একটি বিশ্লেষণে দেখা গেছে, 12GB VRAM-এ 8B মডেল লোড হলেও 20,000 টোকেনের পর Out-of-Memory (OOM) ত্রুটি দেখা দিতে পারে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৬ দিন আগে · সূত্র: dev.to ML

১২ জিবি ভিআরএমেও এলএলএম চালাতে গিয়ে বিপত্তি, জানুন ক্যাশের হিসাব

প্রযুক্তি জগতে একটি সাধারণ প্রশ্ন হলো, আমার 3060 গ্রাফিক্স কার্ডে কি Llama 3 বা Gemma চালানো যাবে? বেশিরভাগ উত্তরই হয় অস্পষ্ট বা অভিজ্ঞতানির্ভর। dev.to-র একটি সাম্প্রতিক নিবন্ধ এই ধাঁধার সমাধান দিয়েছে এবং VRAM ব্যবহারের সঠিক গাণিতিক বিশ্লেষণ উপস্থাপন করেছে।

নিবন্ধটির লেখক নিজেই প্রথমে একটি 8B প্যারামিটার মডেল 12GB VRAM-এ লোড করে সফল হয়েছিলেন। কিন্তু একটি দীর্ঘ ডকুমেন্ট প্রক্রিয়াকরণের সময় 20,000 টোকেনের পর হঠাৎ করেই OOM ত্রুটি দেখা দেয়। কারণটি ছিল KV ক্যাশের অপ্রতুলতা। মডেলের ওয়েট ফিট করলেও মেমোরি ফুরিয়ে গিয়েছিল।

KV ক্যাশ মূলত মডেলের অ্যাটেনশন মেকানিজমের জন্য ব্যবহৃত একটি বাফার। এটি টোকেনের সংখ্যার সাথে বেড়ে যায়। একটি 8B মডেলের জন্য 4,096 টোকেন কনটেক্সট লেন্থে আনুমানিক 1.5GB থেকে 2GB VRAM প্রয়োজন হয় KV ক্যাশের জন্য। দীর্ঘ কনটেক্সট বা বড় ব্যাচ সাইজের ক্ষেত্রে এই প্রয়োজন আরও বেড়ে যায়।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই তথ্য বিশেষ গুরুত্বপূর্ণ। অনেকেই কম খরচে নিজের কম্পিউটারে AI মডেল চালাতে চান। শুধু মডেলের ওয়েট দেখে VRAM কেনা বা মডেল নির্বাচন করলে সমস্যা হতে পারে। উদাহরণস্বরূপ, একটি 7B মডেলের জন্য 8GB VRAM যথেষ্ট মনে হলেও 32,000 টোকেন কনটেক্সটের জন্য অতিরিক্ত 4GB থেকে 5GB VRAM প্রয়োজন হতে পারে।

নিবন্ধটি পরামর্শ দেয়, VRAM নির্বাচনের সময় মডেলের ওয়েটের আকার এবং প্রত্যাশিত কনটেক্সট লেন্থ দুটোই বিবেচনায় নিতে হবে। কোয়ান্টাইজেশন (মডেলের নির্ভুলতা কমিয়ে আকার কমানো) একটি কার্যকর সমাধান হতে পারে। 4-বিট বা 8-বিট কোয়ান্টাইজেশন মডেলের পারফরম্যান্সে বড় প্রভাব না ফেলে VRAM ব্যবহার কমাতে পারে।

ভবিষ্যতে আরও দক্ষ মডেল আর্কিটেকচার এবং উন্নত মেমোরি ম্যানেজমেন্ট কৌশল এই সমস্যা কমিয়ে আনবে বলে আশা করা যায়। তবে বর্তমানে যারা লোকাল LLM নিয়ে কাজ করছেন, তাদের জন্য সঠিক পরিকল্পনা এবং প্রয়োজনীয় VRAM বোঝা অত্যন্ত জরুরি।

১২ জিবি ভিআরএমেও এলএলএম চালাতে গিয়ে বিপত্তি, জানুন ক্যাশের হিসাব

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০