KV ক্যাশ কী এবং কেন এটি VRAM খরচ করে?

KV ক্যাশ হলো বড় ভাষার মডেলের একটি অংশ যা পূর্ববর্তী কথোপকথনের তথ্য ধরে রাখে। এটি মডেলকে প্রসঙ্গ বুঝতে সাহায্য করে, কিন্তু এর জন্য প্রচুর মেমোরির প্রয়োজন হয়, বিশেষ করে দীর্ঘ কথোপকথনে।

কোয়ান্টাইজেশন কী এবং কেন এটি মডেলের গুণগত মান কমায়?

কোয়ান্টাইজেশন হলো ডেটার নির্ভুলতা কমানোর প্রক্রিয়া যাতে এটি কম জায়গা নেয়। যেমন 16-bit সংখ্যাকে 4-bit-এ রূপান্তর করা। এতে করে মডেলের উত্তর দেওয়ার নির্ভুলতা কিছুটা কমে যেতে পারে।

এই নতুন কার্নেল কি শুধুমাত্র RDNA3 GPU-র জন্য?

হ্যাঁ, এই বিশেষ Flash Attention কার্নেলটি শুধুমাত্র RDNA3 আর্কিটেকচারের GPU-র জন্য তৈরি করা হয়েছে, কারণ এটি সেই GPU-র native sudot4 নির্দেশনা ব্যবহার করে। অন্যান্য GPU-র জন্য ভিন্ন সমাধানের প্রয়োজন হতে পারে।

হোম/নিউজ/টুল

টুল৫ মিনিট পড়া

RDNA3 GPU-তে AI মডেলের মেমরি খরচ ৪৭% কমল, গুণগত মান একই

llama.cpp-এ নতুন Flash Attention কার্নেল RDNA3 GPU-তে KV ক্যাশের VRAM ব্যবহার 47% কমিয়েছে। এটি GPU-র native sudot4 নির্দেশ ব্যবহার করে 8-bit K ভ্যালু প্যাক করে, ফলে কোনো ক্ষতিকর কোয়ান্টাইজেশন ছাড়াই মেমোরি সাশ্রয় করে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৫০ দিন আগে · সূত্র: Reddit r/LocalLLaMA

RDNA3 GPU-তে AI মডেলের মেমরি খরচ ৪৭% কমল, গুণগত মান একই

বড় ভাষার মডেল (LLM) চালানোর সময় সবচেয়ে বড় বাধা হলো মেমোরি। বিশেষ করে KV ক্যাশ নামক একটি অংশ, যা মডেলের পূর্ববর্তী কথোপকথন মনে রাখতে ব্যবহৃত হয়, তা দ্রুত VRAM গ্রাস করে ফেলে। Reddit-এর r/LocalLLaMA সম্প্রদায়ে প্রকাশিত একটি উন্নয়ন এই সমস্যার একটি চমৎকার সমাধান এনেছে। নতুন Flash Attention কার্নেলটি বিশেষভাবে RDNA3 আর্কিটেকচারের GPU-র জন্য তৈরি করা হয়েছে। এটি llama.cpp সফটওয়্যারে KV ক্যাশের জন্য প্রয়োজনীয় VRAM 47 শতাংশ কমিয়ে দেয়।

এই অর্জনের পেছনে রয়েছে একটি চতুর কৌশল। সাধারণত, ব্যবহারকারীদের দুটো অপশনের মধ্যে একটি বেছে নিতে হতো। হয় KV ক্যাশকে কোয়ান্টাইজ করে মেমোরি বাঁচাতে হবে, যাতে মডেলের নির্ভুলতা কিছুটা কমে যায়। অথবা সম্পূর্ণ fp16 ফরম্যাটে ডেটা সংরক্ষণ করতে হবে, যা প্রচুর VRAM খরচ করে। নতুন কার্নেলটি এই দ্বিধা দূর করেছে। এটি GPU-র একটি বিশেষ নির্দেশনা, sudot4, ব্যবহার করে। এই নির্দেশনাটি চারটি 8-bit K ভ্যালুকে একটি 32-bit প্যাকেটে সংরক্ষণ করতে পারে এবং সরাসরি প্রক্রিয়া করতে পারে।

ফলাফলটি দ্বৈত সুবিধা এনে দেয়। প্রথমত, K টেনসরগুলোর মান আর ক্ষতিকর কোয়ান্টাইজেশনের শিকার হয় না, অর্থাৎ মডেলের গুণগত মান (perplexity) প্রায় অপরিবর্তিত থাকে। দ্বিতীয়ত, সম্পূর্ণ fp16 K টেনসরের পরিবর্তে শুধুমাত্র 8-bit K পেলোড এবং fp16 স্কেল সংরক্ষণ করা হয়। এই জন্যই VRAM খরচ নাটকীয়ভাবে কমে যায়। উদাহরণস্বরূপ, যেখানে আগে fp16 ফরম্যাটে 1 GB ডেটা জায়গা নিত, সেখানে এখন 8-bit প্যাকেটে তা মাত্র 0.53 GB-তে সীমাবদ্ধ থাকে। এটি একটি বিশাল সাশ্রয়, বিশেষ করে যাদের GPU মেমোরি সীমিত, যেমন Radeon RX 7000 সিরিজের ব্যবহারকারীদের জন্য।

বাংলাদেশের প্রেক্ষাপটে এই খবরটি বিশেষভাবে গুরুত্বপূর্ণ। দেশের ডেভেলপার, গবেষক এবং ফ্রিল্যান্সাররা প্রায়ই সাশ্রয়ী মূল্যের RDNA3 GPU ব্যবহার করে থাকেন। এই নতুন কার্নেল তাদেরকে আরও বড় এবং জটিল ভাষার মডেল স্থানীয়ভাবে চালানোর সুযোগ করে দেবে। ক্লাউড সার্ভিসের উপর নির্ভরতা কমিয়ে নিজস্ব ডিভাইসে AI মডেল চালানোর খরচ এবং জটিলতা উভয়ই কমে আসবে। শিক্ষার্থী এবং ছোট স্টার্টআপদের জন্যও এটি একটি বড় সুযোগ, কারণ তারা ব্যয়বহুল সার্ভার ছাড়াই উচ্চক্ষমতাসম্পন্ন AI পরীক্ষা-নিরীক্ষা চালাতে পারবে।

এই উন্নয়নটি শুধু একটি প্রযুক্তিগত অগ্রগতি নয়, বরং স্থানীয় AI কম্পিউটিংকে আরও সহজলভ্য করার পথে একটি বড় পদক্ষেপ। ভবিষ্যতে, এই ধরনের অপ্টিমাইজেশন অন্যান্য GPU আর্কিটেকচার এবং সফটওয়্যারের জন্যও আসতে পারে। llma.cpp-এর এই নতুন ফ্ল্যাশ অ্যাটেনশন কার্নেল প্রমাণ করে যে হার্ডওয়্যারের সীমাবদ্ধতা সত্ত্বেও স্মার্ট সফটওয়্যার সমাধানের মাধ্যমে বড় মডেল চালানো সম্ভব।

RDNA3 GPU-তে AI মডেলের মেমরি খরচ ৪৭% কমল, গুণগত মান একই

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০