RDNA3 GPU-তে AI মডেলের মেমরি খরচ ৪৭% কমল, গুণগত মান একই
llama.cpp-এ নতুন Flash Attention কার্নেল RDNA3 GPU-তে KV ক্যাশের VRAM ব্যবহার 47% কমিয়েছে। এটি GPU-র native sudot4 নির্দেশ ব্যবহার করে 8-bit K ভ্যালু প্যাক করে, ফলে কোনো ক্ষতিকর কোয়ান্টাইজেশন ছাড়াই মেমোরি সাশ্রয় করে।
llama.cpp-এ নতুন Flash Attention কার্নেল RDNA3 GPU-তে KV ক্যাশের VRAM ব্যবহার 47% কমিয়েছে। এটি GPU-র native sudot4 নির্দেশ ব্যবহার করে 8-bit K ভ্যালু প্যাক করে, ফলে কোনো ক্ষতিকর কোয়ান্টাইজেশন ছাড়াই মেমোরি সাশ্রয় করে।
বড় ভাষার মডেল (LLM) চালানোর সময় সবচেয়ে বড় বাধা হলো মেমোরি। বিশেষ করে KV ক্যাশ নামক একটি অংশ, যা মডেলের পূর্ববর্তী কথোপকথন মনে রাখতে ব্যবহৃত হয়, তা দ্রুত VRAM গ্রাস করে ফেলে। Reddit-এর r/LocalLLaMA সম্প্রদায়ে প্রকাশিত একটি উন্নয়ন এই সমস্যার একটি চমৎকার সমাধান এনেছে। নতুন Flash Attention কার্নেলটি বিশেষভাবে RDNA3 আর্কিটেকচারের GPU-র জন্য তৈরি করা হয়েছে। এটি llama.cpp সফটওয়্যারে KV ক্যাশের জন্য প্রয়োজনীয় VRAM 47 শতাংশ কমিয়ে দেয়।
এই অর্জনের পেছনে রয়েছে একটি চতুর কৌশল। সাধারণত, ব্যবহারকারীদের দুটো অপশনের মধ্যে একটি বেছে নিতে হতো। হয় KV ক্যাশকে কোয়ান্টাইজ করে মেমোরি বাঁচাতে হবে, যাতে মডেলের নির্ভুলতা কিছুটা কমে যায়। অথবা সম্পূর্ণ fp16 ফরম্যাটে ডেটা সংরক্ষণ করতে হবে, যা প্রচুর VRAM খরচ করে। নতুন কার্নেলটি এই দ্বিধা দূর করেছে। এটি GPU-র একটি বিশেষ নির্দেশনা, sudot4, ব্যবহার করে। এই নির্দেশনাটি চারটি 8-bit K ভ্যালুকে একটি 32-bit প্যাকেটে সংরক্ষণ করতে পারে এবং সরাসরি প্রক্রিয়া করতে পারে।
ফলাফলটি দ্বৈত সুবিধা এনে দেয়। প্রথমত, K টেনসরগুলোর মান আর ক্ষতিকর কোয়ান্টাইজেশনের শিকার হয় না, অর্থাৎ মডেলের গুণগত মান (perplexity) প্রায় অপরিবর্তিত থাকে। দ্বিতীয়ত, সম্পূর্ণ fp16 K টেনসরের পরিবর্তে শুধুমাত্র 8-bit K পেলোড এবং fp16 স্কেল সংরক্ষণ করা হয়। এই জন্যই VRAM খরচ নাটকীয়ভাবে কমে যায়। উদাহরণস্বরূপ, যেখানে আগে fp16 ফরম্যাটে 1 GB ডেটা জায়গা নিত, সেখানে এখন 8-bit প্যাকেটে তা মাত্র 0.53 GB-তে সীমাবদ্ধ থাকে। এটি একটি বিশাল সাশ্রয়, বিশেষ করে যাদের GPU মেমোরি সীমিত, যেমন Radeon RX 7000 সিরিজের ব্যবহারকারীদের জন্য।
বাংলাদেশের প্রেক্ষাপটে এই খবরটি বিশেষভাবে গুরুত্বপূর্ণ। দেশের ডেভেলপার, গবেষক এবং ফ্রিল্যান্সাররা প্রায়ই সাশ্রয়ী মূল্যের RDNA3 GPU ব্যবহার করে থাকেন। এই নতুন কার্নেল তাদেরকে আরও বড় এবং জটিল ভাষার মডেল স্থানীয়ভাবে চালানোর সুযোগ করে দেবে। ক্লাউড সার্ভিসের উপর নির্ভরতা কমিয়ে নিজস্ব ডিভাইসে AI মডেল চালানোর খরচ এবং জটিলতা উভয়ই কমে আসবে। শিক্ষার্থী এবং ছোট স্টার্টআপদের জন্যও এটি একটি বড় সুযোগ, কারণ তারা ব্যয়বহুল সার্ভার ছাড়াই উচ্চক্ষমতাসম্পন্ন AI পরীক্ষা-নিরীক্ষা চালাতে পারবে।
এই উন্নয়নটি শুধু একটি প্রযুক্তিগত অগ্রগতি নয়, বরং স্থানীয় AI কম্পিউটিংকে আরও সহজলভ্য করার পথে একটি বড় পদক্ষেপ। ভবিষ্যতে, এই ধরনের অপ্টিমাইজেশন অন্যান্য GPU আর্কিটেকচার এবং সফটওয়্যারের জন্যও আসতে পারে। llma.cpp-এর এই নতুন ফ্ল্যাশ অ্যাটেনশন কার্নেল প্রমাণ করে যে হার্ডওয়্যারের সীমাবদ্ধতা সত্ত্বেও স্মার্ট সফটওয়্যার সমাধানের মাধ্যমে বড় মডেল চালানো সম্ভব।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...