KVarN হলো হুয়াওয়ের তৈরি একটি KV-ক্যাশ কোয়ান্টাইজেশন পদ্ধতি। এটি Apache 2.0 লাইসেন্সে ওপেনসোর্স করা হয়েছে। এটি বড় ভাষার মডেলের মেমোরি ব্যবহার 3 থেকে 5 গুণ কমায়।

KVarN কিভাবে TurboQuant-এর চেয়ে ভালো?

TurboQuant রিজনিং টাস্কে পিছিয়ে পড়ে এবং গতি কমিয়ে দেয়। KVarN রিজনিং টাস্কে ভালো পারফর্ম করে এবং গতি বাড়িয়ে দেয়। এটাই এর প্রধান সুবিধা।

বাংলাদেশের ডেভেলপাররা KVarN কিভাবে ব্যবহার করতে পারবেন?

তারা vLLM-এ একটি মাত্র ফ্ল্যাগ যোগ করে KVarN ব্যবহার করতে পারবেন। এতে কম GPU মেমোরিতে বড় মডেল চালানো সম্ভব হবে। এটি লোকাল মেশিনে বা ছোট ক্লাউড সার্ভারে মডেল চালানোর জন্য উপযোগী।

হোম/নিউজ/টুল

টুল৫ মিনিট পড়া

হুয়াওয়ের নতুন ওপেনসোর্স টুলে AI গতি বাড়বে, খরচ কমবে ৩-৫ গুণ

হুয়াওয়ে তাদের নতুন KV-ক্যাশ কোয়ান্টাইজেশন পদ্ধতি KVarN ওপেনসোর্স করেছে। এটি 3 থেকে 5 গুণ কম্প্রেশন দিচ্ছে এবং গতি কমার বদলে বাড়িয়ে দিচ্ছে। টার্বোকোয়ান্টের চেয়ে রিজনিং টাস্কে ভালো পারফর্ম করছে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৬ দিন আগে · সূত্র: Reddit r/LocalLLaMA

হুয়াওয়ের নতুন ওপেনসোর্স টুলে AI গতি বাড়বে, খরচ কমবে ৩-৫ গুণ

হুয়াওয়ে তাদের নতুন KV-ক্যাশ কোয়ান্টাইজেশন পদ্ধতি KVarN ওপেনসোর্স করেছে। এটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছে। এই পদ্ধতি বড় ভাষার মডেলের (LLM) মেমোরি ব্যবহারকে নাটকীয়ভাবে কমাতে পারে।

KVarN দাবি করছে 3 থেকে 5 গুণ পর্যন্ত KV-ক্যাশ কম্প্রেশন সম্ভব। আরও গুরুত্বপূর্ণ বিষয় হলো, এটি গতি কমায় না বরং বাড়িয়ে দেয়। বাজারে থাকা অন্যান্য পদ্ধতি যেমন TurboQuant প্রায়ই গতি কমিয়ে দেয়। কিন্তু KVarN সেই সমস্যার সমাধান করেছে।

এই পদ্ধতি vLLM-এ একটি মাত্র ফ্ল্যাগ দিয়ে যুক্ত করা যায়। vLLM হলো একটি জনপ্রিয় ওপেনসোর্স লাইব্রেরি যা বড় ভাষার মডেল চালানোর জন্য ব্যবহৃত হয়। KVarN সেটির সাথে সরাসরি কাজ করবে।

KV-ক্যাশ কী? এটি বড় ভাষার মডেলের একটি গুরুত্বপূর্ণ অংশ। মডেল যখন টেক্সট জেনারেট করে, তখন এটি আগের টোকেনগুলোর তথ্য মেমোরিতে জমা রাখে। এই জমা রাখাকে বলে KV-ক্যাশ। বড় মডেলের ক্ষেত্রে এই ক্যাশ অনেক জায়গা নেয়। KVarN সেই জায়গা কমিয়ে মডেলকে দ্রুত করে তোলে।

বর্তমানে FP8 কোয়ান্টাইজেশন স্ট্যান্ডার্ড হিসেবে ব্যবহৃত হয়। এটি প্রায় 2 গুণ কম্প্রেশন দেয় এবং মানের প্রায় কোনো ক্ষতি হয় না। KVarN সেই বাধা ভেঙে 3-5 গুণ কম্প্রেশন দিচ্ছে। এটি রিজনিং টাস্কেও ভালো পারফর্ম করছে। TurboQuant রিজনিং টাস্কে পিছিয়ে পড়লেও KVarN সেটি ধরে রাখতে পেরেছে।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এটি একটি বড় খবর। বড় ভাষার মডেল চালাতে অনেক GPU মেমোরি লাগে। KVarN ব্যবহার করে তারা কম খরচে বড় মডেল চালাতে পারবে। বিশেষ করে যারা লোকাল মেশিনে বা ছোট ক্লাউড সার্ভারে মডেল চালান, তাদের জন্য এটি লাভজনক। শিক্ষার্থী এবং গবেষকরাও কম রিসোর্সে বেশি কাজ করতে পারবেন।

Reddit-এর r/LocalLLaMA কমিউনিটিতে এই খবরটি নিয়ে আলোচনা শুরু হয়েছে। অনেক ডেভেলপার KVarN-কে স্ট্রেস-টেস্ট করতে চান। তারা দেখতে চান এটি বাস্তব বিশ্বের কাজে কেমন পারফর্ম করে। হুয়াওয়ে এই পদ্ধতি ওপেনসোর্স করায় যে কেউ এটি ব্যবহার এবং পরীক্ষা করতে পারবেন।

ভবিষ্যতে KV-ক্যাশ কোয়ান্টাইজেশন আরও উন্নত হবে। KVarN সেই পথে একটি গুরুত্বপূর্ণ পদক্ষেপ। এটি বড় ভাষার মডেলকে আরও সাশ্রয়ী এবং দ্রুত করে তুলবে।

হুয়াওয়ের নতুন ওপেনসোর্স টুলে AI গতি বাড়বে, খরচ কমবে ৩-৫ গুণ

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০