হুয়াওয়ের নতুন ওপেনসোর্স টুলে AI গতি বাড়বে, খরচ কমবে ৩-৫ গুণ
হুয়াওয়ে তাদের নতুন KV-ক্যাশ কোয়ান্টাইজেশন পদ্ধতি KVarN ওপেনসোর্স করেছে। এটি 3 থেকে 5 গুণ কম্প্রেশন দিচ্ছে এবং গতি কমার বদলে বাড়িয়ে দিচ্ছে। টার্বোকোয়ান্টের চেয়ে রিজনিং টাস্কে ভালো পারফর্ম করছে।
হুয়াওয়ে তাদের নতুন KV-ক্যাশ কোয়ান্টাইজেশন পদ্ধতি KVarN ওপেনসোর্স করেছে। এটি 3 থেকে 5 গুণ কম্প্রেশন দিচ্ছে এবং গতি কমার বদলে বাড়িয়ে দিচ্ছে। টার্বোকোয়ান্টের চেয়ে রিজনিং টাস্কে ভালো পারফর্ম করছে।
হুয়াওয়ে তাদের নতুন KV-ক্যাশ কোয়ান্টাইজেশন পদ্ধতি KVarN ওপেনসোর্স করেছে। এটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছে। এই পদ্ধতি বড় ভাষার মডেলের (LLM) মেমোরি ব্যবহারকে নাটকীয়ভাবে কমাতে পারে।
KVarN দাবি করছে 3 থেকে 5 গুণ পর্যন্ত KV-ক্যাশ কম্প্রেশন সম্ভব। আরও গুরুত্বপূর্ণ বিষয় হলো, এটি গতি কমায় না বরং বাড়িয়ে দেয়। বাজারে থাকা অন্যান্য পদ্ধতি যেমন TurboQuant প্রায়ই গতি কমিয়ে দেয়। কিন্তু KVarN সেই সমস্যার সমাধান করেছে।
এই পদ্ধতি vLLM-এ একটি মাত্র ফ্ল্যাগ দিয়ে যুক্ত করা যায়। vLLM হলো একটি জনপ্রিয় ওপেনসোর্স লাইব্রেরি যা বড় ভাষার মডেল চালানোর জন্য ব্যবহৃত হয়। KVarN সেটির সাথে সরাসরি কাজ করবে।
KV-ক্যাশ কী? এটি বড় ভাষার মডেলের একটি গুরুত্বপূর্ণ অংশ। মডেল যখন টেক্সট জেনারেট করে, তখন এটি আগের টোকেনগুলোর তথ্য মেমোরিতে জমা রাখে। এই জমা রাখাকে বলে KV-ক্যাশ। বড় মডেলের ক্ষেত্রে এই ক্যাশ অনেক জায়গা নেয়। KVarN সেই জায়গা কমিয়ে মডেলকে দ্রুত করে তোলে।
বর্তমানে FP8 কোয়ান্টাইজেশন স্ট্যান্ডার্ড হিসেবে ব্যবহৃত হয়। এটি প্রায় 2 গুণ কম্প্রেশন দেয় এবং মানের প্রায় কোনো ক্ষতি হয় না। KVarN সেই বাধা ভেঙে 3-5 গুণ কম্প্রেশন দিচ্ছে। এটি রিজনিং টাস্কেও ভালো পারফর্ম করছে। TurboQuant রিজনিং টাস্কে পিছিয়ে পড়লেও KVarN সেটি ধরে রাখতে পেরেছে।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এটি একটি বড় খবর। বড় ভাষার মডেল চালাতে অনেক GPU মেমোরি লাগে। KVarN ব্যবহার করে তারা কম খরচে বড় মডেল চালাতে পারবে। বিশেষ করে যারা লোকাল মেশিনে বা ছোট ক্লাউড সার্ভারে মডেল চালান, তাদের জন্য এটি লাভজনক। শিক্ষার্থী এবং গবেষকরাও কম রিসোর্সে বেশি কাজ করতে পারবেন।
Reddit-এর r/LocalLLaMA কমিউনিটিতে এই খবরটি নিয়ে আলোচনা শুরু হয়েছে। অনেক ডেভেলপার KVarN-কে স্ট্রেস-টেস্ট করতে চান। তারা দেখতে চান এটি বাস্তব বিশ্বের কাজে কেমন পারফর্ম করে। হুয়াওয়ে এই পদ্ধতি ওপেনসোর্স করায় যে কেউ এটি ব্যবহার এবং পরীক্ষা করতে পারবেন।
ভবিষ্যতে KV-ক্যাশ কোয়ান্টাইজেশন আরও উন্নত হবে। KVarN সেই পথে একটি গুরুত্বপূর্ণ পদক্ষেপ। এটি বড় ভাষার মডেলকে আরও সাশ্রয়ী এবং দ্রুত করে তুলবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...