llama.cpp-এর এই নতুন আপডেটে ঠিক কী পরিবর্তন আসছে?

এই আপডেটে logits স্পেস শুধুমাত্র প্রয়োজনীয় সিকোয়েন্সের জন্য সংরক্ষণ করা হবে। ফলে -ub 2048 এবং MTP সক্রিয় থাকলে 1.2GB পর্যন্ত VRAM সাশ্রয় সম্ভব।

এই VRAM সাশ্রয় কাদের জন্য সবচেয়ে বেশি লাভজনক?

সীমিত GPU মেমরি যেমন 8GB বা 12GB VRAM ব্যবহারকারীদের জন্য এটি সবচেয়ে বেশি উপকারী। তারা আগের চেয়ে বড় AI মডেল চালাতে পারবেন।

নতুন API টি কীভাবে কাজ করবে?

প্রস্তাবিত API টি llama-context-এ যুক্ত হবে। এটি সার্ভার কনটেক্সটে সিকোয়েন্স সীমা নির্ধারণ করে মেমরি অপ্টিমাইজ করবে। ডিফল্ট অবস্থায় সব টোকেন রিজার্ভ থাকবে।

হোম/নিউজ/টুল

টুল৫ মিনিট পড়া

লোকাল AI চালাতে ১.২ জিবি ভিআরএএম সাশ্রয়, জানুন কীভাবে

llama.cpp-এর নতুন Pull Request 23861 VRAM ব্যবহারে বড় পরিবর্তন আনছে। নির্দিষ্ট সীমা নির্ধারণ করে 1.2GB পর্যন্ত GPU মেমরি বাঁচানো সম্ভব হবে। এটি লোকাল AI মডেল চালানো ডেভেলপারদের জন্য বড় খবর।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৯ দিন আগে · সূত্র: Reddit r/LocalLLaMA

লোকাল AI চালাতে ১.২ জিবি ভিআরএএম সাশ্রয়, জানুন কীভাবে

লোকাল AI মডেল চালানোর জন্য জনপ্রিয় টুল llama.cpp-এ একটি গুরুত্বপূর্ণ উন্নতি এসেছে। Reddit-এর r/LocalLLaMA কমিউনিটিতে প্রকাশিত Pull Request 23861 VRAM (ভিডিও র‍্যান্ডম অ্যাক্সেস মেমরি) ব্যবহারে বড় সাশ্রয়ের কথা জানিয়েছে। এই পুল রিকোয়েস্টটি তৈরি করেছেন ডেভেলপার am17an।

এই আপডেটের মূল লক্ষ্য হলো logits স্পেস শুধুমাত্র প্রয়োজনীয় সিকোয়েন্সের জন্য সংরক্ষণ করা। বর্তমানে llama.cpp সব সম্ভাব্য টোকেনের জন্য মেমরি রিজার্ভ করে রাখে। নতুন পদ্ধতিতে শুধু n_seqs বা নির্দিষ্ট সিকোয়েন্স সংখ্যার জন্য জায়গা রাখা হবে।

am17an-এর পরীক্ষায় দেখা গেছে, -ub 2048 এবং MTP (Multi-Token Prediction) সক্রিয় থাকলে এই পরিবর্তনে 1.2GB VRAM সাশ্রয় হয়। এটি বিশেষ করে যারা সীমিত GPU মেমরি নিয়ে কাজ করেন তাদের জন্য বড় সুবিধা। যেমন 8GB বা 12GB VRAM-এর GPU ব্যবহারকারীরা এই আপডেটে সবচেয়ে বেশি উপকৃত হবেন।

প্রস্তাবিত নতুন API টি llama-context-এ যুক্ত হবে। এই API-এর মাধ্যমে সার্ভার কনটেক্সটে সিকোয়েন্স সীমা নির্ধারণ করা যাবে। ডিফল্ট অবস্থায় সব টোকেনের জন্য মেমরি রিজার্ভ থাকবে। কিন্তু সার্ভার পরিবেশে যেখানে একসঙ্গে অনেক রিকোয়েস্ট আসে সেখানে এই API ব্যবহার করে মেমরি অপ্টিমাইজ করা সম্ভব।

এই পরিবর্তনটি মূলত #23764 নামের আগের একটি পুল রিকোয়েস্টের সম্প্রসারণ। am17an জানিয়েছেন, তিনি llama-perplexity টুল দিয়েও পরীক্ষা করেছেন এবং ফলাফল সন্তোষজনক। তবে এখনও এটি একটি ড্রাফ্ট পুল রিকোয়েস্ট হিসেবে রয়েছে। ডেভেলপাররা আরও ভালো API ডিজাইনের জন্য মতামত দিতে পারেন।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই আপডেট গুরুত্বপূর্ণ। দেশে অনেকেই সীমিত হার্ডওয়্যার নিয়ে লোকাল AI মডেল চালান। এই VRAM সাশ্রয় তাদেরকে বড় মডেল চালানোর সুযোগ দেবে। যেমন LLaMA 3 বা Mistral-এর মতো মডেল আগের চেয়ে সহজে চালানো যাবে। শিক্ষার্থী ও গবেষকরাও এই আপডেট থেকে উপকৃত হবেন।

ভবিষ্যতে llama.cpp-এর মূল কোডে এই পরিবর্তনটি যুক্ত হলে এটি লোকাল AI কমিউনিটির জন্য একটি বড় মাইলফলক হবে। মেমরি ব্যবস্থাপনার এই উন্নতি অন্যান্য AI টুলকিটেও অনুপ্রেরণা জোগাতে পারে।

লোকাল AI চালাতে ১.২ জিবি ভিআরএএম সাশ্রয়, জানুন কীভাবে

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০