লোকাল AI চালাতে ১.২ জিবি ভিআরএএম সাশ্রয়, জানুন কীভাবে
llama.cpp-এর নতুন Pull Request 23861 VRAM ব্যবহারে বড় পরিবর্তন আনছে। নির্দিষ্ট সীমা নির্ধারণ করে 1.2GB পর্যন্ত GPU মেমরি বাঁচানো সম্ভব হবে। এটি লোকাল AI মডেল চালানো ডেভেলপারদের জন্য বড় খবর।
llama.cpp-এর নতুন Pull Request 23861 VRAM ব্যবহারে বড় পরিবর্তন আনছে। নির্দিষ্ট সীমা নির্ধারণ করে 1.2GB পর্যন্ত GPU মেমরি বাঁচানো সম্ভব হবে। এটি লোকাল AI মডেল চালানো ডেভেলপারদের জন্য বড় খবর।
লোকাল AI মডেল চালানোর জন্য জনপ্রিয় টুল llama.cpp-এ একটি গুরুত্বপূর্ণ উন্নতি এসেছে। Reddit-এর r/LocalLLaMA কমিউনিটিতে প্রকাশিত Pull Request 23861 VRAM (ভিডিও র্যান্ডম অ্যাক্সেস মেমরি) ব্যবহারে বড় সাশ্রয়ের কথা জানিয়েছে। এই পুল রিকোয়েস্টটি তৈরি করেছেন ডেভেলপার am17an।
এই আপডেটের মূল লক্ষ্য হলো logits স্পেস শুধুমাত্র প্রয়োজনীয় সিকোয়েন্সের জন্য সংরক্ষণ করা। বর্তমানে llama.cpp সব সম্ভাব্য টোকেনের জন্য মেমরি রিজার্ভ করে রাখে। নতুন পদ্ধতিতে শুধু n_seqs বা নির্দিষ্ট সিকোয়েন্স সংখ্যার জন্য জায়গা রাখা হবে।
am17an-এর পরীক্ষায় দেখা গেছে, -ub 2048 এবং MTP (Multi-Token Prediction) সক্রিয় থাকলে এই পরিবর্তনে 1.2GB VRAM সাশ্রয় হয়। এটি বিশেষ করে যারা সীমিত GPU মেমরি নিয়ে কাজ করেন তাদের জন্য বড় সুবিধা। যেমন 8GB বা 12GB VRAM-এর GPU ব্যবহারকারীরা এই আপডেটে সবচেয়ে বেশি উপকৃত হবেন।
প্রস্তাবিত নতুন API টি llama-context-এ যুক্ত হবে। এই API-এর মাধ্যমে সার্ভার কনটেক্সটে সিকোয়েন্স সীমা নির্ধারণ করা যাবে। ডিফল্ট অবস্থায় সব টোকেনের জন্য মেমরি রিজার্ভ থাকবে। কিন্তু সার্ভার পরিবেশে যেখানে একসঙ্গে অনেক রিকোয়েস্ট আসে সেখানে এই API ব্যবহার করে মেমরি অপ্টিমাইজ করা সম্ভব।
এই পরিবর্তনটি মূলত #23764 নামের আগের একটি পুল রিকোয়েস্টের সম্প্রসারণ। am17an জানিয়েছেন, তিনি llama-perplexity টুল দিয়েও পরীক্ষা করেছেন এবং ফলাফল সন্তোষজনক। তবে এখনও এটি একটি ড্রাফ্ট পুল রিকোয়েস্ট হিসেবে রয়েছে। ডেভেলপাররা আরও ভালো API ডিজাইনের জন্য মতামত দিতে পারেন।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই আপডেট গুরুত্বপূর্ণ। দেশে অনেকেই সীমিত হার্ডওয়্যার নিয়ে লোকাল AI মডেল চালান। এই VRAM সাশ্রয় তাদেরকে বড় মডেল চালানোর সুযোগ দেবে। যেমন LLaMA 3 বা Mistral-এর মতো মডেল আগের চেয়ে সহজে চালানো যাবে। শিক্ষার্থী ও গবেষকরাও এই আপডেট থেকে উপকৃত হবেন।
ভবিষ্যতে llama.cpp-এর মূল কোডে এই পরিবর্তনটি যুক্ত হলে এটি লোকাল AI কমিউনিটির জন্য একটি বড় মাইলফলক হবে। মেমরি ব্যবস্থাপনার এই উন্নতি অন্যান্য AI টুলকিটেও অনুপ্রেরণা জোগাতে পারে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...