NVIDIA ইঞ্জিনিয়ারের পুল রিকোয়েস্টে লোকাল AI ৩ গুণ দ্রুত হবে
লোকাল এলএলএম ইনফারেন্সের গতি বাড়াতে llama.cpp-এ নতুন পুল রিকোয়েস্ট জমা দিয়েছেন NVIDIA-র ইঞ্জিনিয়ার। এটি স্পেকুলেটিভ ডিকোডিং-এর পারফরম্যান্স উন্নত করবে। পরিবর্তনটি আনপ্যাডিং এবং ডুপ্লিকেট কপি অপসারণের মাধ্যমে কাজ করে।
লোকাল এলএলএম ইনফারেন্সের গতি বাড়াতে llama.cpp-এ নতুন পুল রিকোয়েস্ট জমা দিয়েছেন NVIDIA-র ইঞ্জিনিয়ার। এটি স্পেকুলেটিভ ডিকোডিং-এর পারফরম্যান্স উন্নত করবে। পরিবর্তনটি আনপ্যাডিং এবং ডুপ্লিকেট কপি অপসারণের মাধ্যমে কাজ করে।
লোকাল লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) ইনফারেন্সের জগতে গতি ও কার্যকারিতা বাড়ানোর একটি নতুন পদক্ষেপ নিয়েছে ওপেন সোর্স কমিউনিটি। সম্প্রতি llama.cpp-এর জন্য একটি পুল রিকোয়েস্ট (PR #24086) জমা দিয়েছেন gaugarg-nv নামের একজন ডেভেলপার। এই ডেভেলপার সম্ভবত NVIDIA-র হয়ে কাজ করেন। পুল রিকোয়েস্টটির লক্ষ্য মাল্টি-টোকেন প্রেডিকশন (MTP) প্রক্রিয়ায় অপ্রয়োজনীয় প্যাডিং এবং ডিভাইস-টু-ডিভাইস (D2D) কপি অপসারণ করা।
MTP বা মাল্টি-টোকেন প্রেডিকশন হলো স্পেকুলেটিভ ডিকোডিং নামক একটি কৌশলের অংশ। এই কৌশলে মডেল একসঙ্গে একাধিক টোকেন বা শব্দাংশ ভবিষ্যদ্বাণী করার চেষ্টা করে। এর ফলে টেক্সট জেনারেশনের গতি অনেক বেড়ে যায়। তবে পুরনো পদ্ধতিতে MTP-তে অতিরিক্ত মেমরি ব্যবহার এবং অপ্রয়োজনীয় ডেটা কপি করার কারণে পারফরম্যান্সে বাধা আসত। নতুন পুল রিকোয়েস্ট সেই বাধাগুলো দূর করার চেষ্টা করছে।
টেকনিক্যাল দিক থেকে এই পরিবর্তনটি গুরুত্বপূর্ণ। আগে MTP লেয়ারগুলোর জন্য ইনপুট টেনসরে প্যাডিং যোগ করা হতো। প্যাডিং মানে হলো অপ্রয়োজনীয় শূন্য বা ডামি ডেটা জুড়ে দেওয়া, যা আসলে কোনো কাজে লাগে না। এই প্যাডিং অপসারণ করে মেমরির ব্যবহার কমানো হয়েছে। একইসঙ্গে একাধিক D2D কপি অপসারণ করা হয়েছে। D2D কপি মানে হলো GPU-র ভেতরে এক জায়গা থেকে অন্য জায়গায় ডেটা কপি করা। এই কপিগুলো কমিয়ে দিলে কম্পিউটেশনের সময় বাঁচে এবং বিদ্যুৎ খরচ কমে।
Reddit-এর r/LocalLLaMA সাবরেডিটে এই খবরটি শেয়ার করার পর কমিউনিটিতে বেশ সাড়া পড়েছে। ব্যবহারকারীরা বলছেন, এটি লোকাল এলএলএম ইনফারেন্সের জন্য একটি বড় উন্নতি। বিশেষ করে যারা নিজের কম্পিউটারে বড় মডেল চালান, তাদের জন্য এটি দ্রুত টেক্সট জেনারেশন নিশ্চিত করবে। আগের চেয়ে ২ থেকে ৩ গুণ দ্রুত পারফরম্যান্স পাওয়া যেতে পারে বলে ধারণা করা হচ্ছে।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই খবরটি বিশেষভাবে প্রাসঙ্গিক। দেশে যারা লোকাল এলএলএম নিয়ে কাজ করেন, তারা এখন আরও কম খরচে দ্রুত মডেল চালাতে পারবেন। বিশেষ করে যাদের কাছে উচ্চক্ষমতাসম্পন্ন GPU নেই, তাদের জন্য স্পেকুলেটিভ ডিকোডিং-এর এই উন্নতি বড় সুবিধা এনে দেবে। ফ্রিল্যান্সাররা ক্লায়েন্টের জন্য দ্রুত AI-ভিত্তিক সমাধান তৈরি করতে পারবেন। শিক্ষার্থীরা গবেষণার জন্য দ্রুত পরীক্ষা-নিরীক্ষা চালাতে পারবেন।
ভবিষ্যতে এই ধরনের অপ্টিমাইজেশন আরও বাড়বে বলে আশা করা যায়। NVIDIA-র ইঞ্জিনিয়ারদের সক্রিয় অংশগ্রহণ দেখে বোঝা যায়, বড় হার্ডওয়্যার কোম্পানিগুলোও ওপেন সোর্স প্রকল্পে গুরুত্ব দিচ্ছে। llama.cpp-এর ডেভেলপাররা ইতিমধ্যে পুল রিকোয়েস্টটি পর্যালোচনা শুরু করেছেন। খুব শিগগিরই এটি মূল কোডবেসে যুক্ত হবে বলে ধারণা করা হচ্ছে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...