MTP বা মাল্টি-টোকেন প্রেডিকশন কী?

MTP হলো একটি কৌশল যেখানে ল্যাঙ্গুয়েজ মডেল একবারে একাধিক টোকেন বা শব্দাংশ ভবিষ্যদ্বাণী করে। এটি স্পেকুলেটিভ ডিকোডিংয়ের অংশ, যা টেক্সট জেনারেশনকে দ্রুততর করে।

এই পুল রিকোয়েস্ট কীভাবে পারফরম্যান্স উন্নত করবে?

এটি MTP লেয়ার থেকে অপ্রয়োজনীয় প্যাডিং এবং একাধিক D2D কপি অপসারণ করে। এর ফলে মেমরি ব্যবহার কমে এবং কম্পিউটেশনের সময় বাঁচে, যা টেক্সট জেনারেশনকে দ্রুত করে।

বাংলাদেশের ডেভেলপারদের জন্য এটি কেন গুরুত্বপূর্ণ?

বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সাররা কম খরচে নিজের কম্পিউটারে দ্রুত AI মডেল চালাতে পারবেন। এটি গবেষণা, অ্যাপ ডেভেলপমেন্ট এবং ক্লায়েন্ট প্রকল্পে সময় ও অর্থ বাঁচাবে।

হোম/নিউজ/টুল

টুল৫ মিনিট পড়া

NVIDIA ইঞ্জিনিয়ারের পুল রিকোয়েস্টে লোকাল AI ৩ গুণ দ্রুত হবে

লোকাল এলএলএম ইনফারেন্সের গতি বাড়াতে llama.cpp-এ নতুন পুল রিকোয়েস্ট জমা দিয়েছেন NVIDIA-র ইঞ্জিনিয়ার। এটি স্পেকুলেটিভ ডিকোডিং-এর পারফরম্যান্স উন্নত করবে। পরিবর্তনটি আনপ্যাডিং এবং ডুপ্লিকেট কপি অপসারণের মাধ্যমে কাজ করে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৫ দিন আগে · সূত্র: Reddit r/LocalLLaMA

NVIDIA ইঞ্জিনিয়ারের পুল রিকোয়েস্টে লোকাল AI ৩ গুণ দ্রুত হবে

লোকাল লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) ইনফারেন্সের জগতে গতি ও কার্যকারিতা বাড়ানোর একটি নতুন পদক্ষেপ নিয়েছে ওপেন সোর্স কমিউনিটি। সম্প্রতি llama.cpp-এর জন্য একটি পুল রিকোয়েস্ট (PR #24086) জমা দিয়েছেন gaugarg-nv নামের একজন ডেভেলপার। এই ডেভেলপার সম্ভবত NVIDIA-র হয়ে কাজ করেন। পুল রিকোয়েস্টটির লক্ষ্য মাল্টি-টোকেন প্রেডিকশন (MTP) প্রক্রিয়ায় অপ্রয়োজনীয় প্যাডিং এবং ডিভাইস-টু-ডিভাইস (D2D) কপি অপসারণ করা।

MTP বা মাল্টি-টোকেন প্রেডিকশন হলো স্পেকুলেটিভ ডিকোডিং নামক একটি কৌশলের অংশ। এই কৌশলে মডেল একসঙ্গে একাধিক টোকেন বা শব্দাংশ ভবিষ্যদ্বাণী করার চেষ্টা করে। এর ফলে টেক্সট জেনারেশনের গতি অনেক বেড়ে যায়। তবে পুরনো পদ্ধতিতে MTP-তে অতিরিক্ত মেমরি ব্যবহার এবং অপ্রয়োজনীয় ডেটা কপি করার কারণে পারফরম্যান্সে বাধা আসত। নতুন পুল রিকোয়েস্ট সেই বাধাগুলো দূর করার চেষ্টা করছে।

টেকনিক্যাল দিক থেকে এই পরিবর্তনটি গুরুত্বপূর্ণ। আগে MTP লেয়ারগুলোর জন্য ইনপুট টেনসরে প্যাডিং যোগ করা হতো। প্যাডিং মানে হলো অপ্রয়োজনীয় শূন্য বা ডামি ডেটা জুড়ে দেওয়া, যা আসলে কোনো কাজে লাগে না। এই প্যাডিং অপসারণ করে মেমরির ব্যবহার কমানো হয়েছে। একইসঙ্গে একাধিক D2D কপি অপসারণ করা হয়েছে। D2D কপি মানে হলো GPU-র ভেতরে এক জায়গা থেকে অন্য জায়গায় ডেটা কপি করা। এই কপিগুলো কমিয়ে দিলে কম্পিউটেশনের সময় বাঁচে এবং বিদ্যুৎ খরচ কমে।

Reddit-এর r/LocalLLaMA সাবরেডিটে এই খবরটি শেয়ার করার পর কমিউনিটিতে বেশ সাড়া পড়েছে। ব্যবহারকারীরা বলছেন, এটি লোকাল এলএলএম ইনফারেন্সের জন্য একটি বড় উন্নতি। বিশেষ করে যারা নিজের কম্পিউটারে বড় মডেল চালান, তাদের জন্য এটি দ্রুত টেক্সট জেনারেশন নিশ্চিত করবে। আগের চেয়ে ২ থেকে ৩ গুণ দ্রুত পারফরম্যান্স পাওয়া যেতে পারে বলে ধারণা করা হচ্ছে।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই খবরটি বিশেষভাবে প্রাসঙ্গিক। দেশে যারা লোকাল এলএলএম নিয়ে কাজ করেন, তারা এখন আরও কম খরচে দ্রুত মডেল চালাতে পারবেন। বিশেষ করে যাদের কাছে উচ্চক্ষমতাসম্পন্ন GPU নেই, তাদের জন্য স্পেকুলেটিভ ডিকোডিং-এর এই উন্নতি বড় সুবিধা এনে দেবে। ফ্রিল্যান্সাররা ক্লায়েন্টের জন্য দ্রুত AI-ভিত্তিক সমাধান তৈরি করতে পারবেন। শিক্ষার্থীরা গবেষণার জন্য দ্রুত পরীক্ষা-নিরীক্ষা চালাতে পারবেন।

ভবিষ্যতে এই ধরনের অপ্টিমাইজেশন আরও বাড়বে বলে আশা করা যায়। NVIDIA-র ইঞ্জিনিয়ারদের সক্রিয় অংশগ্রহণ দেখে বোঝা যায়, বড় হার্ডওয়্যার কোম্পানিগুলোও ওপেন সোর্স প্রকল্পে গুরুত্ব দিচ্ছে। llama.cpp-এর ডেভেলপাররা ইতিমধ্যে পুল রিকোয়েস্টটি পর্যালোচনা শুরু করেছেন। খুব শিগগিরই এটি মূল কোডবেসে যুক্ত হবে বলে ধারণা করা হচ্ছে।

NVIDIA ইঞ্জিনিয়ারের পুল রিকোয়েস্টে লোকাল AI ৩ গুণ দ্রুত হবে

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০