AI মডেলের গতি ৩ গুণ বাড়ল, আউটপুটের মান অপরিবর্তিত
বড় ভাষার মডেল (LLM) ধীরগতির হয় কারণ তারা একবারে একটি করে টোকেন তৈরি করে। গবেষকরা নতুন কৌশল আবিষ্কার করেছেন যা আউটপুটের মান না বদলেই ইনফারেন্সের গতি ২ থেকে ৩ গুণ বাড়িয়ে দিতে পারে।
বড় ভাষার মডেল (LLM) ধীরগতির হয় কারণ তারা একবারে একটি করে টোকেন তৈরি করে। গবেষকরা নতুন কৌশল আবিষ্কার করেছেন যা আউটপুটের মান না বদলেই ইনফারেন্সের গতি ২ থেকে ৩ গুণ বাড়িয়ে দিতে পারে।
বড় ভাষার মডেল বা LLM ব্যবহার করার সময় ব্যবহারকারীরা প্রায়ই ধীর প্রতিক্রিয়ার সম্মুখীন হন। এই ধীরগতির মূল কারণটি অত্যন্ত সহজ কিন্তু মৌলিক। LLM একবারে একটি করে শব্দ বা টোকেন তৈরি করে। ২০০ টোকেনের একটি উত্তর দিতে হলে মডেলটিকে তার বিলিয়ন প্যারামিটারের পুরো কাঠামো ২০০ বার চালাতে হয়। প্রতিটি নতুন টোকেন আগের টোকেনের উপর নির্ভরশীল হওয়ায় এই প্রক্রিয়াটি সম্পূর্ণ ক্রমিক বা সিকোয়েন্সিয়াল।
এই সমস্যাটিকে বলা হয় মেমোরি-বাউন্ড বা স্মৃতিসীমাবদ্ধতা। প্রতিটি ফরওয়ার্ড পাসের সময় GPU তার বেশিরভাগ সময় ব্যয় করে মডেলের ওজনগুলো মেমোরি থেকে টেনে আনার কাজে। প্রকৃত গাণিতিক গণনা খুব কম সময় নেয়। ফলে দামি GPU-র একটি বড় অংশ অলস বসে থাকে। dev.to ML সূত্রে প্রকাশিত একটি গবেষণা এই অবস্থার পরিবর্তনের সম্ভাবনা দেখিয়েছে।
গবেষকরা বেশ কিছু কৌশল চিহ্নিত করেছেন যা LLM-এর ইনফারেন্স গতি ২ থেকে ৩ গুণ বাড়িয়ে দিতে পারে। এই কৌশলগুলো মডেলের আউটপুটে কোনো পরিবর্তন আনে না। অর্থাৎ মডেল যা বলতে চায়, তা অপরিবর্তিত থাকে। শুধু তার গতি বাড়ে। এর মধ্যে রয়েছে ক্যাশিং অপটিমাইজেশন, বেটার মেমোরি ম্যানেজমেন্ট এবং কম্পিউটেশনাল গ্রাফের পুনর্বিন্যাস।
প্রথম কৌশলটি হলো কেভি ক্যাশের আরও কার্যকর ব্যবহার। প্রতিটি নতুন টোকেন তৈরির সময় মডেল আগের সব টোকেনের কী এবং ভ্যালু পুনরায় গণনা না করে ক্যাশে সংরক্ষণ করে। এই ক্যাশের আকার ও ব্যবস্থাপনা উন্নত করলে মেমোরি ব্যান্ডউইথের ব্যবহার কমে যায়। দ্বিতীয় কৌশলটি হলো অপারেটর ফিউশন। একাধিক ছোট ছোট অপারেশনকে একটি বড় অপারেশনে পরিণত করে GPU-র গণনা ক্ষমতার আরও ভালো ব্যবহার করা হয়। তৃতীয় কৌশলটি হলো মডেল প্রুনিং এবং কোয়ান্টাইজেশন। কম গুরুত্বপূর্ণ প্যারামিটার বাদ দিয়ে বা প্যারামিটারের নির্ভুলতা কমিয়ে মডেলের আকার ছোট করা হয়।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই গবেষণা অত্যন্ত গুরুত্বপূর্ণ। বর্তমানে ChatGPT, Claude বা বিভিন্ন ওপেন সোর্স LLM ব্যবহার করে অ্যাপ্লিকেশন তৈরি করলে উচ্চ লেটেন্সি একটি বড় বাধা। বিশেষ করে রিয়েল-টাইম চ্যাটবট, কোড জেনারেশন টুল বা কনটেন্ট ক্রিয়েশন প্ল্যাটফর্মে এই ধীরগতি সরাসরি ব্যবহারকারীর অভিজ্ঞতাকে প্রভাবিত করে। এই কৌশলগুলো বাস্তবায়ন করলে স্থানীয় সার্ভারে চালানো ছোট মডেলগুলোর কর্মক্ষমতা বড় মডেলের কাছাকাছি পৌঁছে যেতে পারে। ফলে কম খরচে দ্রুত সেবা দেওয়া সম্ভব হবে।
ভবিষ্যতে এই কৌশলগুলো আরও পরিমার্জিত হবে এবং সরাসরি LLM ফ্রেমওয়ার্কের অংশ হয়ে যাবে। TensorFlow, PyTorch বা Hugging Face Transformers-এর মতো জনপ্রিয় লাইব্রেরিতে এই অপটিমাইজেশনগুলো স্বয়ংক্রিয়ভাবে অন্তর্ভুক্ত হতে পারে। তাহলে ডেভেলপারদের আলাদাভাবে চিন্তা করতে হবে না। AIখবর মনে করে, এই গবেষণা প্রমাণ করে যে বুদ্ধিমান অপটিমাইজেশনের মাধ্যমে বিদ্যমান প্রযুক্তির সীমাবদ্ধতা কাটিয়ে ওঠা সম্ভব।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...