LLM ধীরগতির মূল কারণ কী?

LLM একবারে একটি করে টোকেন তৈরি করে। প্রতিটি নতুন টোকেনের জন্য পুরো মডেল আবার চালাতে হয়। এই ক্রমিক প্রক্রিয়ার কারণে সময় বেশি লাগে।

কী কী কৌশলে LLM-এর গতি বাড়ানো যায়?

কেভি ক্যাশের দক্ষ ব্যবহার, অপারেটর ফিউশন এবং মডেল প্রুনিং ও কোয়ান্টাইজেশনের মাধ্যমে গতি বাড়ানো যায়। এই কৌশলগুলো আউটপুটের মান অপরিবর্তিত রাখে।

বাংলাদেশের ডেভেলপাররা কীভাবে এই কৌশল থেকে উপকৃত হতে পারে?

স্থানীয় সার্ভারে চালানো ছোট মডেলগুলোর কর্মক্ষমতা বাড়িয়ে কম খরচে দ্রুত AI অ্যাপ্লিকেশন তৈরি করতে পারবে। রিয়েল-টাইম চ্যাটবট ও কনটেন্ট টুলের ব্যবহারকারীর অভিজ্ঞতা উন্নত হবে।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

AI মডেলের গতি ৩ গুণ বাড়ল, আউটপুটের মান অপরিবর্তিত

বড় ভাষার মডেল (LLM) ধীরগতির হয় কারণ তারা একবারে একটি করে টোকেন তৈরি করে। গবেষকরা নতুন কৌশল আবিষ্কার করেছেন যা আউটপুটের মান না বদলেই ইনফারেন্সের গতি ২ থেকে ৩ গুণ বাড়িয়ে দিতে পারে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৩ ঘণ্টা আগে · সূত্র: dev.to ML

AI মডেলের গতি ৩ গুণ বাড়ল, আউটপুটের মান অপরিবর্তিত

বড় ভাষার মডেল বা LLM ব্যবহার করার সময় ব্যবহারকারীরা প্রায়ই ধীর প্রতিক্রিয়ার সম্মুখীন হন। এই ধীরগতির মূল কারণটি অত্যন্ত সহজ কিন্তু মৌলিক। LLM একবারে একটি করে শব্দ বা টোকেন তৈরি করে। ২০০ টোকেনের একটি উত্তর দিতে হলে মডেলটিকে তার বিলিয়ন প্যারামিটারের পুরো কাঠামো ২০০ বার চালাতে হয়। প্রতিটি নতুন টোকেন আগের টোকেনের উপর নির্ভরশীল হওয়ায় এই প্রক্রিয়াটি সম্পূর্ণ ক্রমিক বা সিকোয়েন্সিয়াল।

এই সমস্যাটিকে বলা হয় মেমোরি-বাউন্ড বা স্মৃতিসীমাবদ্ধতা। প্রতিটি ফরওয়ার্ড পাসের সময় GPU তার বেশিরভাগ সময় ব্যয় করে মডেলের ওজনগুলো মেমোরি থেকে টেনে আনার কাজে। প্রকৃত গাণিতিক গণনা খুব কম সময় নেয়। ফলে দামি GPU-র একটি বড় অংশ অলস বসে থাকে। dev.to ML সূত্রে প্রকাশিত একটি গবেষণা এই অবস্থার পরিবর্তনের সম্ভাবনা দেখিয়েছে।

গবেষকরা বেশ কিছু কৌশল চিহ্নিত করেছেন যা LLM-এর ইনফারেন্স গতি ২ থেকে ৩ গুণ বাড়িয়ে দিতে পারে। এই কৌশলগুলো মডেলের আউটপুটে কোনো পরিবর্তন আনে না। অর্থাৎ মডেল যা বলতে চায়, তা অপরিবর্তিত থাকে। শুধু তার গতি বাড়ে। এর মধ্যে রয়েছে ক্যাশিং অপটিমাইজেশন, বেটার মেমোরি ম্যানেজমেন্ট এবং কম্পিউটেশনাল গ্রাফের পুনর্বিন্যাস।

প্রথম কৌশলটি হলো কেভি ক্যাশের আরও কার্যকর ব্যবহার। প্রতিটি নতুন টোকেন তৈরির সময় মডেল আগের সব টোকেনের কী এবং ভ্যালু পুনরায় গণনা না করে ক্যাশে সংরক্ষণ করে। এই ক্যাশের আকার ও ব্যবস্থাপনা উন্নত করলে মেমোরি ব্যান্ডউইথের ব্যবহার কমে যায়। দ্বিতীয় কৌশলটি হলো অপারেটর ফিউশন। একাধিক ছোট ছোট অপারেশনকে একটি বড় অপারেশনে পরিণত করে GPU-র গণনা ক্ষমতার আরও ভালো ব্যবহার করা হয়। তৃতীয় কৌশলটি হলো মডেল প্রুনিং এবং কোয়ান্টাইজেশন। কম গুরুত্বপূর্ণ প্যারামিটার বাদ দিয়ে বা প্যারামিটারের নির্ভুলতা কমিয়ে মডেলের আকার ছোট করা হয়।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই গবেষণা অত্যন্ত গুরুত্বপূর্ণ। বর্তমানে ChatGPT, Claude বা বিভিন্ন ওপেন সোর্স LLM ব্যবহার করে অ্যাপ্লিকেশন তৈরি করলে উচ্চ লেটেন্সি একটি বড় বাধা। বিশেষ করে রিয়েল-টাইম চ্যাটবট, কোড জেনারেশন টুল বা কনটেন্ট ক্রিয়েশন প্ল্যাটফর্মে এই ধীরগতি সরাসরি ব্যবহারকারীর অভিজ্ঞতাকে প্রভাবিত করে। এই কৌশলগুলো বাস্তবায়ন করলে স্থানীয় সার্ভারে চালানো ছোট মডেলগুলোর কর্মক্ষমতা বড় মডেলের কাছাকাছি পৌঁছে যেতে পারে। ফলে কম খরচে দ্রুত সেবা দেওয়া সম্ভব হবে।

ভবিষ্যতে এই কৌশলগুলো আরও পরিমার্জিত হবে এবং সরাসরি LLM ফ্রেমওয়ার্কের অংশ হয়ে যাবে। TensorFlow, PyTorch বা Hugging Face Transformers-এর মতো জনপ্রিয় লাইব্রেরিতে এই অপটিমাইজেশনগুলো স্বয়ংক্রিয়ভাবে অন্তর্ভুক্ত হতে পারে। তাহলে ডেভেলপারদের আলাদাভাবে চিন্তা করতে হবে না। AIখবর মনে করে, এই গবেষণা প্রমাণ করে যে বুদ্ধিমান অপটিমাইজেশনের মাধ্যমে বিদ্যমান প্রযুক্তির সীমাবদ্ধতা কাটিয়ে ওঠা সম্ভব।

AI মডেলের গতি ৩ গুণ বাড়ল, আউটপুটের মান অপরিবর্তিত

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০