AI মডেল চালানোর খরচ ৮ গুণ কমানোর ৪টি কৌশল
একই ওপেন-ওয়েট মডেলকে ন্যাভলি সার্ভ করলে অপটিমাইজড সার্ভিংয়ের তুলনায় ৫-৮ গুণ বেশি খরচ হতে পারে। খরচ কমানোর মূল চাবিকাঠি মডেল পরিবর্তনে নয়, বরং রানটাইম অপটিমাইজেশনে। কোয়ান্টাইজেশন, ব্যাচিং ও স্পেকুলেটিভ ডিকোডিংয়ের মতো কৌশলই এনে দিতে পারে বিপ্লব।
একই ওপেন-ওয়েট মডেলকে ন্যাভলি সার্ভ করলে অপটিমাইজড সার্ভিংয়ের তুলনায় ৫-৮ গুণ বেশি খরচ হতে পারে। খরচ কমানোর মূল চাবিকাঠি মডেল পরিবর্তনে নয়, বরং রানটাইম অপটিমাইজেশনে। কোয়ান্টাইজেশন, ব্যাচিং ও স্পেকুলেটিভ ডিকোডিংয়ের মতো কৌশলই এনে দিতে পারে বিপ্লব।
বাংলাদেশের প্রযুক্তি ও AI খাতের জন্য একটি গুরুত্বপূর্ণ তথ্য এসেছে ডেভ টু ওয়েবসাইটের এমএল বিভাগ থেকে। সেলফ-হোস্টেড লার্জ ল্যাঙ্গুয়েজ মডেল বা এলএলএম সার্ভিংয়ের খরচ কমানোর জন্য চারটি কার্যকর কৌশল প্রকাশ করেছে তারা। এই কৌশলগুলো মডেল পরিবর্তন না করেই রানটাইম অপটিমাইজেশনের মাধ্যমে খরচ কমানোর ওপর জোর দিয়েছে।
ডেভ টু জানিয়েছে, সার্ভিং কস্ট মূলত একটি রানটাইম অপটিমাইজেশন সমস্যা, মডেলের সমস্যা নয়। একই ওপেন-ওয়েট মডেলকে ন্যাভলি সার্ভ করলে অপটিমাইজড সার্ভিংয়ের তুলনায় ৫ থেকে ৮ গুণ বেশি খরচ হতে পারে। আপনি মডেলের ওয়েট পরিবর্তন না করেই রানটাইম পরিবর্তন করে এই খরচ কমানো সম্ভব। মূলত চারটি লিভার একসঙ্গে ব্যবহার করলেই সবচেয়ে ভালো ফলাফল পাওয়া যায়।
প্রথম কৌশল হলো কোয়ান্টাইজেশন। এটি মডেলের প্যারামিটারগুলোর নির্ভুলতা কমানোর একটি প্রক্রিয়া। উদাহরণস্বরূপ, ৩২-বিট ফ্লোটিং পয়েন্ট থেকে ৮-বিট বা ৪-বিট ইন্টিজারে রূপান্তর করলে মডেলের মেমোরি ফুটপ্রিন্ট অনেক কমে যায়। ফলে একই GPU-তে বেশি মডেল বা বড় ব্যাচ রাখা সম্ভব হয়। কোয়ান্টাইজেশন সাধারণত মডেলের নির্ভুলতা খুব সামান্য কমিয়ে দেয়, কিন্তু সার্ভিং খরচ উল্লেখযোগ্যভাবে কমায়।
দ্বিতীয় কৌশল হলো ব্যাচিং। ইনফারেন্সের দুটি ধাপ রয়েছে। প্রথম ধাপ প্রিফিল যেখানে সমান্তরাল প্রসেসিং হয় এবং এটি কম্পিউট-বাউন্ড। দ্বিতীয় ধাপ ডিকোড যেখানে সিকোয়েন্সিয়াল প্রসেসিং হয় এবং এটি মেমোরি-ব্যান্ডউইথ-বাউন্ড। ব্যাচিং প্রিফিল ধাপে একাধিক রিকোয়েস্ট একসঙ্গে প্রসেস করে GPU-র ব্যবহার বাড়ায়। এতে করে প্রতি রিকোয়েস্টের খরচ কমে যায়।
তৃতীয় কৌশল হলো স্পেকুলেটিভ ডিকোডিং। এই কৌশলে একটি ছোট ও দ্রুত মডেল প্রথমে টোকেন জেনারেট করে এবং তারপর বড় মডেল সেগুলো ভেরিফাই করে। এই প্রক্রিয়ায় ডিকোড ধাপের সিকোয়েন্সিয়াল বাধা কিছুটা কাটিয়ে ওঠা যায়। ফলে প্রতি সেকেন্ডে বেশি টোকেন জেনারেট করা সম্ভব হয়।
চতুর্থ কৌশল হলো কেভি ক্যাশ ব্যবস্থাপনা। কেভি ক্যাশ হলো সেই মেমোরি যা সিকোয়েন্সের দৈর্ঘ্য এবং ব্যাচের আকারের সঙ্গে বাড়তে থাকে। বড় স্কেলে এটি সার্ভিংয়ের সবচেয়ে বড় খরচের কারণ। কেভি ক্যাশের আকার নিয়ন্ত্রণ করতে পেজঅ্যাটেনশনের মতো কৌশল ব্যবহার করা হয়। এতে করে মেমোরি ব্যবহার আরও দক্ষ হয় এবং একই GPU-তে বড় কনটেক্সট উইন্ডো সমর্থন করা যায়।
বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এই কৌশলগুলো অত্যন্ত গুরুত্বপূর্ণ। বর্তমানে অনেক বাংলাদেশি ডেভেলপার সেলফ-হোস্টেড এলএলএম ব্যবহার করে বিভিন্ন অ্যাপ্লিকেশন তৈরি করছে। এই কৌশলগুলো ব্যবহার করে তারা তাদের সার্ভিং খরচ ৫০ থেকে ৮০ শতাংশ পর্যন্ত কমাতে পারে। বিশেষ করে যারা ফ্রি টিয়ার বা সীমিত বাজেটের GPU ব্যবহার করে, তাদের জন্য এই কৌশলগুলো জীবনরক্ষাকারী হতে পারে।
ভবিষ্যতে আরও উন্নত অপটিমাইজেশন কৌশল আসবে বলে আশা করা যায়। বিশেষ করে কেভি ক্যাশ ব্যবস্থাপনার জন্য নতুন অ্যালগরিদম এবং আরও কার্যকর কোয়ান্টাইজেশন পদ্ধতি গবেষণাধীন রয়েছে। বাংলাদেশের AI সম্প্রদায়ের উচিত এই কৌশলগুলো সম্পর্কে সচেতন হওয়া এবং নিজেদের প্রজেক্টে প্রয়োগ করা।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...