AI বিল ৯০% কমানো সম্ভব, জানুন Claude-GPT-তে সাশ্রয়ের কৌশল
LLM API ব্যবহারে পুনরাবৃত্ত টোকেন খরচ কমিয়ে 90% পর্যন্ত সাশ্রয় করা সম্ভব। Claude, GPT ও Gemini-তে কাজ করে এই কৌশল।
LLM API ব্যবহারে পুনরাবৃত্ত টোকেন খরচ কমিয়ে 90% পর্যন্ত সাশ্রয় করা সম্ভব। Claude, GPT ও Gemini-তে কাজ করে এই কৌশল।
একটি বড় ভাষার মডেল (LLM) API ব্যবহার করলে মাস শেষে বিল দেখে অনেক ডেভেলপার হতবাক হয়ে যান। কিন্তু একটি সহজ কৌশল এই খরচ 90 শতাংশ পর্যন্ত কমিয়ে দিতে পারে। তার নাম Prompt Caching। dev.to ML সাইটের এক প্রতিবেদনে বলা হয়েছে, এই পদ্ধতি Claude, GPT ও Gemini সহ সব প্রধান মডেলেই কাজ করে।
আসল সমস্যা হলো, অধিকাংশ প্রোডাকশন LLM বিলের বড় অংশ জুড়ে থাকে একই টোকেন বারবার পাঠানো। একটি সাপোর্ট ক্লাসিফায়ার প্রতিটি টিকিটের জন্য তার 6,000 টোকেনের নীতি ও স্কিমা আবার পাঠায়। একটি RAG বট একই নির্দেশনা ও একই উদ্ধৃত অংশ পুনরায় পাঠায়। একটি কোডিং এজেন্ট প্রতিটি ধাপে একই টুল ডেফিনিশন ও রিপোজিটরি কনটেক্সট পাঠায়। প্রতিটি ক্ষেত্রে প্রদানকারী (API প্রোভাইডার) সেই টোকেনগুলো পুনরায় প্রক্রিয়া করে এবং তার জন্য বিল করে।
Prompt Caching এই পুনরাবৃত্তি দূর করে। আপনি যখন ক্যাশে ব্যবহার করেন, তখন API প্রোভাইডার প্রথমবার পাঠানো টোকেনের একটি অংশ ক্যাশে বা মেমোরিতে সংরক্ষণ করে রাখে। পরবর্তী কলগুলোতে সেই ক্যাশ করা অংশ পুনরায় প্রক্রিয়া না করে সরাসরি ব্যবহার করা হয়। ফলে শুধু নতুন বা পরিবর্তিত টোকেনের জন্য চার্জ আসে। এতে করে খরচ অনেক কমে যায়।
এই কৌশল বিশেষভাবে কার্যকর তিনটি ক্ষেত্রে। প্রথমত, সাপোর্ট ক্লাসিফায়ার যেখানে প্রতিটি টিকিটের জন্য একই নীতি ও স্কিমা পাঠানো হয়। দ্বিতীয়ত, RAG বট বা রিট্রিভাল-অগমেন্টেড জেনারেশন বট, যেখানে একই নির্দেশনা ও উদ্ধৃত অংশ বারবার যায়। তৃতীয়ত, কোডিং এজেন্ট যেখানে টুল ডেফিনিশন ও রিপোজিটরি কনটেক্সট পুনরাবৃত্ত হয়। এই তিন ক্ষেত্রেই Prompt Caching ব্যবহার করলে খরচ 50 থেকে 90 শতাংশ পর্যন্ত কমতে পারে।
বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এটি একটি বড় সুযোগ। অনেক বাংলাদেশি ফ্রিল্যান্সার AI-ভিত্তিক সেবা তৈরি করে ক্লায়েন্টদের দেন। তারা যদি Prompt Caching ব্যবহার করেন, তাহলে তাদের API খরচ অনেক কমে যাবে। এর ফলে তারা কম দামে সেবা দিতে পারবেন এবং প্রতিযোগিতায় এগিয়ে থাকবেন। শিক্ষার্থী ও গবেষকদের জন্যও এটি সহায়ক। তারা কম খরচে বেশি এক্সপেরিমেন্ট চালাতে পারবেন।
ভবিষ্যতে আরও উন্নত ক্যাশিং কৌশল আসতে পারে। মডেল প্রদানকারীরা ইতিমধ্যে এই বিষয়ে কাজ করছেন। কিন্তু এখনই Prompt Caching ব্যবহার করে আপনি আপনার বিল কমাতে পারেন। এটি একটি সহজ কৌশল যা আপনার প্রজেক্টের খরচ নাটকীয়ভাবে কমিয়ে দেবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...