AI দ্রুত ২ গুণ হলেও ৩ সপ্তাহে গ্রাহকের ডাটা বদলে দিল vLLM
vLLM-এ speculative decoding চালু করার পর 1.9x থ্রুপুট বেড়েছে। কিন্তু তিন সপ্তাহ পরে গ্রাহকের টুল-কল আর্গুমেন্টে সূক্ষ্ম পরিবর্তন ধরা পড়েছে। অফলাইন ইভাল এই ড্রিফট ধরতে পারেনি কারণ তারা ভিন্ন সার্ভিং পাথে চলত।
vLLM-এ speculative decoding চালু করার পর 1.9x থ্রুপুট বেড়েছে। কিন্তু তিন সপ্তাহ পরে গ্রাহকের টুল-কল আর্গুমেন্টে সূক্ষ্ম পরিবর্তন ধরা পড়েছে। অফলাইন ইভাল এই ড্রিফট ধরতে পারেনি কারণ তারা ভিন্ন সার্ভিং পাথে চলত।
AI মডেলের আউটপুটে সূক্ষ্ম কিন্তু গুরুত্বপূর্ণ পরিবর্তন ঘটতে পারে যখন লেটেন্সি কমানোর জন্য speculative decoding ব্যবহার করা হয়। এই পরিবর্তন অফলাইন ইভালুয়েশনের আওতায় ধরা পড়ে না। সম্প্রতি নেক্সাস ল্যাবসের ইভাল টিম লিড এই সমস্যা নিয়ে একটি ব্লগপোস্টে বিস্তারিত ব্যাখ্যা দিয়েছেন।
নেক্সাস ল্যাবস একটি এন্টারপ্রাইজ এজেন্ট অটোমেশন কোম্পানি। তাদের প্রায় 14 জন ইঞ্জিনিয়ার আছে এবং তারা সিরিজ বি ফান্ডিং পেয়েছে। তারা একটি ফাইন-টিউনড 8B মডেলে vLLM ব্যবহার করে speculative decoding চালু করেছিল। এর ফলে লেটেন্সি অনেক কমে যায় এবং থ্রুপুট বেড়ে যায় 1.9 গুণ।
তিন সপ্তাহ পরে একজন গ্রাহক জানান যে এজেন্টের টুল-কল আর্গুমেন্টে সূক্ষ্ম পরিবর্তন এসেছে। গ্রিডি ডিকোডিং (greedy decoding) যখন ড্রাফট মডেলের সাথে ব্যবহার করা হয়, তখন এটি ড্রাফট মডেল ছাড়া গ্রিডি ডিকোডিংয়ের মতো বিট-আইডেন্টিক্যাল (bit-identical) থাকে না। অফলাইন ইভাল এই ড্রিফট ধরতে পারেনি কারণ তারা একটি ভিন্ন সার্ভিং পাথে চলত।
Speculative decoding কীভাবে কাজ করে? এটি একটি ছোট ও দ্রুত ড্রাফট মডেল ব্যবহার করে বড় মডেলের আউটপুট অনুমান করে। বড় মডেল তখন সেই অনুমানগুলো ভেরিফাই করে। এই প্রক্রিয়ায় লেটেন্সি কমে কিন্তু আউটপুট ডিস্ট্রিবিউশন পরিবর্তিত হতে পারে। গ্রিডি ডিকোডিংয়ের ক্ষেত্রেও এই পরিবর্তন ঘটে।
বাংলাদেশের ডেভেলপার ও এআই ইঞ্জিনিয়ারদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। অনেক স্টার্টআপ ও ফ্রিল্যান্সার লেটেন্সি কমানোর জন্য speculative decoding ব্যবহার করে। তারা যদি শুধুমাত্র অফলাইন ইভালের উপর নির্ভর করে, তাহলে প্রোডাকশনে অপ্রত্যাশিত সমস্যা দেখা দিতে পারে। বিশেষ করে এজেন্ট সিস্টেমে যেখানে টুল-কল আর্গুমেন্টের নির্ভুলতা জরুরি, সেখানে এই ড্রিফট মারাত্মক প্রভাব ফেলতে পারে।
এই ঘটনা থেকে শিক্ষা নেওয়া জরুরি। প্রোডাকশন সার্ভিং পাথের সাথে মিল রেখে ইভালুয়েশন পাইপলাইন তৈরি করা উচিত। ড্রিফট ডিটেকশনের জন্য রিয়েল-টাইম মনিটরিং সিস্টেম স্থাপন করা প্রয়োজন। শুধু লেটেন্সি বা থ্রুপুট নয়, আউটপুটের কনসিস্টেন্সিও নিয়মিত পরীক্ষা করা উচিত।
ভবিষ্যতে এআই মডেল ডিপ্লয়মেন্টে আরও বেশি সতর্কতা প্রয়োজন। ইভালুয়েশন পদ্ধতি যাতে প্রোডাকশন পরিবেশের সাথে সামঞ্জস্যপূর্ণ হয়, তা নিশ্চিত করতে হবে। নেক্সাস ল্যাবসের এই অভিজ্ঞতা পুরো ইন্ডাস্ট্রির জন্য একটি গুরুত্বপূর্ণ সতর্কবার্তা।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...