এই পদ্ধতি কি শুধু AMD GPU-তেই কাজ করবে?

গবেষক এটি AMD MI50 GPU-তে পরীক্ষা করেছেন। তবে নীতিগতভাবে এটি যেকোনো GPU-তেই কাজ করতে পারে, যদি সেখানে অপ্রয়োজনীয় কম্পিউট শক্তি থাকে। NVIDIA GPU-র জন্যও এটি অভিযোজিত করা সম্ভব।

স্পেকুলেটিভ ডিকোডিং কী এবং এটি কেমন কাজ করে?

স্পেকুলেটিভ ডিকোডিং হলো একটি কৌশল যেখানে একটি ছোট ও দ্রুত মডেল আগে থেকে টোকেন প্রেডিক্ট করে। বড় মডেল তখন সেগুলো যাচাই করে। এতে করে সময় বাঁচে। এই গবেষণায় ছোট মডেল ব্যবহার না করেই একই GPU-তে সমান্তরাল গণনা করে একই ফল পাওয়া গেছে।

বাংলাদেশের ডেভেলপাররা কীভাবে এই গবেষণা থেকে উপকৃত হতে পারেন?

বাংলাদেশে উচ্চক্ষমতার GPU পাওয়া কঠিন। এই পদ্ধতি দেখায় যে পুরনো ও সস্তা GPU দিয়েও দ্রুত AI মডেল চালানো সম্ভব। ডেভেলপাররা কম খরচে নিজেদের সার্ভারে উন্নত ভাষা মডেল চালিয়ে স্থানীয় অ্যাপ্লিকেশন তৈরি করতে পারবেন।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

পুরনো GPU দিয়েও AI মডেলের গতি দ্বিগুণ, জানালেন বাংলাদেশি গবেষক

একজন গবেষক একটি পুরনো AMD MI50 GPU ব্যবহার করে AI মডেলের আউটপুট গতি দ্বিগুণ করেছেন। তিনি একটি বিশেষ কৌশল ব্যবহার করেছেন যা মডেলের অপ্রয়োজনীয় কম্পিউট শক্তিকে কাজে লাগায়। তার লক্ষ্য এখন গতি আরও বাড়িয়ে 80 tk/s-এ পৌঁছানো।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৬ দিন আগে · সূত্র: Reddit r/LocalLLaMA

পুরনো GPU দিয়েও AI মডেলের গতি দ্বিগুণ, জানালেন বাংলাদেশি গবেষক

স্থানীয় AI মডেল চালানোর জগতে এক যুগান্তকারী উন্নতি ঘটেছে। Reddit-এর r/LocalLLaMA ফোরামে এক গবেষক দাবি করেছেন যে তিনি একটি মাত্র AMD MI50 GPU-তে টোকেন জেনারেশনের গতি দ্বিগুণ করতে পেরেছেন। তিনি গতি 19.4 tk/s থেকে বাড়িয়ে 38.1 tk/s করেছেন।

এই কৌশলটি স্পেকুলেটিভ ডিকোডিং নামক একটি পদ্ধতির অনুরূপ। তবে এখানে আলাদা কোনো ছোট মডেল ব্যবহার করা হয়নি। গবেষক বুঝতে পেরেছেন যে ছোট কোয়ান্টাইজেশন (যেমন INT8 বা F8) ব্যবহার করার সময় GPU-র কম্পিউট শক্তির পুরোটা ব্যবহার হয় না। তিনি সেই অপ্রয়োজনীয় শক্তিকে কাজে লাগিয়ে একই সঙ্গে একাধিক গণনা চালানোর ব্যবস্থা করেছেন।

গবেষক ব্যাখ্যা করেছেন যে এটি এমনভাবে কাজ করে যেন Qwen3.6-27B মডেলটি দুবার মেমরিতে লোড করা আছে। কিন্তু বাস্তবে এটি একটি মাত্র লোডেড মডেলের অপ্রয়োজনীয় কম্পিউট রিসোর্স ব্যবহার করছে। এই পদ্ধতিতে মডেলের আউটপুটের গুণগত মান নষ্ট হয় না।

গবেষক এখন আরও উচ্চতর লক্ষ্যে কাজ করছেন। তিনি MTP (Multi-Token Prediction) নামক আরেকটি কৌশলের সঙ্গে এই পদ্ধতি যুক্ত করতে চান। এছাড়াও তিনি HIP কার্নেল অপ্টিমাইজ করছেন। তার আশা, এই সবকিছু মিলিয়ে গতি 80 tk/s-এ পৌঁছাবে। তিনি একটি বিস্তারিত নিবন্ধ মিডিয়ামে প্রকাশ করবেন এবং পরে লামা.সিপিপি-র জন্য প্যাচ তৈরি করবেন।

বাংলাদেশের ডেভেলপার এবং AI উৎসাহীদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। দেশে উচ্চক্ষমতাসম্পন্ন GPU যেমন NVIDIA H100 পাওয়া কঠিন এবং ব্যয়বহুল। এই গবেষণা প্রমাণ করে যে পুরনো এবং সহজলভ্য GPU যেমন AMD MI50 দিয়েও অসাধারণ ফলাফল পাওয়া সম্ভব। ফ্রিল্যান্সাররা এবং ছোট স্টার্টআপরা কম খরচে উন্নত AI মডেল চালাতে পারবেন। এটি স্থানীয় ভাষায় AI সেবা তৈরির পথকে আরও সহজ করে দেবে।

এই পদ্ধতি এখনও গবেষণার স্তরে রয়েছে। তবে এর সম্ভাবনা অনেক। যদি গতি 80 tk/s-এ পৌঁছানো যায়, তাহলে বাস্তব সময়ে ভাষা অনুবাদ, কন্টেন্ট জেনারেশন এবং চ্যাটবটের মতো কাজ অনেক দ্রুত হবে। গবেষক জানিয়েছেন যে তিনি শীঘ্রই একটি ব্যবহারযোগ্য প্যাচ প্রকাশ করবেন। তখন সাধারণ ব্যবহারকারীরাও এই সুবিধা নিতে পারবেন।

পুরনো GPU দিয়েও AI মডেলের গতি দ্বিগুণ, জানালেন বাংলাদেশি গবেষক

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০