বাংলাদেশে AI প্রশিক্ষণ ৯০% কমিয়ে দেবে Kwai-র নতুন SRPO, জানুন কী লাভ
Kwai AI তাদের নতুন SRPO ফ্রেমওয়ার্ক দিয়ে LLM রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণের ধাপ 90% কমিয়ে এনেছে। এই পদ্ধতি DeepSeek-R1-এর সমান দক্ষতা দেখিয়েছে গণিত ও কোডিংয়ে। দুই-পর্যায়ের RL ও ইতিহাস পুনঃনমুনা কৌশল GRPO-র সীমাবদ্ধতা কাটিয়ে উঠেছে।
Kwai AI তাদের নতুন SRPO ফ্রেমওয়ার্ক দিয়ে LLM রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণের ধাপ 90% কমিয়ে এনেছে। এই পদ্ধতি DeepSeek-R1-এর সমান দক্ষতা দেখিয়েছে গণিত ও কোডিংয়ে। দুই-পর্যায়ের RL ও ইতিহাস পুনঃনমুনা কৌশল GRPO-র সীমাবদ্ধতা কাটিয়ে উঠেছে।
বৃহৎ ভাষা মডেল (LLM) প্রশিক্ষণের জন্য প্রয়োজনীয় রিইনফোর্সমেন্ট লার্নিং (RL) পোস্ট-ট্রেনিং ধাপ এখন 90% কমিয়ে আনা সম্ভব হয়েছে। Kwai AI তাদের নতুন SRPO (Sample-efficient Reinforcement Post-training Optimization) ফ্রেমওয়ার্ক উন্মোচন করেছে। এই গবেষণা প্রমাণ করেছে যে GRPO-র তুলনায় SRPO দশগুণ বেশি কার্যকর হতে পারে।
গবেষণাপত্রটি Synced Review-এ প্রকাশিত হয়েছে। SRPO ফ্রেমওয়ার্কটি দুই-পর্যায়ের RL পদ্ধতি ব্যবহার করে। প্রথম পর্যায়ে মডেলটি বেসিক দক্ষতা অর্জন করে। দ্বিতীয় পর্যায়ে একটি বিশেষ ইতিহাস পুনঃনমুনা কৌশল প্রয়োগ করা হয়। এই কৌশলটি GRPO-র প্রধান সীমাবদ্ধতা দূর করেছে।
GRPO (Group Relative Policy Optimization) বর্তমানে জনপ্রিয় একটি RL পদ্ধতি। কিন্তু এতে প্রশিক্ষণের সময় প্রচুর কম্পিউটেশনাল রিসোর্স প্রয়োজন হয়। SRPO সেই সমস্যার সমাধান করেছে। এটি মাত্র 10% প্রশিক্ষণ ধাপেই GRPO-র সমান বা তার চেয়ে ভালো ফলাফল দেয়।
গণিত ও কোডিং বেঞ্চমার্কে SRPO DeepSeek-R1-এর সমান পারফরম্যান্স দেখিয়েছে। DeepSeek-R1 বর্তমানে সবচেয়ে শক্তিশালী ওপেন-সোর্স LLMগুলোর একটি। SRPO সেই স্তরের নির্ভুলতা বজায় রেখে প্রশিক্ষণের খরচ ব্যাপকভাবে কমিয়েছে।
বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। SRPO-র মতো কার্যকর ফ্রেমওয়ার্ক ছোট দল বা স্বতন্ত্র গবেষকদের জন্যও বড় মডেল প্রশিক্ষণ সম্ভব করে তুলবে। বর্তমানে উচ্চক্ষমতাসম্পন্ন GPU-র খরচ অনেকের জন্য বাধা হয়ে দাঁড়ায়। SRPO সেই বাধা কমাতে পারে।
এআই স্টার্টআপ ও শিক্ষার্থীরাও এই পদ্ধতি থেকে উপকৃত হবে। কম্পিউটেশনাল খরচ কমলে তারা আরও দ্রুত পরীক্ষা-নিরীক্ষা চালাতে পারবে। বাংলাদেশের প্রযুক্তি খাতে এই ধরনের উদ্ভাবন স্থানীয় গবেষণাকে গতি দেবে।
ভবিষ্যতে SRPO ফ্রেমওয়ার্কটি আরও বড় মডেলের জন্য অপ্টিমাইজ করা হবে বলে ধারণা করা হচ্ছে। Kwai AI এই পদ্ধতিকে ওপেন-সোর্স করবে কিনা তা এখনো জানা যায়নি। তবে এই গবেষণা LLM প্রশিক্ষণের খরচ কমানোর দিকে একটি বড় পদক্ষেপ।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Synced Review
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...