SRPO ফ্রেমওয়ার্ক কী এবং এটি কীভাবে কাজ করে?

SRPO হল Kwai AI-র তৈরি একটি নতুন পদ্ধতি যা LLM-এর RL পোস্ট-ট্রেনিং ধাপ 90% কমিয়ে দেয়। এটি দুই-পর্যায়ের RL এবং ইতিহাস পুনঃনমুনা কৌশল ব্যবহার করে GRPO-র সীমাবদ্ধতা কাটিয়ে ওঠে।

SRPO কি DeepSeek-R1-এর চেয়ে ভালো?

গণিত ও কোডিং বেঞ্চমার্কে SRPO DeepSeek-R1-এর সমান পারফরম্যান্স দেখিয়েছে। তবে এটি প্রশিক্ষণের জন্য অনেক কম ধাপ প্রয়োজন, যা খরচ ও সময় বাঁচায়।

বাংলাদেশের ডেভেলপাররা কীভাবে SRPO থেকে উপকৃত হতে পারে?

SRPO কম্পিউটেশনাল খরচ কমিয়ে দেয়, ফলে ছোট দল বা স্বতন্ত্র গবেষকরা বড় মডেল প্রশিক্ষণ করতে পারবেন। এটি এআই স্টার্টআপ ও শিক্ষার্থীদের জন্য নতুন সুযোগ তৈরি করবে।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

বাংলাদেশে AI প্রশিক্ষণ ৯০% কমিয়ে দেবে Kwai-র নতুন SRPO, জানুন কী লাভ

Kwai AI তাদের নতুন SRPO ফ্রেমওয়ার্ক দিয়ে LLM রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণের ধাপ 90% কমিয়ে এনেছে। এই পদ্ধতি DeepSeek-R1-এর সমান দক্ষতা দেখিয়েছে গণিত ও কোডিংয়ে। দুই-পর্যায়ের RL ও ইতিহাস পুনঃনমুনা কৌশল GRPO-র সীমাবদ্ধতা কাটিয়ে উঠেছে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৬০ দিন আগে · সূত্র: Synced Review

বাংলাদেশে AI প্রশিক্ষণ ৯০% কমিয়ে দেবে Kwai-র নতুন SRPO, জানুন কী লাভ

বৃহৎ ভাষা মডেল (LLM) প্রশিক্ষণের জন্য প্রয়োজনীয় রিইনফোর্সমেন্ট লার্নিং (RL) পোস্ট-ট্রেনিং ধাপ এখন 90% কমিয়ে আনা সম্ভব হয়েছে। Kwai AI তাদের নতুন SRPO (Sample-efficient Reinforcement Post-training Optimization) ফ্রেমওয়ার্ক উন্মোচন করেছে। এই গবেষণা প্রমাণ করেছে যে GRPO-র তুলনায় SRPO দশগুণ বেশি কার্যকর হতে পারে।

গবেষণাপত্রটি Synced Review-এ প্রকাশিত হয়েছে। SRPO ফ্রেমওয়ার্কটি দুই-পর্যায়ের RL পদ্ধতি ব্যবহার করে। প্রথম পর্যায়ে মডেলটি বেসিক দক্ষতা অর্জন করে। দ্বিতীয় পর্যায়ে একটি বিশেষ ইতিহাস পুনঃনমুনা কৌশল প্রয়োগ করা হয়। এই কৌশলটি GRPO-র প্রধান সীমাবদ্ধতা দূর করেছে।

GRPO (Group Relative Policy Optimization) বর্তমানে জনপ্রিয় একটি RL পদ্ধতি। কিন্তু এতে প্রশিক্ষণের সময় প্রচুর কম্পিউটেশনাল রিসোর্স প্রয়োজন হয়। SRPO সেই সমস্যার সমাধান করেছে। এটি মাত্র 10% প্রশিক্ষণ ধাপেই GRPO-র সমান বা তার চেয়ে ভালো ফলাফল দেয়।

গণিত ও কোডিং বেঞ্চমার্কে SRPO DeepSeek-R1-এর সমান পারফরম্যান্স দেখিয়েছে। DeepSeek-R1 বর্তমানে সবচেয়ে শক্তিশালী ওপেন-সোর্স LLMগুলোর একটি। SRPO সেই স্তরের নির্ভুলতা বজায় রেখে প্রশিক্ষণের খরচ ব্যাপকভাবে কমিয়েছে।

বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। SRPO-র মতো কার্যকর ফ্রেমওয়ার্ক ছোট দল বা স্বতন্ত্র গবেষকদের জন্যও বড় মডেল প্রশিক্ষণ সম্ভব করে তুলবে। বর্তমানে উচ্চক্ষমতাসম্পন্ন GPU-র খরচ অনেকের জন্য বাধা হয়ে দাঁড়ায়। SRPO সেই বাধা কমাতে পারে।

এআই স্টার্টআপ ও শিক্ষার্থীরাও এই পদ্ধতি থেকে উপকৃত হবে। কম্পিউটেশনাল খরচ কমলে তারা আরও দ্রুত পরীক্ষা-নিরীক্ষা চালাতে পারবে। বাংলাদেশের প্রযুক্তি খাতে এই ধরনের উদ্ভাবন স্থানীয় গবেষণাকে গতি দেবে।

ভবিষ্যতে SRPO ফ্রেমওয়ার্কটি আরও বড় মডেলের জন্য অপ্টিমাইজ করা হবে বলে ধারণা করা হচ্ছে। Kwai AI এই পদ্ধতিকে ওপেন-সোর্স করবে কিনা তা এখনো জানা যায়নি। তবে এই গবেষণা LLM প্রশিক্ষণের খরচ কমানোর দিকে একটি বড় পদক্ষেপ।

বাংলাদেশে AI প্রশিক্ষণ ৯০% কমিয়ে দেবে Kwai-র নতুন SRPO, জানুন কী লাভ

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০