RL চালিত ডেটা শিডিউলার কীভাবে কাজ করে?

এটি প্রশিক্ষণের সময় একটি পলিসি শেখে যা প্রতিটি ধাপে ঠিক করে দেয় কোন ডেটা উৎস থেকে কত উদাহরণ নেওয়া হবে। এই পলিসি অনলাইনে কাজ করে এবং মডেলের কর্মক্ষমতা অনুযায়ী ডেটা মিশ্রণ পরিবর্তন করে।

এই পদ্ধতির সুবিধা কী?

এটি স্থির ডেটা মিশ্রণের চেয়ে অনেক ভালো ফল দেয়। MMLU স্কোর ২৭.৫% এবং HumanEval পাস রেট ২.২৩ গুণ বাড়ে। আর এই উন্নতি করতে প্রতি ধাপে মাত্র ০.৪% অতিরিক্ত সময় লাগে।

বাংলাদেশের গবেষকদের জন্য এটি কেন গুরুত্বপূর্ণ?

এই পদ্ধতিতে অতিরিক্ত কম্পিউট পাওয়ারের প্রয়োজন খুবই কম। ফলে সীমিত সম্পদ নিয়েও উন্নত ভাষা মডেল তৈরি করা সম্ভব হবে। এটি বাংলাদেশের বিশ্ববিদ্যালয় ও স্টার্টআপগুলোর জন্য একটি সাশ্রয়ী সমাধান হতে পারে।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

AI প্রশিক্ষণে বিপ্লব: নতুন RL পদ্ধতি MMLU স্কোর ২৭.৫% বাড়াল

একটি নতুন RL-চালিত ডেটা শিডিউলার মাত্র ০.৪% অতিরিক্ত সময় খরচ করে MMLU স্কোর ২৭.৫% এবং HumanEval পাস রেট ২.২৩ গুণ বাড়িয়েছে। এই পদ্ধতি মডেলকে প্রশিক্ষণের সময় নিজে থেকেই শেখায় কোন ডেটা উৎস থেকে কত উদাহরণ নেওয়া উচিত।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪ ঘণ্টা আগে · সূত্র: dev.to ML

AI প্রশিক্ষণে বিপ্লব: নতুন RL পদ্ধতি MMLU স্কোর ২৭.৫% বাড়াল

একটি নতুন গবেষণায় দেখা গেছে, রিইনফোর্সমেন্ট লার্নিং (RL) চালিত একটি ডেটা শিডিউলার ভাষা মডেলের কর্মক্ষমতা নাটকীয়ভাবে বাড়াতে পারে। এই পদ্ধতি MMLU বেঞ্চমার্কে ২৭.৫ শতাংশ এবং HumanEval পাস রেট ২.২৩ গুণ উন্নতি করেছে। সবচেয়ে ভালো দিক হলো, এই উন্নতি করতে প্রতি প্রশিক্ষণ ধাপে মাত্র ০.৪ শতাংশ অতিরিক্ত সময় খরচ হয়।

এই গবেষণাটি বড় ভাষার মডেল (LLM) প্রশিক্ষণের একটি পুরনো সমস্যার সমাধান করেছে। আগে মডেল প্রশিক্ষণের সময় সব ডেটা উৎস থেকে সমানভাবে বা একটি নির্দিষ্ট অনুপাতে ডেটা নেওয়া হতো। কিন্তু বাস্তবে বিভিন্ন উৎসের ডেটার গুরুত্ব প্রশিক্ষণের সময় বদলাতে থাকে। এই নতুন শিডিউলার সেই পরিবর্তন বুঝে নিজেই সিদ্ধান্ত নেয় কোন উৎস থেকে কত ডেটা নেওয়া উচিত।

পদ্ধতিটির নাম AC-ODM (Actor-Critic Online Data Mixing)। এটি একটি পলিসি শেখে যা প্রশিক্ষণের প্রতিটি ধাপে ঠিক করে দেয় কোন সোর্স টাস্ক থেকে কয়টি উদাহরণ মডেলকে দেখানো হবে। এই পলিসি অনলাইনে কাজ করে, অর্থাৎ প্রশিক্ষণের সময়ই সে শিখতে থাকে এবং ডেটা মিশ্রণ পরিবর্তন করে।

গবেষকরা দেখিয়েছেন যে এই RL-চালিত পদ্ধতি স্ট্যাটিক মিক্সিংয়ের চেয়ে অনেক ভালো ফল দেয়। স্ট্যাটিক মিক্সিংয়ে ডেটার অনুপাত প্রশিক্ষণের শুরুতে ঠিক করে দেওয়া হয় এবং পরে আর পরিবর্তন করা হয় না। কিন্তু AC-ODM পুরো প্রশিক্ষণ জুড়ে ডেটা মিশ্রণকে অপ্টিমাইজ করে। ফলে মডেল দুর্বল বিষয়গুলোর উপর বেশি ফোকাস করতে পারে এবং শক্তিশালী বিষয়গুলোকে আরও উন্নত করতে পারে।

বাংলাদেশের প্রযুক্তি ও এআই গবেষণার জন্যও এই খবর গুরুত্বপূর্ণ। দেশের বিশ্ববিদ্যালয় ও স্টার্টআপগুলোর জন্য এটি একটি সাশ্রয়ী উপায় হতে পারে বড় ভাষার মডেল তৈরি করার। যেহেতু এতে অতিরিক্ত কম্পিউট পাওয়ারের প্রয়োজন খুবই কম, তাই সীমিত সম্পদ নিয়েও গবেষকরা এই পদ্ধতি ব্যবহার করে উন্নত মডেল তৈরি করতে পারবেন। ফ্রিল্যান্সার ও ডেভেলপাররাও এই পদ্ধতি ব্যবহার করে তাদের নিজস্ব মডেলের পারফরম্যান্স বাড়াতে পারেন।

এই গবেষণা ভবিষ্যতে ভাষা মডেল প্রশিক্ষণের পদ্ধতি বদলে দিতে পারে। ডেটা মিশ্রণের এই বুদ্ধিমান পদ্ধতি মডেলকে আরও দক্ষ ও শক্তিশালী করে তুলবে। আশা করা যায়, অদূর ভবিষ্যতে আরও গবেষণা এই পদ্ধতিকে আরও সহজলভ্য ও কার্যকর করবে।

AI প্রশিক্ষণে বিপ্লব: নতুন RL পদ্ধতি MMLU স্কোর ২৭.৫% বাড়াল

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০