AI প্রশিক্ষণে বিপ্লব: নতুন RL পদ্ধতি MMLU স্কোর ২৭.৫% বাড়াল
একটি নতুন RL-চালিত ডেটা শিডিউলার মাত্র ০.৪% অতিরিক্ত সময় খরচ করে MMLU স্কোর ২৭.৫% এবং HumanEval পাস রেট ২.২৩ গুণ বাড়িয়েছে। এই পদ্ধতি মডেলকে প্রশিক্ষণের সময় নিজে থেকেই শেখায় কোন ডেটা উৎস থেকে কত উদাহরণ নেওয়া উচিত।
একটি নতুন RL-চালিত ডেটা শিডিউলার মাত্র ০.৪% অতিরিক্ত সময় খরচ করে MMLU স্কোর ২৭.৫% এবং HumanEval পাস রেট ২.২৩ গুণ বাড়িয়েছে। এই পদ্ধতি মডেলকে প্রশিক্ষণের সময় নিজে থেকেই শেখায় কোন ডেটা উৎস থেকে কত উদাহরণ নেওয়া উচিত।
একটি নতুন গবেষণায় দেখা গেছে, রিইনফোর্সমেন্ট লার্নিং (RL) চালিত একটি ডেটা শিডিউলার ভাষা মডেলের কর্মক্ষমতা নাটকীয়ভাবে বাড়াতে পারে। এই পদ্ধতি MMLU বেঞ্চমার্কে ২৭.৫ শতাংশ এবং HumanEval পাস রেট ২.২৩ গুণ উন্নতি করেছে। সবচেয়ে ভালো দিক হলো, এই উন্নতি করতে প্রতি প্রশিক্ষণ ধাপে মাত্র ০.৪ শতাংশ অতিরিক্ত সময় খরচ হয়।
এই গবেষণাটি বড় ভাষার মডেল (LLM) প্রশিক্ষণের একটি পুরনো সমস্যার সমাধান করেছে। আগে মডেল প্রশিক্ষণের সময় সব ডেটা উৎস থেকে সমানভাবে বা একটি নির্দিষ্ট অনুপাতে ডেটা নেওয়া হতো। কিন্তু বাস্তবে বিভিন্ন উৎসের ডেটার গুরুত্ব প্রশিক্ষণের সময় বদলাতে থাকে। এই নতুন শিডিউলার সেই পরিবর্তন বুঝে নিজেই সিদ্ধান্ত নেয় কোন উৎস থেকে কত ডেটা নেওয়া উচিত।
পদ্ধতিটির নাম AC-ODM (Actor-Critic Online Data Mixing)। এটি একটি পলিসি শেখে যা প্রশিক্ষণের প্রতিটি ধাপে ঠিক করে দেয় কোন সোর্স টাস্ক থেকে কয়টি উদাহরণ মডেলকে দেখানো হবে। এই পলিসি অনলাইনে কাজ করে, অর্থাৎ প্রশিক্ষণের সময়ই সে শিখতে থাকে এবং ডেটা মিশ্রণ পরিবর্তন করে।
গবেষকরা দেখিয়েছেন যে এই RL-চালিত পদ্ধতি স্ট্যাটিক মিক্সিংয়ের চেয়ে অনেক ভালো ফল দেয়। স্ট্যাটিক মিক্সিংয়ে ডেটার অনুপাত প্রশিক্ষণের শুরুতে ঠিক করে দেওয়া হয় এবং পরে আর পরিবর্তন করা হয় না। কিন্তু AC-ODM পুরো প্রশিক্ষণ জুড়ে ডেটা মিশ্রণকে অপ্টিমাইজ করে। ফলে মডেল দুর্বল বিষয়গুলোর উপর বেশি ফোকাস করতে পারে এবং শক্তিশালী বিষয়গুলোকে আরও উন্নত করতে পারে।
বাংলাদেশের প্রযুক্তি ও এআই গবেষণার জন্যও এই খবর গুরুত্বপূর্ণ। দেশের বিশ্ববিদ্যালয় ও স্টার্টআপগুলোর জন্য এটি একটি সাশ্রয়ী উপায় হতে পারে বড় ভাষার মডেল তৈরি করার। যেহেতু এতে অতিরিক্ত কম্পিউট পাওয়ারের প্রয়োজন খুবই কম, তাই সীমিত সম্পদ নিয়েও গবেষকরা এই পদ্ধতি ব্যবহার করে উন্নত মডেল তৈরি করতে পারবেন। ফ্রিল্যান্সার ও ডেভেলপাররাও এই পদ্ধতি ব্যবহার করে তাদের নিজস্ব মডেলের পারফরম্যান্স বাড়াতে পারেন।
এই গবেষণা ভবিষ্যতে ভাষা মডেল প্রশিক্ষণের পদ্ধতি বদলে দিতে পারে। ডেটা মিশ্রণের এই বুদ্ধিমান পদ্ধতি মডেলকে আরও দক্ষ ও শক্তিশালী করে তুলবে। আশা করা যায়, অদূর ভবিষ্যতে আরও গবেষণা এই পদ্ধতিকে আরও সহজলভ্য ও কার্যকর করবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...