ছবির মান ৪৪.৯% বাড়িয়ে দেবে এই নতুন AI, জানুন কীভাবে কাজ করবে
গবেষকরা Emu2 মডেলে Pareto LoRA নামের একটি নতুন কৌশল প্রয়োগ করে ছবির গুণগত মান 44.9% পর্যন্ত বাড়িয়েছেন। এই পদ্ধতি টেক্সট পারফরম্যান্স অক্ষুণ্ণ রেখে মাল্টিমোডাল নির্দেশনা টিউনিংকে দ্বি-উদ্দেশ্য অপ্টিমাইজেশনে রূপান্তরিত করে।
গবেষকরা Emu2 মডেলে Pareto LoRA নামের একটি নতুন কৌশল প্রয়োগ করে ছবির গুণগত মান 44.9% পর্যন্ত বাড়িয়েছেন। এই পদ্ধতি টেক্সট পারফরম্যান্স অক্ষুণ্ণ রেখে মাল্টিমোডাল নির্দেশনা টিউনিংকে দ্বি-উদ্দেশ্য অপ্টিমাইজেশনে রূপান্তরিত করে।
বাংলার শীর্ষস্থানীয় AI ও প্রযুক্তি সংবাদমাধ্যম AIখবর জানাচ্ছে, মাল্টিমোডাল মডেলের জগতে এক যুগান্তকারী গবেষণা এসেছে। Xiwen Wei, Mark Nutter এবং Madhusudhanan Srinivasan-সহ একদল গবেষক Pareto LoRA নামের একটি নতুন পদ্ধতি তৈরি করেছেন। এই পদ্ধতি Emu2 মডেলে ছবির গুণগত মান 44.9% পর্যন্ত বাড়িয়ে দিয়েছে।
Pareto LoRA মূলত মাল্টিমোডাল ইন্সট্রাকশন টিউনিংকে একটি দ্বি-উদ্দেশ্য অপ্টিমাইজেশন সমস্যা হিসেবে পুনর্গঠন করে। এর মানে হলো, এই কৌশল একসঙ্গে দুটি লক্ষ্য পূরণের চেষ্টা করে। প্রথমত, ছবির গুণমান বাড়ানো। দ্বিতীয়ত, টেক্সট পারফরম্যান্স ঠিক রাখা। গবেষণাপত্রটি arXiv-এ প্রকাশিত হয়েছে এবং dev.to ML সূত্রে এই তথ্য জানা গেছে।
CoMM বেঞ্চমার্কে Emu2 মডেলের ওপর পরীক্ষা চালিয়ে গবেষকরা দেখেছেন যে Pareto LoRA ছবির উপলব্ধিগত গুণমান (perceptual image quality) 44.9% পর্যন্ত উন্নত করেছে। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এই উন্নতি টেক্সট পারফরম্যান্সে কোনো নেতিবাচক প্রভাব ফেলেনি। মডেলটি আগের মতোই টেক্সট নির্দেশনা বুঝতে এবং প্রক্রিয়া করতে সক্ষম রয়েছে।
এই পদ্ধতির মূল চাবিকাঠি হলো গ্রেডিয়েন্ট-ব্যালেন্সিং টেকনিক। সাধারণ LoRA-তে ছবি এবং টেক্সটের মধ্যে ভারসাম্য রাখা কঠিন হয়। কিন্তু Pareto LoRA গ্রেডিয়েন্টের ওপর ভিত্তি করে স্বয়ংক্রিয়ভাবে এই ভারসাম্য নিয়ন্ত্রণ করে। ফলে একই সঙ্গে দুটি কাজেই মডেলটি দক্ষতা দেখায়।
বাংলাদেশের প্রেক্ষাপটে এই গবেষণা অত্যন্ত গুরুত্বপূর্ণ। দেশের AI গবেষক এবং ডেভেলপাররা বর্তমানে মাল্টিমোডাল মডেল নিয়ে কাজ করছেন। বিশেষ করে ইমেজ জেনারেশন, ভিডিও প্রসেসিং এবং কনটেন্ট ক্রিয়েশনের ক্ষেত্রে এই পদ্ধতি কাজে লাগবে। ফ্রিল্যান্সার এবং টেক স্টার্টআপগুলোর জন্য এটি একটি বড় সুযোগ। কারণ Pareto LoRA ব্যবহার করে তারা কম খরচে উচ্চমানের ছবি তৈরি করতে পারবেন।
ভবিষ্যতে এই পদ্ধতি আরও বড় মডেলের জন্য প্রযোজ্য হতে পারে। গবেষকরা বলছেন, Pareto LoRA শুধু Emu2-তেই সীমাবদ্ধ নয়। এটি অন্যান্য মাল্টিমোডাল মডেলেও প্রয়োগ করা সম্ভব। এআইখবর মনে করে, এই পদ্ধতি আগামী দিনে ইমেজ এডিটিং, ডিজাইন এবং বিজ্ঞাপন শিল্পে বিপ্লব আনতে পারে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...