AI ওয়াটারমার্ক ভেঙে দিচ্ছে লিনিয়ার এনসেম্বল, বিপদে কন্টেন্ট সুরক্ষা
একাধিক AI মডেলের আউটপুট একত্রিত করলে ওয়াটারমার্ক অকার্যকর হয়ে পড়ে। গবেষণায় দেখা গেছে, মাত্র কয়েকটি স্বাধীন মডেলের লিনিয়ার এনসেম্বল বর্তমান ওয়াটারমার্কিং স্কিম ভেঙে দিতে পারে। এর প্রভাব পড়বে কন্টেন্ট উৎস সনাক্তকরণ ও হ্যালুসিনেশনমুক্ত টেক্সট জেনারেশনে।
একাধিক AI মডেলের আউটপুট একত্রিত করলে ওয়াটারমার্ক অকার্যকর হয়ে পড়ে। গবেষণায় দেখা গেছে, মাত্র কয়েকটি স্বাধীন মডেলের লিনিয়ার এনসেম্বল বর্তমান ওয়াটারমার্কিং স্কিম ভেঙে দিতে পারে। এর প্রভাব পড়বে কন্টেন্ট উৎস সনাক্তকরণ ও হ্যালুসিনেশনমুক্ত টেক্সট জেনারেশনে।
একাধিক AI মডেলের আউটপুট একত্রিত করে তৈরি করা টেক্সট থেকে ওয়াটারমার্ক মুছে ফেলা সম্ভব। dev.to ML-এ প্রকাশিত এক গবেষণায় দেখা গেছে, লিনিয়ার এনসেম্বল বা একাধিক স্বাধীনভাবে প্রশিক্ষিত মডেলের আউটপুটের সরল গড় নেওয়ার পদ্ধতি বর্তমান ওয়াটারমার্কিং স্কিমকে সম্পূর্ণরূপে ভেঙে দিতে পারে।
বেশিরভাগ ওয়াটারমার্কিং পদ্ধতি এই ধারণার উপর ভিত্তি করে তৈরি যে জেনারেশনের সময় টেক্সটে যে সামান্য পরিমাণে পরিসংখ্যানগত পক্ষপাত (bias) যোগ করা হয়, তা যেকোনো প্রক্রিয়াকরণের পরেও টিকে থাকবে। এই পক্ষপাত পরবর্তীতে একটি পরিসংখ্যানগত পরীক্ষার মাধ্যমে সনাক্ত করা যায়। কিন্তু গবেষণায় দেখা গেছে, এই ধারণা ভেঙে যায় যখন কোনো অ্যাপ্লিকেশন একাধিক প্রদানকারীর (provider) কাছ থেকে আউটপুট নেয়।
গবেষকরা দেখিয়েছেন যে মাত্র 3 থেকে 5টি স্বাধীনভাবে প্রশিক্ষিত মডেলের লিনিয়ার এনসেম্বল ওয়াটারমার্কের সিগন্যালকে এতটাই দুর্বল করে দেয় যে তা আর সনাক্ত করা যায় না। এর কারণ হলো প্রতিটি মডেলের ওয়াটারমার্ক ভিন্ন ভিন্ন প্যাটার্নে এম্বেড করা থাকে এবং এগুলো একত্রিত হওয়ার সাথে সাথে পারস্পরিকভাবে বাতিল হয়ে যায়।
এই আবিষ্কারের সবচেয়ে গুরুত্বপূর্ণ প্রভাব পড়বে কন্টেন্ট প্রোভেন্যান্স ডিটেকশন বা উৎস সনাক্তকরণে। বর্তমানে অনেক কোম্পানি তাদের AI মডেলের আউটপুট শনাক্ত করতে ওয়াটারমার্ক ব্যবহার করে। কিন্তু যদি কোনো ব্যবহারকারী একাধিক AI টুলের আউটপুক একত্রিত করে ব্যবহার করে, তাহলে সেই ওয়াটারমার্ক আর কাজ করবে না।
অন্যদিকে, এই পদ্ধতি হ্যালুসিনেশনমুক্ত (hallucination-free) টেক্সট জেনারেশনের জন্য একটি লুকানো বুস্টার হিসেবে কাজ করতে পারে। কারণ একাধিক মডেলের আউটপুটের গড় নিলে প্রতিটি মডেলের পৃথক ভুল বা হ্যালুসিনেশন কমে যায় এবং আরও নির্ভুল টেক্সট তৈরি হয়।
বাংলাদেশের জন্য এই গবেষণার অর্থ হলো, যেসব ডেভেলপার বা স্টার্টআপ একাধিক AI API ব্যবহার করে কন্টেন্ট জেনারেট করে, তাদের জন্য ওয়াটারমার্কিং নির্ভরযোগ্য হবে না। অন্যদিকে, যারা ফ্রিল্যান্সার হিসেবে AI-জেনারেটেড কন্টেন্ট সরবরাহ করে, তাদের কাজের উৎস প্রমাণ করা কঠিন হয়ে পড়বে। শিক্ষার্থী ও গবেষকদের জন্য এটি একটি গুরুত্বপূর্ণ সতর্কতা যে ওয়াটারমার্কিং সর্বদা নির্ভরযোগ্য নয়।
ভবিষ্যতে ওয়াটারমার্কিং পদ্ধতিকে আরও শক্তিশালী করতে হবে যাতে এটি এনসেম্বল আক্রমণ প্রতিরোধ করতে পারে। একইসঙ্গে, কন্টেন্টের উৎস ও সত্যতা যাচাইয়ের জন্য নতুন পদ্ধতি নিয়ে গবেষণা জরুরি হয়ে পড়েছে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...