AI মডেলের গোপন ডেটা ফাঁস, আপনার ফ্রিল্যান্স প্রকল্পও ঝুঁকিতে
কন্ট্রাস্টিভ ডিকোডিং ডিফিং (CDD) নামের নতুন পদ্ধতি শুধু লগিট অ্যাক্সেস করেই ফাইনটিউন করা মডেলের প্রশিক্ষণ ডেটা হুবহু উদ্ধার করতে পারে। এই গবেষণা মডেল নিরাপত্তা ও ডেটা গোপনীয়তা নিয়ে নতুন প্রশ্ন তুলেছে।
কন্ট্রাস্টিভ ডিকোডিং ডিফিং (CDD) নামের নতুন পদ্ধতি শুধু লগিট অ্যাক্সেস করেই ফাইনটিউন করা মডেলের প্রশিক্ষণ ডেটা হুবহু উদ্ধার করতে পারে। এই গবেষণা মডেল নিরাপত্তা ও ডেটা গোপনীয়তা নিয়ে নতুন প্রশ্ন তুলেছে।
গবেষকরা একটি নতুন পদ্ধতি তৈরি করেছেন যা ফাইনটিউন করা লার্জ ল্যাঙ্গুয়েজ মডেলের (LLM) প্রশিক্ষণ ডেটা হুবহু উদ্ধার করতে পারে। এই পদ্ধতির নাম কন্ট্রাস্টিভ ডিকোডিং ডিফিং বা CDD। এটি মডেলের ওজন বা অ্যাক্টিভেশন অ্যাক্সেস না করেই শুধুমাত্র লগিট (logit) অ্যাক্সেসের মাধ্যমে এই কাজ করে।
CDD পদ্ধতিটি অ্যাক্টিভেশন ডিফারেন্স লেন্স (ADL) নামের আগের একটি গবেষণার উপর ভিত্তি করে তৈরি। ADL দেখিয়েছিল যে ফাইনটিউনিংয়ের প্রভাব বেস মডেল এবং ফাইনটিউন করা মডেলের অ্যাক্টিভেশনের পার্থক্যে স্পষ্টভাবে চিহ্নিত করা যায়। CDD এই পার্থক্যগুলো ব্যবহার করে মডেলটিকে নির্দিষ্ট ডেটা পুনরুত্পাদন করতে বাধ্য করে।
এই গবেষণার সবচেয়ে বড় বৈশিষ্ট্য হলো এটি গ্রে-বক্স লগিট অ্যাক্সেস ব্যবহার করে। অর্থাৎ গবেষকদের মডেলের ভেতরের ওজন বা অ্যাক্টিভেশনের প্রয়োজন হয় না। শুধুমাত্র মডেলের আউটপুট লগিটগুলো দেখেই তারা ফাইনটিউনিং ডেটা উদ্ধার করতে সক্ষম।
গবেষণাটি Reddit-এর r/MachineLearning ফোরামে প্রকাশিত হয়েছে। এটি মডেল ডিফিং বা মডেলের মধ্যে পার্থক্য বের করার একটি নতুন পদ্ধতি উপস্থাপন করে। সাধারণত মডেল ডিফিংয়ের জন্য ওজন বা অ্যাক্টিভেশন অ্যাক্সেসের প্রয়োজন হয়। কিন্তু CDD সেই সীমাবদ্ধতা দূর করেছে।
বাংলাদেশের প্রযুক্তি ও AI সম্প্রদায়ের জন্য এই গবেষণার গুরুত্ব অনেক। ফাইনটিউন করা মডেল ব্যবহারকারী ডেভেলপার ও কোম্পানিগুলোর জন্য এটি নিরাপত্তা ঝুঁকি তৈরি করতে পারে। কারণ কেউ চাইলে আপনার ফাইনটিউন করা মডেলের প্রশিক্ষণ ডেটা উদ্ধার করে ফেলতে পারে। এটি ডেটা গোপনীয়তা ও মেধাস্বত্ব নিয়ে নতুন করে ভাবতে বাধ্য করবে।
অন্যদিকে, এই পদ্ধতি মডেল নিরাপত্তা পরীক্ষার জন্যও ব্যবহার করা যেতে পারে। কোম্পানিগুলো তাদের নিজস্ব মডেল পরীক্ষা করে দেখতে পারে যে ফাইনটিউনিং ডেটা লিক হচ্ছে কিনা। এটি মডেল তৈরির প্রক্রিয়াকে আরও স্বচ্ছ ও নিরাপদ করতে সাহায্য করবে।
গবেষকরা জানিয়েছেন যে CDD শুধুমাত্র সংকীর্ণভাবে ফাইনটিউন করা মডেলের ক্ষেত্রে কাজ করে। অর্থাৎ যে মডেলগুলো খুব নির্দিষ্ট ও সীমিত ডেটাসেটে ফাইনটিউন করা হয়েছে, সেগুলোই এই পদ্ধতির লক্ষ্য। বৃহৎ স্কেলে ফাইনটিউন করা মডেলের ক্ষেত্রে এটি কতটা কার্যকর তা এখনও দেখা বাকি।
ভবিষ্যতে এই পদ্ধতি আরও উন্নত করা সম্ভব। গবেষকরা এখন চেষ্টা করছেন বিভিন্ন ধরনের মডেল এবং ফাইনটিউনিং পদ্ধতির জন্য CDD-কে আরও কার্যকর করতে। এটি মডেল নিরাপত্তা ও ডেটা গোপনীয়তার ক্ষেত্রে একটি গুরুত্বপূর্ণ হাতিয়ার হয়ে উঠতে পারে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/MachineLearning
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...