AI থেকে পুরনো তথ্য মুছে ফেলার ৮ পদ্ধতি, জানা জরুরি কেন?
বৃহৎ ভাষা মডেল থেকে পুরনো বা সংবেদনশীল তথ্য সরানোর জন্য 'আনলার্নিং' পদ্ধতি নিয়ে নতুন এক গবেষণা প্রকাশ করেছে dev.to ML। গবেষণায় মডেল সম্পাদনা, গ্রেডিয়েন্ট অ্যাসেন্ট এবং ডেটা ডিলিশন ভেরিফিকেশনসহ ৮টি মূল্যায়ন পদ্ধতি নিয়ে বিস্তারিত আলোচনা করা হয়েছে।
বৃহৎ ভাষা মডেল থেকে পুরনো বা সংবেদনশীল তথ্য সরানোর জন্য 'আনলার্নিং' পদ্ধতি নিয়ে নতুন এক গবেষণা প্রকাশ করেছে dev.to ML। গবেষণায় মডেল সম্পাদনা, গ্রেডিয়েন্ট অ্যাসেন্ট এবং ডেটা ডিলিশন ভেরিফিকেশনসহ ৮টি মূল্যায়ন পদ্ধতি নিয়ে বিস্তারিত আলোচনা করা হয়েছে।
বৃহৎ ভাষা মডেল বা LLM থেকে সংবেদনশীল ও পুরনো তথ্য অপসারণের জন্য আটটি শক্তিশালী পদ্ধতি নিয়ে একটি গুরুত্বপূর্ণ গবেষণা প্রকাশিত হয়েছে। প্রযুক্তি সংবাদমাধ্যম dev.to ML এই গবেষণা নিবন্ধটি প্রকাশ করেছে। গবেষণায় LLM-এর রোবাস্ট আনলার্নিং বা মজবুতভাবে তথ্য ভুলে যাওয়ার কৌশলগুলো মূল্যায়ন করা হয়েছে।
এআই মডেলগুলো যখন প্রশিক্ষণ নেয়, তখন তারা বিপুল পরিমাণ ডেটা থেকে শেখে। এই ডেটার মধ্যে অনেক সময় ব্যক্তিগত তথ্য, কপিরাইটযুক্ত বিষয়বস্তু বা ভুল তথ্য থাকতে পারে। আইনি ও নৈতিক কারণে এই তথ্য মডেল থেকে সরিয়ে ফেলা অত্যন্ত জরুরি হয়ে পড়েছে। গবেষণাটি এই প্রয়োজনীয়তার ওপর জোর দিয়েছে।
গবেষণায় উল্লেখিত আটটি পদ্ধতির মধ্যে গ্রেডিয়েন্ট অ্যাসেন্ট অন্যতম। এই পদ্ধতিতে মডেলের শেখার প্রক্রিয়াকে উল্টো দিকে পরিচালিত করে নির্দিষ্ট তথ্য ভুলিয়ে দেওয়া হয়। আরেকটি গুরুত্বপূর্ণ পদ্ধতি হলো মডেল এডিটিং, যেখানে মডেলের নির্দিষ্ট অংশ পরিবর্তন করে অবাঞ্ছিত জ্ঞান মুছে ফেলা হয়। ডেটা ডিলিশন ভেরিফিকেশন পদ্ধতিতে নিশ্চিত করা হয় যে নির্দিষ্ট ডেটা সত্যিই মডেল থেকে অপসারণ করা হয়েছে কিনা।
প্রতিটি পদ্ধতির নিজস্ব শক্তি ও দুর্বলতা রয়েছে। কিছু পদ্ধতি দ্রুত কাজ করলেও মডেলের অন্যান্য জ্ঞানের ওপর প্রভাব ফেলতে পারে। অন্যদিকে কিছু পদ্ধতি ধীর কিন্তু আরও নির্ভুল। গবেষকরা জানিয়েছেন, সর্বোত্তম ফলাফল পেতে একাধিক পদ্ধতি একসঙ্গে ব্যবহার করা যেতে পারে। তারা আরও বলেছেন যে আনলার্নিং প্রক্রিয়ায় মডেলের পারফরম্যান্স যেন অক্ষুণ্ন থাকে সেদিকে খেয়াল রাখা জরুরি।
বাংলাদেশের জন্য এই গবেষণার বিশেষ গুরুত্ব রয়েছে। দেশের শিক্ষার্থী, গবেষক ও ডেভেলপাররা বিভিন্ন ওপেন সোর্স LLM নিয়ে কাজ করছেন। ব্যক্তিগত তথ্য সুরক্ষা আইন ও কপিরাইট ইস্যু নিয়ে সচেতনতা বাড়ছে। এই পদ্ধতিগুলো বাংলাদেশের এআই গবেষকদের জন্য একটি কার্যকর নির্দেশিকা হতে পারে। তারা তাদের নিজস্ব মডেল থেকে সংবেদনশীল তথ্য অপসারণ করতে এই কৌশলগুলো ব্যবহার করতে পারবেন।
ভবিষ্যতে আরও উন্নত ও স্বয়ংক্রিয় আনলার্নিং পদ্ধতি আসবে বলে আশা করা যাচ্ছে। গবেষকরা বর্তমানে এমন কৌশল নিয়ে কাজ করছেন যা মডেলের জ্ঞানের ওপর ন্যূনতম প্রভাব ফেলে। এই গবেষণা ভুলে যাওয়ার প্রক্রিয়াটিকে আরও নির্ভরযোগ্য ও দক্ষ করে তুলবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...