AI গবেষণায় বাংলাদেশের সাফল্য: ব্যক্তিগত তথ্য শনাক্তে Ensemble পদ্ধতি ৪ গুণ বেশি কার্যকর
একটি সাম্প্রতিক গবেষণায় দেখা গেছে, ব্যক্তিগত তথ্য সনাক্তকরণে Ensemble পদ্ধতি সর্বোচ্চ F1 স্কোর 0.662 অর্জন করেছে। অন্যদিকে, BERT-NER একা মেডিকেল টেক্সটে মাত্র 0.167 F1 স্কোর পেয়েছে। এই পরীক্ষা 9টি ভিন্ন পরিস্থিতিতে চালানো হয়েছে।
একটি সাম্প্রতিক গবেষণায় দেখা গেছে, ব্যক্তিগত তথ্য সনাক্তকরণে Ensemble পদ্ধতি সর্বোচ্চ F1 স্কোর 0.662 অর্জন করেছে। অন্যদিকে, BERT-NER একা মেডিকেল টেক্সটে মাত্র 0.167 F1 স্কোর পেয়েছে। এই পরীক্ষা 9টি ভিন্ন পরিস্থিতিতে চালানো হয়েছে।
ব্যক্তিগত সনাক্তযোগ্য তথ্য বা PII সুরক্ষা এখন AI পাইপলাইনের একটি গুরুত্বপূর্ণ অংশ হয়ে উঠেছে। সম্প্রতি একটি গবেষণায় দেখা গেছে, Regex, BERT-NER এবং Ensemble এই তিনটি পদ্ধতির মধ্যে Ensemble পদ্ধতি সবচেয়ে ভালো ফল দিয়েছে। গবেষণাটি 9টি ভিন্ন পরিস্থিতিতে চালানো হয়েছে যার মধ্যে রয়েছে মেডিকেল, বাণিজ্যিক এবং কোড রিভিউ প্রসঙ্গ।
গবেষণার ফলাফল অনুযায়ী, Ensemble পদ্ধতি গড় F1 স্কোর 0.662 অর্জন করেছে। F1 স্কোর হলো একটি মেট্রিক যা মডেলের নির্ভুলতা এবং পূর্ণতা উভয়ই বিবেচনা করে। অন্যদিকে, BERT-NER পদ্ধতি একা মেডিকেল টেক্সটে খুব খারাপ ফল করেছে এবং এর F1 স্কোর ছিল মাত্র 0.167। Regex পদ্ধতি দ্রুত কাজ করলেও তা সব ধরনের PII সনাক্ত করতে পারেনি।
তিনটি পদ্ধতির ডিজাইন লজিক ভিন্ন ছিল। M1 বা Regex পদ্ধতি শুধুমাত্র ফরম্যাটের উপর ভিত্তি করে তথ্য সনাক্ত করে। যেমন এটি ফোন নম্বর, ইমেইল, আইডি কার্ড নম্বর এবং তারিখ সনাক্ত করতে পারে। এই পদ্ধতির বিলম্ব প্রায় শূন্য এবং প্রতি রেকর্ডে 0.3 মিলিসেকেন্ডের কম সময় নেয়।
M2 বা BERT-NER পদ্ধতি dslim/bert-base-NER মডেল ব্যবহার করে। এই পদ্ধতি ভাষা বুঝতে পারে কিন্তু মেডিকেল টেক্সটে এটি ব্যর্থ হয়েছে। গবেষণায় দেখা গেছে, মেডিকেল টার্মিনোলজি এবং অস্বাভাবিক ফরম্যাটের কারণে BERT-NER সঠিকভাবে PII সনাক্ত করতে পারেনি।
M3 বা Ensemble পদ্ধতি Regex এবং BERT-NER উভয়ের সমন্বয়। এটি প্রথমে Regex দিয়ে দ্রুত তথ্য সনাক্ত করে এবং তারপর BERT-NER দিয়ে জটিল কেসগুলি সমাধান করে। এই সমন্বয়ই সর্বোচ্চ F1 স্কোর অর্জন করতে সাহায্য করেছে।
বাংলাদেশের জন্য এই গবেষণার গুরুত্ব অনেক। বাংলাদেশে স্বাস্থ্যসেবা, ব্যাংকিং এবং ই-কমার্স সেক্টরে AI ব্যবহার বাড়ছে। এই সেক্টরগুলিতে গ্রাহকের ব্যক্তিগত তথ্য সুরক্ষা অত্যন্ত জরুরি। বাংলাদেশি ডেভেলপাররা এই Ensemble পদ্ধতি ব্যবহার করে তাদের AI পাইপলাইন আরও সুরক্ষিত করতে পারেন।
ভবিষ্যতে এই গবেষণা আরও উন্নত PII সনাক্তকরণ সিস্টেম তৈরিতে সাহায্য করবে। বিশেষ করে মেডিকেল টেক্সটের জন্য আলাদা মডেল তৈরির প্রয়োজনীয়তা দেখা দিয়েছে। গবেষকরা এখন আরও বড় ডেটাসেট এবং উন্নত মডেল নিয়ে কাজ করছেন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...