PII সনাক্তকরণে Ensemble পদ্ধতি কেন সবচেয়ে ভালো কাজ করে?

Ensemble পদ্ধতি Regex এবং BERT-NER উভয়ের শক্তি ব্যবহার করে। Regex দ্রুত ফরম্যাট-ভিত্তিক তথ্য সনাক্ত করে এবং BERT-NER জটিল ভাষাগত প্যাটার্ন বুঝতে পারে। এই সমন্বয়ই সর্বোচ্চ নির্ভুলতা নিশ্চিত করে।

BERT-NER মেডিকেল টেক্সটে কেন খারাপ ফল করেছে?

মেডিকেল টেক্সটে ব্যবহৃত বিশেষ টার্মিনোলজি এবং অস্বাভাবিক ফরম্যাটের কারণে BERT-NER সঠিকভাবে PII সনাক্ত করতে পারেনি। মডেলটি সাধারণ ভাষায় প্রশিক্ষিত ছিল, তাই মেডিকেল প্রসঙ্গে এটি ব্যর্থ হয়েছে।

বাংলাদেশের ডেভেলপাররা এই গবেষণা থেকে কী শিখতে পারে?

বাংলাদেশি ডেভেলপাররা তাদের AI পাইপলাইনে Ensemble পদ্ধতি ব্যবহার করে PII সুরক্ষা আরও কার্যকর করতে পারেন। বিশেষ করে স্বাস্থ্যসেবা এবং ব্যাংকিং সেক্টরে এই পদ্ধতি গ্রাহকের তথ্য সুরক্ষায় গুরুত্বপূর্ণ ভূমিকা রাখতে পারে।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

AI গবেষণায় বাংলাদেশের সাফল্য: ব্যক্তিগত তথ্য শনাক্তে Ensemble পদ্ধতি ৪ গুণ বেশি কার্যকর

একটি সাম্প্রতিক গবেষণায় দেখা গেছে, ব্যক্তিগত তথ্য সনাক্তকরণে Ensemble পদ্ধতি সর্বোচ্চ F1 স্কোর 0.662 অর্জন করেছে। অন্যদিকে, BERT-NER একা মেডিকেল টেক্সটে মাত্র 0.167 F1 স্কোর পেয়েছে। এই পরীক্ষা 9টি ভিন্ন পরিস্থিতিতে চালানো হয়েছে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৫ দিন আগে · সূত্র: dev.to ML

AI গবেষণায় বাংলাদেশের সাফল্য: ব্যক্তিগত তথ্য শনাক্তে Ensemble পদ্ধতি ৪ গুণ বেশি কার্যকর

ব্যক্তিগত সনাক্তযোগ্য তথ্য বা PII সুরক্ষা এখন AI পাইপলাইনের একটি গুরুত্বপূর্ণ অংশ হয়ে উঠেছে। সম্প্রতি একটি গবেষণায় দেখা গেছে, Regex, BERT-NER এবং Ensemble এই তিনটি পদ্ধতির মধ্যে Ensemble পদ্ধতি সবচেয়ে ভালো ফল দিয়েছে। গবেষণাটি 9টি ভিন্ন পরিস্থিতিতে চালানো হয়েছে যার মধ্যে রয়েছে মেডিকেল, বাণিজ্যিক এবং কোড রিভিউ প্রসঙ্গ।

গবেষণার ফলাফল অনুযায়ী, Ensemble পদ্ধতি গড় F1 স্কোর 0.662 অর্জন করেছে। F1 স্কোর হলো একটি মেট্রিক যা মডেলের নির্ভুলতা এবং পূর্ণতা উভয়ই বিবেচনা করে। অন্যদিকে, BERT-NER পদ্ধতি একা মেডিকেল টেক্সটে খুব খারাপ ফল করেছে এবং এর F1 স্কোর ছিল মাত্র 0.167। Regex পদ্ধতি দ্রুত কাজ করলেও তা সব ধরনের PII সনাক্ত করতে পারেনি।

তিনটি পদ্ধতির ডিজাইন লজিক ভিন্ন ছিল। M1 বা Regex পদ্ধতি শুধুমাত্র ফরম্যাটের উপর ভিত্তি করে তথ্য সনাক্ত করে। যেমন এটি ফোন নম্বর, ইমেইল, আইডি কার্ড নম্বর এবং তারিখ সনাক্ত করতে পারে। এই পদ্ধতির বিলম্ব প্রায় শূন্য এবং প্রতি রেকর্ডে 0.3 মিলিসেকেন্ডের কম সময় নেয়।

M2 বা BERT-NER পদ্ধতি dslim/bert-base-NER মডেল ব্যবহার করে। এই পদ্ধতি ভাষা বুঝতে পারে কিন্তু মেডিকেল টেক্সটে এটি ব্যর্থ হয়েছে। গবেষণায় দেখা গেছে, মেডিকেল টার্মিনোলজি এবং অস্বাভাবিক ফরম্যাটের কারণে BERT-NER সঠিকভাবে PII সনাক্ত করতে পারেনি।

M3 বা Ensemble পদ্ধতি Regex এবং BERT-NER উভয়ের সমন্বয়। এটি প্রথমে Regex দিয়ে দ্রুত তথ্য সনাক্ত করে এবং তারপর BERT-NER দিয়ে জটিল কেসগুলি সমাধান করে। এই সমন্বয়ই সর্বোচ্চ F1 স্কোর অর্জন করতে সাহায্য করেছে।

বাংলাদেশের জন্য এই গবেষণার গুরুত্ব অনেক। বাংলাদেশে স্বাস্থ্যসেবা, ব্যাংকিং এবং ই-কমার্স সেক্টরে AI ব্যবহার বাড়ছে। এই সেক্টরগুলিতে গ্রাহকের ব্যক্তিগত তথ্য সুরক্ষা অত্যন্ত জরুরি। বাংলাদেশি ডেভেলপাররা এই Ensemble পদ্ধতি ব্যবহার করে তাদের AI পাইপলাইন আরও সুরক্ষিত করতে পারেন।

ভবিষ্যতে এই গবেষণা আরও উন্নত PII সনাক্তকরণ সিস্টেম তৈরিতে সাহায্য করবে। বিশেষ করে মেডিকেল টেক্সটের জন্য আলাদা মডেল তৈরির প্রয়োজনীয়তা দেখা দিয়েছে। গবেষকরা এখন আরও বড় ডেটাসেট এবং উন্নত মডেল নিয়ে কাজ করছেন।

AI গবেষণায় বাংলাদেশের সাফল্য: ব্যক্তিগত তথ্য শনাক্তে Ensemble পদ্ধতি ৪ গুণ বেশি কার্যকর

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০