জাপানি ভাষায় RAG সিস্টেমে DeepDoc বনাম MinerU: BM25-এ কে এগিয়ে?
চীনা ওপেন-সোর্স পার্সার DeepDoc ও MinerU-র মধ্যে জাপানি ভাষার RAG সিস্টেমে কে ভালো, তা নিয়ে গবেষণা প্রকাশ করেছে। BM25 রিট্রিভালে DeepDoc এগিয়ে থাকলেও ডেন্স রিট্রিভালে MinerU বেশি কার্যকরী প্রমাণিত হয়েছে।
চীনা ওপেন-সোর্স পার্সার DeepDoc ও MinerU-র মধ্যে জাপানি ভাষার RAG সিস্টেমে কে ভালো, তা নিয়ে গবেষণা প্রকাশ করেছে। BM25 রিট্রিভালে DeepDoc এগিয়ে থাকলেও ডেন্স রিট্রিভালে MinerU বেশি কার্যকরী প্রমাণিত হয়েছে।
চীনা ওপেন-সোর্স ডকুমেন্ট পার্সার DeepDoc এবং MinerU-র মধ্যে জাপানি ভাষার RAG সিস্টেমের জন্য কোনটি বেশি উপযোগী, তা নিয়ে একটি গবেষণা সম্প্রতি প্রকাশিত হয়েছে। dev.to ML প্ল্যাটফর্মে প্রকাশিত এই গবেষণায় দেখা গেছে, রিট্রিভাল পদ্ধতির ওপর নির্ভর করে পার্সার দুটির কার্যকারিতা ভিন্ন হয়। BM25 রিট্রিভাল পদ্ধতিতে DeepDoc ভালো ফল দিলেও ডেন্স রিট্রিভালে MinerU এগিয়ে রয়েছে।
গবেষণাটি একটি সিরিজের শেষ অংশ, যেখানে চীনা ওপেন-সোর্স পার্সারগুলোর জাপানি ডকুমেন্ট প্রক্রিয়াকরণ ক্ষমতা মূল্যায়ন করা হয়েছে। গবেষকরা RAGFlow-এর DeepDoc-কে সাধারণ টেক্সট এক্সট্রাকশনের সাথে তুলনা করে দেখেছেন যে লেআউট-অবগত পার্সিং রিট্রিভালের মান উন্নত করে। বিশেষ করে ডেন্স রিট্রিভাল পদ্ধতিতে এই উন্নতি বেশি লক্ষণীয়, কারণ এই পদ্ধতি চাঙ্ক কোহেরেন্সের ওপর বেশি নির্ভরশীল।
গবেষণার ফলাফল অনুযায়ী, BM25 রিট্রিভাল পদ্ধতিতে DeepDoc-এর পারফরম্যান্স MinerU-র চেয়ে ভালো। অন্যদিকে, ডেন্স রিট্রিভাল পদ্ধতিতে MinerU-র ফলাফল DeepDoc-কে ছাড়িয়ে গেছে। এর মূল কারণ হলো লেআউট-অবগত পার্সিং, যা ডকুমেন্টের স্ট্রাকচার বুঝে টেক্সটকে আরও অর্থবহ চাঙ্কে ভাগ করতে সাহায্য করে। ডেন্স রিট্রিভাল পদ্ধতি এই স্ট্রাকচার্ড চাঙ্ক থেকে বেশি উপকৃত হয়।
গবেষণার সম্পূর্ণ ডেটা এবং কোড GitHub রিপোজিটরিতে পাওয়া যাবে। সেখানে raw 3x2 ফলাফলও প্রকাশ করা হয়েছে। গবেষকরা জানিয়েছেন, এই ফলাফল জাপানি ভাষার RAG সিস্টেম তৈরিতে গুরুত্বপূর্ণ ভূমিকা রাখবে। বিশেষ করে যারা মাল্টিলিঙ্গুয়াল ডকুমেন্ট প্রসেসিং নিয়ে কাজ করছেন, তাদের জন্য এই তুলনা অত্যন্ত কার্যকরী।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই গবেষণা বিশেষ গুরুত্ব বহন করে। দেশে ইংরেজি ও বাংলার পাশাপাশি জাপানি ভাষার ডকুমেন্ট নিয়ে কাজ করার আগ্রহ বাড়ছে। এআই এবং মেশিন লার্নিং প্রকল্পে সঠিক পার্সার নির্বাচন করা সময় ও সম্পদ বাঁচাতে পারে। যারা RAG সিস্টেম ডেভেলপ করছেন, তারা এই গবেষণা থেকে বুঝতে পারবেন কোন পদ্ধতি তাদের প্রয়োজনের জন্য সবচেয়ে উপযুক্ত।
ভবিষ্যতে আরও ভাষা এবং আরও জটিল ডকুমেন্ট ফরম্যাট নিয়ে এই ধরনের তুলনামূলক গবেষণা হওয়া প্রয়োজন। গবেষকরা মনে করছেন, লেআউট-অবগত পার্সিংয়ের উন্নয়ন RAG সিস্টেমের কার্যকারিতা আরও বাড়িয়ে দেবে। বিশেষ করে ডেন্স রিট্রিভাল পদ্ধতির জন্য এটি একটি গুরুত্বপূর্ণ অগ্রগতি হিসেবে বিবেচিত হবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...