LIVE
টুলAI ট্রেডিং বটে বড় ফাঁক: রিয়েল-টাইম ডেটা ছাড়া লাভের আশা নেইইন্ডাস্ট্রিOpenAI-এর বিরুদ্ধে তদন্তে যুক্তরাষ্ট্রের একাধিক রাজ্য, বাংলাদেশি ফ্রিল্যান্সারদের কী প্রভাব পড়বেটুলকোডবেস এক কমান্ডেই LLM-রেডি ফাইল, টোকেন কাউন্ট সহ প্যাক করুনটুলআপনার AI Agent কি নীরবে ব্যর্থ হচ্ছে? জানুন কীভাবে ধরবেনমডেলমেশিন লার্নিং এখন ব্যবসার চালিকাশক্তি, জানুন কীভাবে প্রোডাকশনে নেবেনইন্ডাস্ট্রিAnthropic শীর্ষ AI মডেল বন্ধ, বাংলাদেশের গবেষকদের কী প্রভাব পড়বেটুলDeepSeek API-তে ১৮% রিকোয়েস্ট ব্যর্থ, CTO-দের জন্য জরুরি সমাধান গাইডমডেলAnthropic-এর Fable 5 ও Mythos 5 বন্ধ, বাংলাদেশি ফ্রিল্যান্সারদের কী প্রভাব পড়বে?টুলবাংলাদেশি ক্রিয়েটরদের জন্য বড় খবর: AI এজেন্ট এখন নিজেই ভাইরাল টিকটক স্ক্রিপ্ট লিখে দেবেমডেলচীনের ফ্রি AI মডেল GPT-5.5-এর সমান, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগইন্ডাস্ট্রিপ্লেস্টেশন-মেটার বয়স যাচাইয়ে আপনার ছবি চলে যাচ্ছে অপরিচিতের হাতেটুল৭০০ AI টুলের গাইডে ডিজাইনার-মার্কেটারদের কাজ বদলে দেবে ২০২৬টুলAI ট্রেডিং বটে বড় ফাঁক: রিয়েল-টাইম ডেটা ছাড়া লাভের আশা নেইইন্ডাস্ট্রিOpenAI-এর বিরুদ্ধে তদন্তে যুক্তরাষ্ট্রের একাধিক রাজ্য, বাংলাদেশি ফ্রিল্যান্সারদের কী প্রভাব পড়বেটুলকোডবেস এক কমান্ডেই LLM-রেডি ফাইল, টোকেন কাউন্ট সহ প্যাক করুনটুলআপনার AI Agent কি নীরবে ব্যর্থ হচ্ছে? জানুন কীভাবে ধরবেনমডেলমেশিন লার্নিং এখন ব্যবসার চালিকাশক্তি, জানুন কীভাবে প্রোডাকশনে নেবেনইন্ডাস্ট্রিAnthropic শীর্ষ AI মডেল বন্ধ, বাংলাদেশের গবেষকদের কী প্রভাব পড়বেটুলDeepSeek API-তে ১৮% রিকোয়েস্ট ব্যর্থ, CTO-দের জন্য জরুরি সমাধান গাইডমডেলAnthropic-এর Fable 5 ও Mythos 5 বন্ধ, বাংলাদেশি ফ্রিল্যান্সারদের কী প্রভাব পড়বে?টুলবাংলাদেশি ক্রিয়েটরদের জন্য বড় খবর: AI এজেন্ট এখন নিজেই ভাইরাল টিকটক স্ক্রিপ্ট লিখে দেবেমডেলচীনের ফ্রি AI মডেল GPT-5.5-এর সমান, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগইন্ডাস্ট্রিপ্লেস্টেশন-মেটার বয়স যাচাইয়ে আপনার ছবি চলে যাচ্ছে অপরিচিতের হাতেটুল৭০০ AI টুলের গাইডে ডিজাইনার-মার্কেটারদের কাজ বদলে দেবে ২০২৬
হোম/নিউজ/রিসার্চ
রিসার্চ৫ মিনিট পড়া

জাপানি ভাষায় RAG সিস্টেমে DeepDoc বনাম MinerU: BM25-এ কে এগিয়ে?

চীনা ওপেন-সোর্স পার্সার DeepDoc ও MinerU-র মধ্যে জাপানি ভাষার RAG সিস্টেমে কে ভালো, তা নিয়ে গবেষণা প্রকাশ করেছে। BM25 রিট্রিভালে DeepDoc এগিয়ে থাকলেও ডেন্স রিট্রিভালে MinerU বেশি কার্যকরী প্রমাণিত হয়েছে।

d
সম্পাদকীয় টিম
স্টাফ রিপোর্টার · ৩ ঘণ্টা আগে · সূত্র: dev.to ML
জাপানি ভাষায় RAG সিস্টেমে DeepDoc বনাম MinerU: BM25-এ কে এগিয়ে?

চীনা ওপেন-সোর্স পার্সার DeepDoc ও MinerU-র মধ্যে জাপানি ভাষার RAG সিস্টেমে কে ভালো, তা নিয়ে গবেষণা প্রকাশ করেছে। BM25 রিট্রিভালে DeepDoc এগিয়ে থাকলেও ডেন্স রিট্রিভালে MinerU বেশি কার্যকরী প্রমাণিত হয়েছে।

চীনা ওপেন-সোর্স ডকুমেন্ট পার্সার DeepDoc এবং MinerU-র মধ্যে জাপানি ভাষার RAG সিস্টেমের জন্য কোনটি বেশি উপযোগী, তা নিয়ে একটি গবেষণা সম্প্রতি প্রকাশিত হয়েছে। dev.to ML প্ল্যাটফর্মে প্রকাশিত এই গবেষণায় দেখা গেছে, রিট্রিভাল পদ্ধতির ওপর নির্ভর করে পার্সার দুটির কার্যকারিতা ভিন্ন হয়। BM25 রিট্রিভাল পদ্ধতিতে DeepDoc ভালো ফল দিলেও ডেন্স রিট্রিভালে MinerU এগিয়ে রয়েছে।

গবেষণাটি একটি সিরিজের শেষ অংশ, যেখানে চীনা ওপেন-সোর্স পার্সারগুলোর জাপানি ডকুমেন্ট প্রক্রিয়াকরণ ক্ষমতা মূল্যায়ন করা হয়েছে। গবেষকরা RAGFlow-এর DeepDoc-কে সাধারণ টেক্সট এক্সট্রাকশনের সাথে তুলনা করে দেখেছেন যে লেআউট-অবগত পার্সিং রিট্রিভালের মান উন্নত করে। বিশেষ করে ডেন্স রিট্রিভাল পদ্ধতিতে এই উন্নতি বেশি লক্ষণীয়, কারণ এই পদ্ধতি চাঙ্ক কোহেরেন্সের ওপর বেশি নির্ভরশীল।

গবেষণার ফলাফল অনুযায়ী, BM25 রিট্রিভাল পদ্ধতিতে DeepDoc-এর পারফরম্যান্স MinerU-র চেয়ে ভালো। অন্যদিকে, ডেন্স রিট্রিভাল পদ্ধতিতে MinerU-র ফলাফল DeepDoc-কে ছাড়িয়ে গেছে। এর মূল কারণ হলো লেআউট-অবগত পার্সিং, যা ডকুমেন্টের স্ট্রাকচার বুঝে টেক্সটকে আরও অর্থবহ চাঙ্কে ভাগ করতে সাহায্য করে। ডেন্স রিট্রিভাল পদ্ধতি এই স্ট্রাকচার্ড চাঙ্ক থেকে বেশি উপকৃত হয়।

গবেষণার সম্পূর্ণ ডেটা এবং কোড GitHub রিপোজিটরিতে পাওয়া যাবে। সেখানে raw 3x2 ফলাফলও প্রকাশ করা হয়েছে। গবেষকরা জানিয়েছেন, এই ফলাফল জাপানি ভাষার RAG সিস্টেম তৈরিতে গুরুত্বপূর্ণ ভূমিকা রাখবে। বিশেষ করে যারা মাল্টিলিঙ্গুয়াল ডকুমেন্ট প্রসেসিং নিয়ে কাজ করছেন, তাদের জন্য এই তুলনা অত্যন্ত কার্যকরী।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই গবেষণা বিশেষ গুরুত্ব বহন করে। দেশে ইংরেজি ও বাংলার পাশাপাশি জাপানি ভাষার ডকুমেন্ট নিয়ে কাজ করার আগ্রহ বাড়ছে। এআই এবং মেশিন লার্নিং প্রকল্পে সঠিক পার্সার নির্বাচন করা সময় ও সম্পদ বাঁচাতে পারে। যারা RAG সিস্টেম ডেভেলপ করছেন, তারা এই গবেষণা থেকে বুঝতে পারবেন কোন পদ্ধতি তাদের প্রয়োজনের জন্য সবচেয়ে উপযুক্ত।

ভবিষ্যতে আরও ভাষা এবং আরও জটিল ডকুমেন্ট ফরম্যাট নিয়ে এই ধরনের তুলনামূলক গবেষণা হওয়া প্রয়োজন। গবেষকরা মনে করছেন, লেআউট-অবগত পার্সিংয়ের উন্নয়ন RAG সিস্টেমের কার্যকারিতা আরও বাড়িয়ে দেবে। বিশেষ করে ডেন্স রিট্রিভাল পদ্ধতির জন্য এটি একটি গুরুত্বপূর্ণ অগ্রগতি হিসেবে বিবেচিত হবে।

আরও পড়ুন

🌐 তথ্যসূত্র ও স্বচ্ছতা

এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।

ট্যাগ:#রিসার্চ#AI#বাংলাদেশ#dev.to ML
AD
📧

AI নিউজ সরাসরি ইমেইলে পান

প্রতিদিনের সেরা AI খবর বাছাই করে আপনার inbox-এ পাঠাই। বিজ্ঞাপন নেই।

মূল প্রতিবেদন: dev.to ML

সোর্স দেখুন ↗

মন্তব্য

লোড হচ্ছে...