বাইডুর ওপেনসোর্স OCR মডেলে লম্বা ডকুমেন্ট পার্সিং ৩ গুণ দ্রুত হবে
Baidu তাদের 3B প্যারামিটার MoE মডেল Unlimited OCR ওপেনসোর্স করেছে। এটি Reference Sliding Window Attention প্রযুক্তি ব্যবহার করে KV Cache স্থির রেখে লম্বা ডকুমেন্ট পার্স করে। মডেলটি OmniDocBench বেঞ্চমার্কে DeepSeek OCR-কে 6.22 পয়েন্টে হারিয়ে নতুন রেকর্ড গড়েছে।
Baidu তাদের 3B প্যারামিটার MoE মডেল Unlimited OCR ওপেনসোর্স করেছে। এটি Reference Sliding Window Attention প্রযুক্তি ব্যবহার করে KV Cache স্থির রেখে লম্বা ডকুমেন্ট পার্স করে। মডেলটি OmniDocBench বেঞ্চমার্কে DeepSeek OCR-কে 6.22 পয়েন্টে হারিয়ে নতুন রেকর্ড গড়েছে।
চীনের প্রযুক্তি জায়ান্ট Baidu তাদের নতুন ওপেনসোর্স মডেল Unlimited OCR প্রকাশ করেছে। এটি একটি 3B প্যারামিটার Mixture of Experts (MoE) মডেল যা একবারেই ডজন ডজন পৃষ্ঠার ডকুমেন্ট পার্স করতে পারে। MarkTechPost এই খবর প্রথম প্রকাশ করেছে।
Unlimited OCR এর সবচেয়ে বড় বৈশিষ্ট্য হলো এর Reference Sliding Window Attention (R-SWA) প্রযুক্তি। এই প্রযুক্তি KV Cache (Key-Value Cache) কে স্থির রাখে। ফলে আউটপুট বাড়লেও মেমোরি এবং লেটেন্সি একই থাকে। এটি লম্বা ডকুমেন্ট পার্সিং-এর সময় মডেলটিকে অত্যন্ত দক্ষ করে তোলে।
মডেলটি OmniDocBench v1.5 বেঞ্চমার্কে 93.23 স্কোর করেছে। এটি DeepSeek OCR-এর 87.01 স্কোরকে 6.22 পয়েন্টে ছাড়িয়ে গেছে। Baidu Unlimited OCR MIT লাইসেন্সের অধীনে প্রকাশ করেছে। ফলে ডেভেলপাররা বাণিজ্যিক ও অ-বাণিজ্যিক উভয় ক্ষেত্রেই এটি ব্যবহার করতে পারবে।
প্রথাগত OCR মডেলগুলো লম্বা ডকুমেন্ট প্রক্রিয়া করতে গেলে মেমোরি এবং লেটেন্সি সমস্যায় পড়ে। কারণ আউটপুট বাড়লে KV Cache বড় হতে থাকে। R-SWA এই সমস্যা সমাধান করে একটি নির্দিষ্ট রেফারেন্স উইন্ডো ব্যবহার করে। ফলে ক্যাশের আকার স্থির থাকে এবং প্রক্রিয়াকরণ দ্রুত হয়।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এটি একটি বড় সুযোগ। অনেক সময় স্ক্যান করা বই, দীর্ঘ চুক্তিপত্র বা একাডেমিক পেপার প্রক্রিয়া করতে হয়। Unlimited OCR ব্যবহার করে তারা দ্রুত এবং নির্ভুলভাবে এই কাজ করতে পারবে। এছাড়া ডিজিটাল আর্কাইভিং, আইনি ডকুমেন্ট বিশ্লেষণ এবং গবেষণা কাজেও এটি অত্যন্ত কার্যকর হবে।
বাংলাদেশের স্টার্টআপ এবং টেক কোম্পানিগুলোও এই মডেল ব্যবহার করে নিজেদের প্রোডাক্ট উন্নত করতে পারে। বর্তমানে ডকুমেন্ট প্রক্রিয়াকরণের জন্য অনেক কোম্পানি ব্যয়বহুল API ব্যবহার করে। Unlimited OCR ওপেনসোর্স হওয়ায় তারা বিনামূল্যে এটি ডিপ্লয় করতে পারবে।
মডেলটি সম্পূর্ণ ওপেনসোর্স এবং MIT লাইসেন্সের অধীনে পাওয়া যাচ্ছে। এটি Hugging Face প্ল্যাটফর্মে ডাউনলোড করা যাবে। Baidu আশা করছে এই মডেল লম্বা ডকুমেন্ট পার্সিং-এর ক্ষেত্রে নতুন মানদণ্ড স্থাপন করবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: MarkTechPost
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...