LIVE
টুলGoogle বনাম OpenAI মূল্য যুদ্ধে জিতে API বিল অর্ধেক করুনটুলAI এজেন্ট এখন GUI চালাতে পারে না, MCP-র পরবর্তী বিপ্লব কী আনবেইন্ডাস্ট্রিচীনের Z.ai দ্রুত এগিয়ে আসছে, বাংলাদেশের AI খাতে কী প্রভাব ফেলবেটুলবিনামূল্যে ফ্যাক্ট-চেকার রিয়েলিটি চেক: যেকোনো শিরোনামের সত্যতা ৪ ধাপে যাচাইহটGoogle-এর নতুন API-তে পুরনো AI সিস্টেম অচল, ডেভেলপারদের জন্য বড় পরিবর্তনটুলC ডেভেলপারদের জন্য বড় খবর: Promptfoo দিয়ে LLM আউটপুট টেস্টিং এখন সম্ভবইন্ডাস্ট্রিমেটা অর্ধেক কনটেন্ট মডারেশন AI-তে দিচ্ছে, কর্মীদের উদ্বেগ বাড়ছেগবেষণাNetflix-এর AI ভিডিও এডিটিং: বাংলাদেশি ফ্রিল্যান্সারদের কাজ বদলে দেবেইন্ডাস্ট্রিAI ডিউ ডিলিজেন্সের সময় অর্ধেক, বাংলাদেশি আইন পেশায় বড় পরিবর্তনইন্ডাস্ট্রিগুগল হারাচ্ছে শীর্ষ AI গবেষকরা, প্রতিদ্বন্দ্বীদের কাছে চলে যাচ্ছে যারামডেলClaude-তে ৯০% পর্যন্ত খরচ কমানো যাবে, শুধু সঠিক অবকাঠামো থাকলেটুলক্লদ কোডের ৮৭.৬% স্কোর: বাংলাদেশি ডেভেলপারদের জন্য AI টুলসের নতুন দিগন্তটুলGoogle বনাম OpenAI মূল্য যুদ্ধে জিতে API বিল অর্ধেক করুনটুলAI এজেন্ট এখন GUI চালাতে পারে না, MCP-র পরবর্তী বিপ্লব কী আনবেইন্ডাস্ট্রিচীনের Z.ai দ্রুত এগিয়ে আসছে, বাংলাদেশের AI খাতে কী প্রভাব ফেলবেটুলবিনামূল্যে ফ্যাক্ট-চেকার রিয়েলিটি চেক: যেকোনো শিরোনামের সত্যতা ৪ ধাপে যাচাইহটGoogle-এর নতুন API-তে পুরনো AI সিস্টেম অচল, ডেভেলপারদের জন্য বড় পরিবর্তনটুলC ডেভেলপারদের জন্য বড় খবর: Promptfoo দিয়ে LLM আউটপুট টেস্টিং এখন সম্ভবইন্ডাস্ট্রিমেটা অর্ধেক কনটেন্ট মডারেশন AI-তে দিচ্ছে, কর্মীদের উদ্বেগ বাড়ছেগবেষণাNetflix-এর AI ভিডিও এডিটিং: বাংলাদেশি ফ্রিল্যান্সারদের কাজ বদলে দেবেইন্ডাস্ট্রিAI ডিউ ডিলিজেন্সের সময় অর্ধেক, বাংলাদেশি আইন পেশায় বড় পরিবর্তনইন্ডাস্ট্রিগুগল হারাচ্ছে শীর্ষ AI গবেষকরা, প্রতিদ্বন্দ্বীদের কাছে চলে যাচ্ছে যারামডেলClaude-তে ৯০% পর্যন্ত খরচ কমানো যাবে, শুধু সঠিক অবকাঠামো থাকলেটুলক্লদ কোডের ৮৭.৬% স্কোর: বাংলাদেশি ডেভেলপারদের জন্য AI টুলসের নতুন দিগন্ত
হোম/নিউজ/মডেল
মডেল৫ মিনিট পড়া

বাইডুর ওপেনসোর্স OCR মডেলে লম্বা ডকুমেন্ট পার্সিং ৩ গুণ দ্রুত হবে

Baidu তাদের 3B প্যারামিটার MoE মডেল Unlimited OCR ওপেনসোর্স করেছে। এটি Reference Sliding Window Attention প্রযুক্তি ব্যবহার করে KV Cache স্থির রেখে লম্বা ডকুমেন্ট পার্স করে। মডেলটি OmniDocBench বেঞ্চমার্কে DeepSeek OCR-কে 6.22 পয়েন্টে হারিয়ে নতুন রেকর্ড গড়েছে।

M
সম্পাদকীয় টিম
স্টাফ রিপোর্টার · ৭ ঘণ্টা আগে · সূত্র: MarkTechPost
বাইডুর ওপেনসোর্স OCR মডেলে লম্বা ডকুমেন্ট পার্সিং ৩ গুণ দ্রুত হবে

Baidu তাদের 3B প্যারামিটার MoE মডেল Unlimited OCR ওপেনসোর্স করেছে। এটি Reference Sliding Window Attention প্রযুক্তি ব্যবহার করে KV Cache স্থির রেখে লম্বা ডকুমেন্ট পার্স করে। মডেলটি OmniDocBench বেঞ্চমার্কে DeepSeek OCR-কে 6.22 পয়েন্টে হারিয়ে নতুন রেকর্ড গড়েছে।

চীনের প্রযুক্তি জায়ান্ট Baidu তাদের নতুন ওপেনসোর্স মডেল Unlimited OCR প্রকাশ করেছে। এটি একটি 3B প্যারামিটার Mixture of Experts (MoE) মডেল যা একবারেই ডজন ডজন পৃষ্ঠার ডকুমেন্ট পার্স করতে পারে। MarkTechPost এই খবর প্রথম প্রকাশ করেছে।

Unlimited OCR এর সবচেয়ে বড় বৈশিষ্ট্য হলো এর Reference Sliding Window Attention (R-SWA) প্রযুক্তি। এই প্রযুক্তি KV Cache (Key-Value Cache) কে স্থির রাখে। ফলে আউটপুট বাড়লেও মেমোরি এবং লেটেন্সি একই থাকে। এটি লম্বা ডকুমেন্ট পার্সিং-এর সময় মডেলটিকে অত্যন্ত দক্ষ করে তোলে।

মডেলটি OmniDocBench v1.5 বেঞ্চমার্কে 93.23 স্কোর করেছে। এটি DeepSeek OCR-এর 87.01 স্কোরকে 6.22 পয়েন্টে ছাড়িয়ে গেছে। Baidu Unlimited OCR MIT লাইসেন্সের অধীনে প্রকাশ করেছে। ফলে ডেভেলপাররা বাণিজ্যিক ও অ-বাণিজ্যিক উভয় ক্ষেত্রেই এটি ব্যবহার করতে পারবে।

প্রথাগত OCR মডেলগুলো লম্বা ডকুমেন্ট প্রক্রিয়া করতে গেলে মেমোরি এবং লেটেন্সি সমস্যায় পড়ে। কারণ আউটপুট বাড়লে KV Cache বড় হতে থাকে। R-SWA এই সমস্যা সমাধান করে একটি নির্দিষ্ট রেফারেন্স উইন্ডো ব্যবহার করে। ফলে ক্যাশের আকার স্থির থাকে এবং প্রক্রিয়াকরণ দ্রুত হয়।

বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এটি একটি বড় সুযোগ। অনেক সময় স্ক্যান করা বই, দীর্ঘ চুক্তিপত্র বা একাডেমিক পেপার প্রক্রিয়া করতে হয়। Unlimited OCR ব্যবহার করে তারা দ্রুত এবং নির্ভুলভাবে এই কাজ করতে পারবে। এছাড়া ডিজিটাল আর্কাইভিং, আইনি ডকুমেন্ট বিশ্লেষণ এবং গবেষণা কাজেও এটি অত্যন্ত কার্যকর হবে।

বাংলাদেশের স্টার্টআপ এবং টেক কোম্পানিগুলোও এই মডেল ব্যবহার করে নিজেদের প্রোডাক্ট উন্নত করতে পারে। বর্তমানে ডকুমেন্ট প্রক্রিয়াকরণের জন্য অনেক কোম্পানি ব্যয়বহুল API ব্যবহার করে। Unlimited OCR ওপেনসোর্স হওয়ায় তারা বিনামূল্যে এটি ডিপ্লয় করতে পারবে।

মডেলটি সম্পূর্ণ ওপেনসোর্স এবং MIT লাইসেন্সের অধীনে পাওয়া যাচ্ছে। এটি Hugging Face প্ল্যাটফর্মে ডাউনলোড করা যাবে। Baidu আশা করছে এই মডেল লম্বা ডকুমেন্ট পার্সিং-এর ক্ষেত্রে নতুন মানদণ্ড স্থাপন করবে।

আরও পড়ুন

🌐 তথ্যসূত্র ও স্বচ্ছতা

এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।

ট্যাগ:#মডেল#AI#বাংলাদেশ#MarkTechPost
AD
📧

AI নিউজ সরাসরি ইমেইলে পান

প্রতিদিনের সেরা AI খবর বাছাই করে আপনার inbox-এ পাঠাই। বিজ্ঞাপন নেই।

মূল প্রতিবেদন: MarkTechPost

সোর্স দেখুন ↗

মন্তব্য

লোড হচ্ছে...