বাংলাদেশে AI গবেষণায় নতুন দিগন্ত: ওপেন সোর্স SpatialTree ১২.৪% বেশি নির্ভুল
ByteDance Seed-এর নতুন SpatialTree মডেল GPT-4V-কে ১২.৪ পয়েন্টে পিছনে ফেলে স্থানিক যুক্তিতে ৭৯.৮% নির্ভুলতা অর্জন করেছে। পিকিং বিশ্ববিদ্যালয়ের সহযোগিতায় তৈরি এই ফ্রেমওয়ার্কটি CVPR 2026-এ ওপেন সোর্স করা হয়েছে। এটি মাল্টিমোডাল AI-র দুর্বলতম দিকগুলোর একটি সমাধান করবে বলে আশা করা হচ্ছে।
ByteDance Seed-এর নতুন SpatialTree মডেল GPT-4V-কে ১২.৪ পয়েন্টে পিছনে ফেলে স্থানিক যুক্তিতে ৭৯.৮% নির্ভুলতা অর্জন করেছে। পিকিং বিশ্ববিদ্যালয়ের সহযোগিতায় তৈরি এই ফ্রেমওয়ার্কটি CVPR 2026-এ ওপেন সোর্স করা হয়েছে। এটি মাল্টিমোডাল AI-র দুর্বলতম দিকগুলোর একটি সমাধান করবে বলে আশা করা হচ্ছে।
বাইটড্যান্স সিড তার নতুন স্পেশিয়ালট্রি মডেল দিয়ে কৃত্রিম বুদ্ধিমত্তার জগতে এক নতুন দিগন্ত উন্মোচন করেছে। এই মডেলটি মাল্টিমোডাল লার্জ ল্যাঙ্গুয়েজ মডেল বা MLLM-এর স্থানিক যুক্তি বা স্পেশিয়াল রিজনিং ক্ষমতা ১২.৪ শতাংশ বাড়িয়ে দিয়েছে। গবেষণাপত্রটি বিশ্বের সবচেয়ে সম্মানিত কম্পিউটার ভিশন কনফারেন্স CVPR 2026-এ গৃহীত হয়েছে এবং তা ওপেন সোর্স হিসেবে প্রকাশিত হয়েছে।
স্থানিক যুক্তি একটি AI সিস্টেমের জন্য অত্যন্ত জটিল একটি দক্ষতা। এটি একটি ছবির মধ্যে বস্তুগুলোর অবস্থান, আপেক্ষিক দূরত্ব এবং সম্পর্ক বোঝার ক্ষমতা। উদাহরণস্বরূপ, একটি টেবিলের ওপর গ্লাসটি কাপের বামে নাকি ডানে আছে তা বোঝা। বর্তমান MLLM-গুলোতে এই দক্ষতা খুবই দুর্বল। স্পেশিয়ালট্রি এই সমস্যার সমাধান করেছে হায়ারার্কিক্যাল স্পেশিয়াল ডিকম্পোজিশন বা স্তরভিত্তিক স্থানিক বিভাজন পদ্ধতি ব্যবহার করে।
স্পেশিয়ালট্রি একটি ছবিকে প্রথমে বড় অঞ্চলে ভাগ করে। তারপর প্রতিটি অঞ্চলের ভেতরে ছোট ছোট বস্তু এবং তাদের সম্পর্ক বিশ্লেষণ করে। এই পদ্ধতি মডেলটিকে ধাপে ধাপে জটিল স্থানিক তথ্য বুঝতে সাহায্য করে। ফলস্বরূপ, মডেলটি SEAL-Bench নামক বেঞ্চমার্কে ৭৯.৮ শতাংশ নির্ভুলতা অর্জন করেছে। তুলনামূলকভাবে, ওপেনএআই-এর GPT-4V একই পরীক্ষায় মাত্র ৬৭.৪ শতাংশ নির্ভুলতা দেখিয়েছে।
এই প্রকল্পটি বাইটড্যান্স সিড পিকিং বিশ্ববিদ্যালয় এবং অন্যান্য একাডেমিক অংশীদারদের সহযোগিতায় তৈরি করেছে। গবেষকরা জানিয়েছেন, স্পেশিয়ালট্রি শুধু নির্ভুলতায় এগিয়ে নয়, বরং এটি আরও স্বচ্ছ এবং ব্যাখ্যাযোগ্য। মডেলটি তার যুক্তির প্রতিটি ধাপ দেখাতে পারে, যা ডিবাগিং এবং বিশ্বাসযোগ্যতার জন্য গুরুত্বপূর্ণ।
বাংলাদেশের জন্য এই গবেষণার বিশেষ গুরুত্ব রয়েছে। দেশের উদীয়মান AI স্টার্টআপ এবং গবেষকরা এই ওপেন সোর্স মডেলটি ব্যবহার করে নিজেদের প্রোজেক্টে স্থানিক বোধশক্তি সংযোজন করতে পারবেন। উদাহরণস্বরূপ, স্বয়ংক্রিয় ড্রোন নেভিগেশন, রোবোটিক্স এবং ই-কমার্সে পণ্য শনাক্তকরণ সিস্টেমে এটি কাজে লাগতে পারে। ফ্রিল্যান্সার এবং শিক্ষার্থীরাও এই কোড এবং গবেষণাপত্র থেকে শিখতে পারবেন।
ভবিষ্যতে স্পেশিয়ালট্রি আরও উন্নত হবে বলে আশা করা হচ্ছে। বাইটড্যান্স সিড ইতিমধ্যে ঘোষণা করেছে যে তারা রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য মডেলটিকে হালকা করার কাজ করছে। AI-র স্থানিক বোধশক্তি উন্নত হলে স্বায়ত্তশাসিত যানবাহন থেকে শুরু করে মেডিকেল ইমেজিং পর্যন্ত অসংখ্য ক্ষেত্রে বৈপ্লবিক পরিবর্তন আসতে পারে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...