AI এখন টেক্সট ও ছবি একই ভাষায় বুঝবে, আপনার কাজ বদলে যাবে
একটি নতুন গবেষণায় দেখা গেছে, ভিন্ন ভিন্ন মোডালিটি থেকে আসা ডেটা AI মডেলের ল্যাটেন্ট স্পেসে একই রকম প্যাটার্নে সাজানো হয়। এই আবিষ্কার প্লেটোনিক রিপ্রেজেন্টেশন হাইপোথিসিসকে সমর্থন করে এবং ভবিষ্যতে আরও শক্তিশালী মাল্টিমোডাল AI তৈরির পথ দেখাতে পারে।
একটি নতুন গবেষণায় দেখা গেছে, ভিন্ন ভিন্ন মোডালিটি থেকে আসা ডেটা AI মডেলের ল্যাটেন্ট স্পেসে একই রকম প্যাটার্নে সাজানো হয়। এই আবিষ্কার প্লেটোনিক রিপ্রেজেন্টেশন হাইপোথিসিসকে সমর্থন করে এবং ভবিষ্যতে আরও শক্তিশালী মাল্টিমোডাল AI তৈরির পথ দেখাতে পারে।
AI মডেলগুলো বিভিন্ন ধরনের ইনপুট থেকে শেখে। ভিজুয়াল ইমেজ, টেক্সট বা অডিও সবই মডেলের জন্য আলাদা মোডালিটি। এই সব তথ্য মডেল ‘ল্যাটেন্ট স্পেস’ নামে একটি সংকুচিত, বিমূর্ত গাণিতিক জায়গায় ভেক্টর আকারে সংরক্ষণ করে। সম্প্রতি dev.to ML-এ প্রকাশিত একটি গবেষণা দেখিয়েছে, এই ল্যাটেন্ট স্পেসে ভিন্ন মোডালিটির তথ্য কীভাবে সংগঠিত হয়।
গবেষণাটি প্লেটোনিক রিপ্রেজেন্টেশন হাইপোথিসিস নামক একটি তত্ত্বের ছোট পরিসরে ভিজুয়ালাইজেশন করেছে। এই হাইপোথিসিস বলে, বিভিন্ন মোডালিটি থেকে আসা ডেটা প্রশিক্ষণের পর ল্যাটেন্ট স্পেসে একই ধরনের জ্যামিতিক কাঠামো তৈরি করে। অর্থাৎ, একটি বিড়ালের ছবি এবং ‘বিড়াল’ শব্দটি মডেলের ভেতরে একই অঞ্চলে জমা হয়। গবেষকরা একটি ছোট নিউরাল নেটওয়ার্ক তৈরি করে ভিজুয়াল এবং সিমেন্টিক মোডালিটির তথ্য আলাদাভাবে প্রশিক্ষণ দিয়েছেন।
ফলাফলে দেখা গেছে, দুটি ভিন্ন মোডালিটি থেকে শেখা তথ্যের ক্লাস্টারিং প্যাটার্ন প্রায় একই রকম। গবেষকরা ল্যাটেন্ট স্পেসের একটি 2D প্রজেকশন তৈরি করে দেখিয়েছেন যে একই ক্যাটাগরির ডেটা পয়েন্টগুলো কাছাকাছি জায়গায় জড়ো হয়েছে। উদাহরণস্বরূপ, গোলাকার বস্তুর ছবি এবং ‘গোলাকার’ ধারণার টেক্সট ভেক্টরগুলো ল্যাটেন্ট স্পেসের একই অঞ্চলে অবস্থান করছে। এটি প্রমাণ করে যে মডেলটি শুধু পৃষ্ঠতলের বৈশিষ্ট্য নয়, বরং গভীর ধারণাগত সম্পর্কও শিখছে।
এই গবেষণার গুরুত্ব অপরিসীম। বর্তমান সময়ের বড় বড় মাল্টিমোডাল মডেল যেমন GPT-4V বা Gemini ভিজুয়াল এবং টেক্সট উভয় ধরনের ডেটা একসঙ্গে প্রক্রিয়া করে। প্লেটোনিক রিপ্রেজেন্টেশন হাইপোথিসিস সত্য হলে, এর মানে দাঁড়ায় যে ভবিষ্যতে আমরা একটি মোডালিটিতে শেখানো মডেল সহজেই অন্য মোডালিটিতে স্থানান্তর করতে পারব। এটি ট্রান্সফার লার্নিংকে আরও কার্যকর করবে এবং মডেল প্রশিক্ষণের খরচ কমিয়ে দেবে।
বাংলাদেশের ডেভেলপার ও গবেষকদের জন্য এই গবেষণার সরাসরি প্রভাব রয়েছে। দেশে AI নিয়ে কাজ করা অনেক স্টার্টআপ এবং ফ্রিল্যান্সার ইমেজ ক্লাসিফিকেশন বা ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং নিয়ে কাজ করেন। এই হাইপোথিসিস বোঝা তাদের মডেল ডিজাইনে সাহায্য করতে পারে। উদাহরণস্বরূপ, একটি ইমেজ ক্যাপশনিং মডেল তৈরি করতে গেলে এখন আলাদাভাবে ভিজুয়াল এবং ল্যাঙ্গুয়েজ মডেল ট্রেনিং করতে হয়। কিন্তু এই তত্ত্ব প্রমাণিত হলে, একটি মডেলকে শুধু ছবি দেখিয়েই টেক্সট জেনারেট করতে শেখানো সম্ভব হবে।
গবেষণাটি এখনো প্রাথমিক পর্যায়ে রয়েছে। বড় পরিসরে এবং বাস্তব জগতের জটিল ডেটাসেটে এই হাইপোথিসিস পরীক্ষা করা বাকি। তবে ছোট পরিসরের এই ভিজুয়ালাইজেশন AI গবেষণার একটি গুরুত্বপূর্ণ ধারণাকে বাস্তব প্রমাণের কাছাকাছি নিয়ে গেছে। ভবিষ্যতে এই পদ্ধতি ব্যবহার করে আরও দক্ষ এবং অভিন্ন মাল্টিমোডাল মডেল তৈরি করা সম্ভব হবে বলে আশা করা যাচ্ছে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...