ডিফিউশন ল্যাঙ্গুয়েজ মডেল কীভাবে কাজ করে?

ডিফিউশন ল্যাঙ্গুয়েজ মডেল একসঙ্গে অনেকগুলো টোকেন ডিকোড করতে পারে। এটি অটোরিগ্রেসিভ মডেলের চেয়ে দ্রুত কারণ এটি ধাপে ধাপে একটির পরিবর্তে একাধিক টোকেন একসঙ্গে তৈরি করে।

অ্যাপলের নতুন পদ্ধতি কীভাবে পুরনো পদ্ধতির চেয়ে ভালো?

পুরনো পদ্ধতি কম আত্মবিশ্বাসী টোকেন ফেলে দিয়ে গণনা নষ্ট করত। অ্যাপলের পদ্ধতি সেই টোকেনগুলো পুনর্ব্যবহার করে, ফলে মডেল আরও নির্ভুল ও দ্রুত হয় এবং কম শক্তি খরচ করে।

বাংলাদেশের ডেভেলপাররা এই গবেষণা থেকে কীভাবে লাভবান হতে পারে?

বাংলাদেশের ডেভেলপাররা এই পদ্ধতি ব্যবহার করে কম কম্পিউটিং শক্তিতে বেশি কার্যকর ভাষার মডেল তৈরি করতে পারবে। এটি মোবাইল ও প্রান্তীয় ডিভাইসে AI চালানোর খরচ কমাবে এবং স্থানীয় ভাষাভিত্তিক অ্যাপ তৈরিতে সাহায্য করবে।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

অ্যাপলের নতুন কৌশলে AI মডেল ৩ গুণ দ্রুত হবে, জানুন কী লাভ

অ্যাপলের গবেষকরা ডিফিউশন ল্যাঙ্গুয়েজ মডেলের অদক্ষতা দূর করতে একটি নতুন পদ্ধতি প্রস্তাব করেছে। তারা দেখিয়েছে যে কম আত্মবিশ্বাসের টোকেন ফেলে না দিয়ে পুনর্ব্যবহার করলে মডেলের কার্যক্ষমতা ও গতি উভয়ই বাড়ে। এই গবেষণা বড় ভাষার মডেলের ভবিষ্যৎ পরিবর্তন করতে পারে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · গতকাল · সূত্র: Apple ML Research

অ্যাপলের নতুন কৌশলে AI মডেল ৩ গুণ দ্রুত হবে, জানুন কী লাভ

অ্যাপলের মেশিন লার্নিং গবেষকরা একটি গুরুত্বপূর্ণ গবেষণাপত্র প্রকাশ করেছে যা ডিফিউশন ল্যাঙ্গুয়েজ মডেল বা dLLM-এর কার্যক্ষমতা বাড়ানোর একটি নতুন উপায় দেখিয়েছে। এই গবেষণায় তারা প্রমাণ করেছে যে বর্তমানে যে টোকেন বা শব্দাংশকে কম আত্মবিশ্বাসী মনে করে ফেলে দেওয়া হয়, সেগুলো আসলে কাজে লাগানো যায়।

ডিফিউশন ল্যাঙ্গুয়েজ মডেল হলো এক ধরনের কৃত্রিম বুদ্ধিমত্তা যা একসঙ্গে অনেকগুলো টোকেন ডিকোড করতে পারে। এটি পুরনো অটোরিগ্রেসিভ মডেলের চেয়ে দ্রুত, কারণ অটোরিগ্রেসিভ মডেল একবারে একটি মাত্র টোকেন তৈরি করে। কিন্তু বর্তমান ব্লক-ওয়াইজ dLLM-গুলো শুধুমাত্র সবচেয়ে আত্মবিশ্বাসী টোকেনগুলো রাখে এবং বাকিগুলো ফেলে দেয়। এতে করে অনেক গণনা নষ্ট হয়।

অ্যাপলের গবেষকরা এই নষ্ট গণনাকে পুনর্ব্যবহারের একটি পদ্ধতি তৈরি করেছেন। তারা দেখিয়েছেন যে ফেলে দেওয়া টোকেনগুলোতে প্রাসঙ্গিক তথ্য থাকে যা পরবর্তী ধাপে কাজে লাগে। এই টোকেনগুলোকে পুনরায় প্রক্রিয়াজাত করে মডেল আরও নির্ভুল এবং দ্রুত উত্তর দিতে পারে।

গবেষণাপত্রটির নাম Residual Context Diffusion Language Models। এতে গবেষকরা ব্যাখ্যা করেছেন যে কীভাবে বাতিল টোকেনের তথ্য সংরক্ষণ করে মডেলের কার্যক্ষমতা ১০ থেকে ২০ শতাংশ পর্যন্ত বাড়ানো সম্ভব। একই সঙ্গে মডেলটির ডিকোডিং গতিও উল্লেখযোগ্যভাবে বেড়েছে।

এই গবেষণা বাংলাদেশের জন্য বিশেষভাবে গুরুত্বপূর্ণ। বাংলাদেশে বড় ভাষার মডেল নিয়ে কাজ করা স্টার্টআপ ও গবেষকদের সংখ্যা বাড়ছে। এই পদ্ধতি ব্যবহার করে তারা কম কম্পিউটিং শক্তিতে বেশি কার্যকর মডেল তৈরি করতে পারবে। বিশেষ করে যারা প্রান্তীয় ডিভাইস বা মোবাইল ফোনে AI চালাতে চান, তাদের জন্য এটি বড় সুবিধা।

অ্যাপলের এই গবেষণা দেখায় যে ডিফিউশন মডেলের ক্ষেত্রে এখনও অনেক সম্ভাবনা রয়েছে। ভবিষ্যতে এই পদ্ধতি আরও উন্নত করে বড় ভাষার মডেলকে আরও সাশ্রয়ী ও দ্রুত করা যেতে পারে। বাংলাদেশের প্রযুক্তি উদ্যোক্তা ও শিক্ষার্থীদের জন্য এটি অনুসরণ করার মতো একটি গুরুত্বপূর্ণ উন্নয়ন।

অ্যাপলের নতুন কৌশলে AI মডেল ৩ গুণ দ্রুত হবে, জানুন কী লাভ

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০