গুগলের নতুন AI মডেল DiffusionGemma: টেক্সট, ইমেজ, ভিডিও একসঙ্গে প্রক্রিয়াকরণে বিপ্লব
গুগল ডিপমাইন্ড ওপেন-ওয়েটস মাল্টিমোডাল মডেল DiffusionGemma 26B A4B IT উন্মুক্ত করেছে। এটি টেক্সট, ইমেজ ও ভিডিও ইনপুট নিয়ে আউটপুট দেয় ডিসক্রিট ডিফিউশনের মাধ্যমে। মডেলটি জেমা 4 আর্কিটেকচারের ওপর ভিত্তি করে তৈরি এবং অ্যাক্টিভ প্যারামিটার মাত্র 3.8B হওয়ায় এটি দ্রুত ও কার্যকর।
গুগল ডিপমাইন্ড ওপেন-ওয়েটস মাল্টিমোডাল মডেল DiffusionGemma 26B A4B IT উন্মুক্ত করেছে। এটি টেক্সট, ইমেজ ও ভিডিও ইনপুট নিয়ে আউটপুট দেয় ডিসক্রিট ডিফিউশনের মাধ্যমে। মডেলটি জেমা 4 আর্কিটেকচারের ওপর ভিত্তি করে তৈরি এবং অ্যাক্টিভ প্যারামিটার মাত্র 3.8B হওয়ায় এটি দ্রুত ও কার্যকর।
গুগল ডিপমাইন্ড তাদের নতুন ওপেন-ওয়েটস মাল্টিমোডাল মডেল DiffusionGemma 26B A4B IT উন্মুক্ত করেছে। এই মডেলটি টেক্সট, ইমেজ এবং ভিডিও ইনপুট প্রক্রিয়াকরণ করে টেক্সট আউটপুট তৈরি করতে পারে। এটি ডিসক্রিট ডিফিউশন নামক একটি প্রক্রিয়া ব্যবহার করে যা মডেলটিকে অত্যন্ত দ্রুত এবং নির্ভুল করে তোলে।
DiffusionGemma 26B A4B IT মডেলটি গুগলের জেমা 4 26B A4B মিক্সচার-অফ-এক্সপার্টস বা MoE আর্কিটেকচারের ওপর ভিত্তি করে তৈরি। মডেলটির মোট প্যারামিটার সংখ্যা 25.2 বিলিয়ন কিন্তু অ্যাক্টিভ প্যারামিটার মাত্র 3.8 বিলিয়ন। এর মানে হলো মডেলটি প্রতিটি কাজের জন্য শুধুমাত্র প্রয়োজনীয় অংশ সক্রিয় করে, যা এটিকে অত্যন্ত দক্ষ এবং দ্রুত করে তোলে।
মডেলটির সবচেয়ে বড় বৈশিষ্ট্য হলো এর এনকোডার-ডিকোডার ডিজাইন। এটি বাইডিরেকশনাল অ্যাটেনশন ব্যবহার করে যা টোকেনগুলোকে 256-টোকেনের ব্লকে সমান্তরালভাবে জেনারেট করতে সক্ষম। আগের মডেলগুলো যেখানে একটি টোকেন জেনারেট করে তারপর পরবর্তী টোকেনে যেত, সেখানে DiffusionGemma একসঙ্গে 256টি টোকেন জেনারেট করতে পারে। ফলে জেনারেশন স্পিড অনেক গুণ বেড়ে যায়।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং শিক্ষার্থীদের জন্য এই মডেলটি বিশেষভাবে গুরুত্বপূর্ণ। এটি ওপেন-ওয়েটস হওয়ায় যেকেউ হাগিং ফেস থেকে ডাউনলোড করে নিজের প্রজেক্টে ব্যবহার করতে পারবেন। বিশেষ করে যারা ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, ইমেজ ক্যাপশনিং বা ভিডিও অ্যানালাইসিস নিয়ে কাজ করেন, তাদের জন্য এটি একটি শক্তিশালী টুল হতে পারে।
মডেলটির কম অ্যাক্টিভ প্যারামিটার সংখ্যা মানে হলো এটি তুলনামূলকভাবে কম শক্তিশালী হার্ডওয়্যারেও চালানো যাবে। বাংলাদেশের অনেক ডেভেলপার যাদের কাছে উচ্চক্ষমতার GPU নেই, তারা এই মডেলটি ব্যবহার করে উন্নত AI কার্যক্রম পরিচালনা করতে পারবেন। এটি স্থানীয় AI গবেষণা ও উদ্ভাবনকে আরও এগিয়ে নিয়ে যেতে সাহায্য করবে।
গুগল ডিপমাইন্ড আশা করছে যে DiffusionGemma 26B A4B IT মডেলটি ওপেন সোর্স AI কমিউনিটিতে একটি বড় প্রভাব ফেলবে। মডেলটির মাধ্যমে টেক্সট, ইমেজ এবং ভিডিও একসঙ্গে প্রক্রিয়াকরণের যে ক্ষমতা আসছে, তা ভবিষ্যতে আরও উন্নত মাল্টিমোডাল অ্যাপ্লিকেশন তৈরির পথ সুগম করবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...