মেমরি খরচ কমিয়ে GPT-2 মিডিয়াম মডেল এখন ওপেন সোর্স
একজন গবেষক GPT-2 মিডিয়াম স্কেলে Softmax-মুক্ত মনোযোগ মডেল প্রকাশ করেছেন। এই মডেল দীর্ঘ কনটেক্সটে VRAM সাশ্রয় করে এবং ওপেন ওয়েটস ও কাস্টম ট্রাইটন কার্নেল সহ উপলব্ধ।
একজন গবেষক GPT-2 মিডিয়াম স্কেলে Softmax-মুক্ত মনোযোগ মডেল প্রকাশ করেছেন। এই মডেল দীর্ঘ কনটেক্সটে VRAM সাশ্রয় করে এবং ওপেন ওয়েটস ও কাস্টম ট্রাইটন কার্নেল সহ উপলব্ধ।
একটি গুরুত্বপূর্ণ গবেষণা প্রকল্পে GPT-2 মিডিয়াম স্কেলের (~354 মিলিয়ন প্যারামিটার) একটি Softmax-মুক্ত মনোযোগ মডেল প্রকাশ করা হয়েছে। Reddit-এর r/MachineLearning সাবরেডিটে এই ঘোষণা দেওয়া হয়েছে। গবেষক দাবি করেছেন যে এই মডেলটি 11.5 বিলিয়ন টোকেনে প্রশিক্ষিত হয়েছে এবং এতে স্ট্রাকচারাল স্পারসিটি ও টাইল-স্কিপিং কার্নেল ব্যবহার করা হয়েছে।
এই মডেলের মূল উদ্ভাবন হলো Softmax ফাংশন বাদ দেওয়া। সাধারণ ট্রান্সফরমার মডেলে Softmax অ্যাটেনশন স্কোরকে স্বাভাবিক করতে ব্যবহৃত হয়। কিন্তু এটি মেমরি ও গণনার ক্ষেত্রে ব্যয়বহুল। গবেষকরা একটি নতুন কাঠামোগত স্পারসিটি পদ্ধতি তৈরি করেছেন যা শুধুমাত্র প্রয়োজনীয় টাইলগুলি প্রক্রিয়া করে। ফলে দীর্ঘ কনটেক্সটে VRAM ব্যবহার ব্যাপকভাবে হ্রাস পায়।
এই মডেলের ওপেন ওয়েটস এবং কাস্টম ট্রাইটন কার্নেল সম্পূর্ণ উন্মুক্ত। ট্রাইটন একটি NVIDIA-উন্নত প্রোগ্রামিং ভাষা যা GPU কার্নেল অপ্টিমাইজ করতে সাহায্য করে। গবেষকরা জানিয়েছেন যে এই কার্নেলগুলি লং-কনটেক্সট অ্যাপ্লিকেশনের জন্য বিশেষভাবে উপযোগী। উদাহরণস্বরূপ, ডকুমেন্ট স্মারি, কোড জেনারেশন বা দীর্ঘ কথোপকথনের মতো কাজে এটি কার্যকর হবে।
বাংলাদেশের ডেভেলপার ও গবেষকদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। এই মুক্ত মডেল ও কোড ব্যবহার করে তারা নিজেদের প্রকল্পে লং-কনটেক্সট AI মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন। বিশেষ করে যারা ফ্রিল্যান্সিং বা স্টার্টআপে কাজ করছেন, তাদের জন্য এটি মেমরি ও খরচ সাশ্রয়ের একটি সুযোগ তৈরি করবে। স্থানীয় শিক্ষার্থীরাও এই মডেল অধ্যয়ন করে আধুনিক AI আর্কিটেকচার সম্পর্কে গভীর ধারণা পেতে পারেন।
ভবিষ্যতে এই ধরনের Softmax-মুক্ত মনোযোগ মডেল আরও জনপ্রিয় হবে বলে ধারণা করা হচ্ছে। গবেষকরা ইতিমধ্যে বড় স্কেলে এই পদ্ধতি পরীক্ষা করার পরিকল্পনা করছেন। বাংলাদেশের AI সম্প্রদায়ের জন্য এটি একটি সময়োপযোগী সংবাদ, যা তাদের আন্তর্জাতিক গবেষণার সাথে তাল মিলিয়ে চলতে সাহায্য করবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/MachineLearning
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...