AI মডেলের গতি বাড়ল ৩%: নতুন ট্রান্সফরমার আর্কিটেকচার আসছে
গবেষকরা ট্রান্সফরমার নিউরাল নেটওয়ার্কের একটি মৌলিক অদক্ষতা চিহ্নিত করেছেন। নতুন আর্কিটেকচার প্রেডিকশন ও মেমোরির কাজ আলাদা করে কর্মক্ষমতা ২-৩ শতাংশ বাড়িয়েছে। এই আবিষ্কার ভাষা মডেলের ভবিষ্যৎ বদলে দিতে পারে।
গবেষকরা ট্রান্সফরমার নিউরাল নেটওয়ার্কের একটি মৌলিক অদক্ষতা চিহ্নিত করেছেন। নতুন আর্কিটেকচার প্রেডিকশন ও মেমোরির কাজ আলাদা করে কর্মক্ষমতা ২-৩ শতাংশ বাড়িয়েছে। এই আবিষ্কার ভাষা মডেলের ভবিষ্যৎ বদলে দিতে পারে।
গবেষকরা ট্রান্সফরমার নিউরাল নেটওয়ার্কের একটি দীর্ঘদিনের অদক্ষতা চিহ্নিত করে নতুন একটি আর্কিটেকচার প্রস্তাব করেছেন। এই নতুন নকশা প্রেডিকশন এবং মেমোরির কাজকে আলাদা করে দেয়। ফলে ডাউনস্ট্রিম টাস্কগুলোতে কর্মক্ষমতা ২ থেকে ৩ শতাংশ পর্যন্ত বেড়েছে।
ট্রান্সফরমার আর্কিটেকচার বর্তমানে GPT-4, Claude, LLaMA-র মতো সব শক্তিশালী ভাষা মডেলের ভিত্তি। কিন্তু গবেষকরা দেখেছেন, এই আর্কিটেকচারে একটি একক কম্পিউটেশনাল পথ একসঙ্গে দুটি ভিন্ন কাজ করে। একটি কাজ হলো তথ্য মনে রাখা, আর অন্যটি হলো তার ভিত্তিতে ভবিষ্যদ্বাণী করা। এই দুই কাজ একসঙ্গে করায় দক্ষতা কমে যাচ্ছিল।
নতুন প্রস্তাবিত আর্কিটেকচার এই দুটি কাজকে আলাদা পথে চালায়। একটি পথ শুধু তথ্য সংরক্ষণ ও পুনরুদ্ধার করে, অন্যটি শুধু প্রেডিকশন করে। এই বিভাজন মডেলটিকে আরও দক্ষ করে তোলে। গবেষণাপত্রটি dev.to ML-এ প্রকাশিত হয়েছে।
পরীক্ষায় দেখা গেছে, এই পরিবর্তন বিভিন্ন ডাউনস্ট্রিম টাস্কে ২ থেকে ৩ শতাংশ উন্নতি এনেছে। এই উন্নতি প্রশিক্ষণের বিভিন্ন স্কেলেই ধারাবাহিক ছিল। অর্থাৎ ছোট মডেল থেকে শুরু করে বড় মডেল সব ক্ষেত্রেই এই সুবিধা পাওয়া গেছে।
এই আবিষ্কার বাংলাদেশের ডেভেলপার, গবেষক এবং AI উদ্যোক্তাদের জন্য গুরুত্বপূর্ণ। দেশে ভাষা মডেল নিয়ে কাজ করা স্টার্টআপ ও একাডেমিক দলগুলো এই নতুন আর্কিটেকচার ব্যবহার করে আরও দক্ষ মডেল তৈরি করতে পারবে। বিশেষ করে বাংলা ভাষার মডেল তৈরিতে এই পদ্ধতি কার্যকর হতে পারে। কারণ এতে কম কম্পিউটেশনাল শক্তিতে ভালো ফলাফল পাওয়া সম্ভব।
ফ্রিল্যান্সার এবং ছোট দলের জন্যও এটি সুবিধাজনক। তারা বর্তমান মডেলের তুলনায় কম GPU ব্যবহার করে একই বা ভালো কর্মক্ষমতা পেতে পারে। এটি খরচ কমাবে এবং প্রতিযোগিতামূলক সুবিধা দেবে।
গবেষকরা মনে করছেন, এই পরিবর্তন ট্রান্সফরমার আর্কিটেকচারের ভবিষ্যৎ দিকনির্দেশনা বদলে দিতে পারে। এটি ভাষা মডেলের দক্ষতা ও কর্মক্ষমতা উভয়ই বাড়ানোর একটি সহজ কিন্তু কার্যকর উপায়।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...