বাংলাদেশে AI মডেল হালকা করার নতুন পদ্ধতি, খরচ কমবে ৩ গুণ
বিজ্ঞানীরা একটি নতুন পদ্ধতি উদ্ভাবন করেছেন যা প্রি-ট্রেইনড ঘন ল্যাঙ্গুয়েজ মডেলকে পুনরায় প্রশিক্ষণ ছাড়াই স্পার্সিফাই করতে পারে। Llama 3.1 8B মডেলে এই কৌশল প্রয়োগ করে দেখানো হয়েছে যে ব্লক-স্পার্স অ্যাটেনশনের মাধ্যমে মডেলের কার্যক্ষমতা বজায় রেখে গণনামূলক খরচ কমানো সম্ভব।
বিজ্ঞানীরা একটি নতুন পদ্ধতি উদ্ভাবন করেছেন যা প্রি-ট্রেইনড ঘন ল্যাঙ্গুয়েজ মডেলকে পুনরায় প্রশিক্ষণ ছাড়াই স্পার্সিফাই করতে পারে। Llama 3.1 8B মডেলে এই কৌশল প্রয়োগ করে দেখানো হয়েছে যে ব্লক-স্পার্স অ্যাটেনশনের মাধ্যমে মডেলের কার্যক্ষমতা বজায় রেখে গণনামূলক খরচ কমানো সম্ভব।
গবেষকরা একটি অভিনব পদ্ধতি 'Llama Surgery' চালু করেছেন যা প্রি-ট্রেইনড ডেন্স ল্যাঙ্গুয়েজ মডেলকে পুনরায় প্রশিক্ষণ, ডিস্টিলেশন বা পোস্ট-হক প্রুনিং ছাড়াই স্পার্সিফাই করতে সক্ষম। Reddit-এর r/artificial ফোরামে প্রকাশিত এই গবেষণাপত্রটি দেখায় যে কীভাবে একটি ফ্রোজেন Llama 3.1 8B মডেলের প্রতিটি অ্যাটেনশন লেয়ারকে একটি ডায়নামিক টোপোলজি রাউটার দিয়ে প্রতিস্থাপন করা হয়েছে। এই রাউটার টোকেন এম্বেডিংগুলোকে ব্রুহাট-টিটস পি-এডিক টোপোলজির শাখায় ম্যাপ করে ব্লক-স্পার্স অ্যাটেনশন তৈরি করে।
এই পদ্ধতির মূল উদ্ভাবন হলো এটি বিদ্যমান বড় মডেলগুলোর ওপর সরাসরি প্রয়োগ করা যায়। আগে মডেল স্পার্সিফাই করতে গেলে পুরো মডেল পুনরায় প্রশিক্ষণ দিতে হতো বা জটিল ডিস্টিলেশন প্রক্রিয়া অনুসরণ করতে হতো। Llama Surgery সেই বাধা দূর করেছে। গবেষকরা দাবি করছেন যে এই কৌশল মডেলের নির্ভুলতা প্রায় অপরিবর্তিত রেখে গণনামূলক জটিলতা উল্লেখযোগ্যভাবে কমাতে পারে।
প্রযুক্তিগতভাবে এই পদ্ধতি 'ডায়নামিক টোপোলজি রাউটার' নামক একটি উপাদান ব্যবহার করে। এই রাউটার প্রতিটি টোকেনের জন্য একটি নির্দিষ্ট টোপোলজিক্যাল পথ নির্বাচন করে। ব্রুহাট-টিটস পি-এডিক টোপোলজি ব্যবহারের ফলে অ্যাটেনশন মেকানিজম শুধুমাত্র প্রাসঙ্গিক টোকেনগুলোর মধ্যে সীমাবদ্ধ থাকে। এর ফলে অপ্রয়োজনীয় গণনা এড়ানো যায় এবং মডেল দ্রুত কাজ করে।
বাংলাদেশের ডেভেলপার এবং ফ্রিল্যান্সারদের জন্য এই গবেষণার বাস্তব প্রভাব রয়েছে। বর্তমানে বড় ভাষার মডেল চালানোর জন্য উচ্চক্ষমতাসম্পন্ন GPU প্রয়োজন হয়। Llama Surgery-এর মতো পদ্ধতি মডেলের আকার এবং গণনামূলক চাহিদা কমিয়ে দেবে। এর ফলে স্থানীয় ডেভেলপাররা সীমিত সম্পদ দিয়েও শক্তিশালী AI মডেল ব্যবহার করতে পারবেন। শিক্ষার্থীরা নিজেদের প্রকল্পে বড় মডেল নিয়ে পরীক্ষা-নিরীক্ষা করার সুযোগ পাবে। ব্যবসায়িক প্রতিষ্ঠানগুলোও কম খরচে AI সেবা চালু করতে পারবে।
এই গবেষণা ভবিষ্যতে আরও দক্ষ AI মডেল তৈরির পথ দেখাচ্ছে। Llama Surgery প্রমাণ করেছে যে পুনরায় প্রশিক্ষণ ছাড়াই মডেল স্পার্সিফিকেশন সম্ভব। গবেষকরা এখন এই পদ্ধতি অন্যান্য মডেল আর্কিটেকচারে প্রয়োগ করার পরিকল্পনা করছেন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/artificial
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...