২৪৯ মিলিয়ন প্যারামিটারের ওপেন সোর্স মডেল বানালেন বাংলাদেশি ডেভেলপার
একজন ডেভেলপার PyTorch ব্যবহার করে স্ক্র্যাচ থেকে 249M প্যারামিটারের Mixture-of-Experts Transformer তৈরি করেছেন। মডেলটিতে GQA, sparse MoE, SwiGLU, RoPE ও sliding-window attention-এর মতো আধুনিক ফিচার রয়েছে। প্রকল্পটি ওপেন সোর্স এবং এলএলএম-এর অভ্যন্তরীণ কাজ বুঝতে সাহায্য করবে।
একজন ডেভেলপার PyTorch ব্যবহার করে স্ক্র্যাচ থেকে 249M প্যারামিটারের Mixture-of-Experts Transformer তৈরি করেছেন। মডেলটিতে GQA, sparse MoE, SwiGLU, RoPE ও sliding-window attention-এর মতো আধুনিক ফিচার রয়েছে। প্রকল্পটি ওপেন সোর্স এবং এলএলএম-এর অভ্যন্তরীণ কাজ বুঝতে সাহায্য করবে।
একজন গবেষক PyTorch ফ্রেমওয়ার্ক ব্যবহার করে স্ক্র্যাচ থেকে একটি 249M প্যারামিটারের Mixture-of-Experts Transformer তৈরি করেছেন। মডেলটির নাম H64LM এবং এটি ওপেন সোর্স হিসেবে প্রকাশ করা হয়েছে। প্রকল্পটির মূল লক্ষ্য আধুনিক লার্জ ল্যাঙ্গুয়েজ মডেলের (LLM) অভ্যন্তরীণ কার্যপ্রণালী বোঝা।
H64LM মডেলটি শুধু একটি ছোট পরীক্ষা নয়, বরং এটি বর্তমান সময়ের সবচেয়ে আধুনিক কিছু টেকনিক একত্রিত করেছে। এর মধ্যে রয়েছে Grouped Query Attention (GQA), যা মডেলটিকে দ্রুত ও কার্যকর করে। এছাড়াও রয়েছে Sparse Mixture-of-Experts (MoE) আর্কিটেকচার, যেখানে 8 জন বিশেষজ্ঞ (expert) কাজ করে এবং Top-2 রাউটিং পদ্ধতি ব্যবহার করা হয়।
মডেলটিতে আরও রয়েছে SwiGLU অ্যাক্টিভেশন ফাংশন, RoPE পজিশনাল এনকোডিং, RMSNorm নরমালাইজেশন এবং স্লাইডিং-উইন্ডো অ্যাটেনশন। এই সব ফিচার বর্তমানে GPT-4 ও LLaMA-র মতো বড় মডেলগুলোতে ব্যবহৃত হয়। গবেষকটি হাই-লেভেল ট্রেনিং ফ্রেমওয়ার্ক ব্যবহার না করে নিজেই অ্যাটেনশন, MoE রাউটিং, নরমালাইজেশন ও ট্রেনিং লুপ বাস্তবায়ন করেছেন।
মিক্সড-প্রিসিশন ট্রেনিংয়ের মাধ্যমে মডেলটি মেমোরি ব্যবহারে দক্ষ। এটি তিনটি অক্সিলিয়ারি রাউটিং লস ব্যবহার করে যাতে বিশেষজ্ঞদের মধ্যে কাজের ভারসাম্য বজায় থাকে। প্রকল্পটি রেডিটের r/MachineLearning কমিউনিটিতে শেয়ার করা হয়েছে এবং সেখানে ব্যাপক আলোচনা চলছে।
বাংলাদেশের ডেভেলপার ও গবেষকদের জন্য এই প্রকল্পটি একটি দারুণ শিক্ষার উপকরণ। যারা এলএলএম তৈরির জটিলতা বুঝতে চান, তারা এই ওপেন সোর্স কোড দেখে শিখতে পারবেন। ফ্রিল্যান্সার ও স্টার্টআপগুলোর জন্যও এটি গুরুত্বপূর্ণ, কারণ তারা ছোট স্কেলে আধুনিক AI মডেল নিয়ে পরীক্ষা চালাতে পারবেন।
H64LM প্রমাণ করে যে বড় মডেল তৈরির জন্য সবসময় বিশাল টিম বা দামি টুল লাগে না। একজন দক্ষ প্রোগ্রামার PyTorch দিয়েই স্ক্র্যাচ থেকে আধুনিক এলএলএম তৈরি করতে পারেন। ভবিষ্যতে এই ধরনের ওপেন সোর্স প্রকল্প AI শিক্ষাকে আরও সহজ ও গণতান্ত্রিক করে তুলবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/MachineLearning
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...