DeepSeek-V4 মেমরি খরচ ৮৬% কমিয়ে ফ্রিল্যান্সারদের লাভ দেবে
FlashMemory গবেষণা DeepSeek-V4 মডেলের KV ক্যাশে মাত্র 13.5% এ নামিয়ে এনেছে। Lookahead Sparse Attention নামক পদ্ধতি মেমরি খরচ কমিয়ে নির্ভুলতা 0.6% বাড়িয়েছে। দীর্ঘ কনটেক্সট প্রক্রিয়াকরণে এটি যুগান্তকারী পরিবর্তন আনতে পারে।
FlashMemory গবেষণা DeepSeek-V4 মডেলের KV ক্যাশে মাত্র 13.5% এ নামিয়ে এনেছে। Lookahead Sparse Attention নামক পদ্ধতি মেমরি খরচ কমিয়ে নির্ভুলতা 0.6% বাড়িয়েছে। দীর্ঘ কনটেক্সট প্রক্রিয়াকরণে এটি যুগান্তকারী পরিবর্তন আনতে পারে।
বিশাল ভাষা মডেলের দীর্ঘ কনটেক্সট প্রক্রিয়াকরণের সময় সবচেয়ে বড় বাধা হলো মেমরি, গণনা নয়। FlashMemory গবেষণা দল সম্প্রতি DeepSeek-V4 মডেলের জন্য এমন একটি পদ্ধতি উন্মোচন করেছে যা KV ক্যাশের আকার 86.5 শতাংশ কমিয়ে দেয়। Lookahead Sparse Attention বা LSA নামক এই কৌশলটি মডেলটির নির্ভুলতা 0.6 শতাংশ বাড়িয়েছে। dev.to ML সূত্রে এই তথ্য জানা গেছে।
KV ক্যাশে হলো ভাষা মডেলের একটি অস্থায়ী মেমরি যা পূর্ববর্তী টোকেনগুলোর তথ্য ধরে রাখে। মডেল যখন দীর্ঘ লেখা বা কথোপকথন প্রক্রিয়া করে তখন এই ক্যাশে দ্রুত বেড়ে যায়। GPU সার্ভিং মেমরির সিংহভাগ জায়গা দখল করে ফেলে এই ক্যাশে। LSA পদ্ধতি এই সমস্যার সমাধান করেছে।
LSA পদ্ধতি কীভাবে কাজ করে তা বোঝার জন্য প্রথমে বুঝতে হবে যে প্রতিটি নতুন টোকেনের পুরো পূর্ববর্তী কনটেক্সটের প্রয়োজন হয় না। FlashMemory দল একটি ছোট Neural Memory Indexer প্রশিক্ষণ দিয়েছে। এই ইনডেক্সার ভবিষ্যদ্বাণী করে যে একটি টোকেন ক্যাশের কোন অংশ ব্যবহার করবে। ফলে পুরো ক্যাশে লোড না করে শুধুমাত্র প্রয়োজনীয় অংশ লোড করাই যথেষ্ট হয়।
গবেষণায় দেখা গেছে যে এই পদ্ধতি ব্যবহার করে KV ক্যাশের শারীরিক আকার সম্পূর্ণ সংস্করণের মাত্র 13.5 শতাংশে নেমে এসেছে। একই সাথে মডেলের নির্ভুলতা বেড়েছে 0.6 শতাংশ। এটি প্রমাণ করে যে বাছাইকৃত তথ্য ব্যবহার করলে মডেলের কর্মক্ষমতা কমে না বরং বাড়ে।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং শিক্ষার্থীদের জন্য এই গবেষণার বাস্তব প্রভাব রয়েছে। স্থানীয় ক্লাউড সার্ভার বা ব্যক্তিগত কম্পিউটারে বড় ভাষা মডেল চালানোর সময় মেমরি সীমাবদ্ধতা একটি বড় সমস্যা। LSA পদ্ধতি ব্যবহার করে কম মেমরিতেও দীর্ঘ কনটেক্সট প্রক্রিয়া করা সম্ভব হবে। বাংলাদেশের AI গবেষকরা এই পদ্ধতি অবলম্বন করে নিজেদের মডেলের কার্যক্ষমতা বাড়াতে পারেন। ফ্রিল্যান্সাররা বড় ভাষা মডেল ব্যবহার করে জটিল প্রকল্প সম্পন্ন করতে পারবেন সীমিত সম্পদ দিয়েই।
ভবিষ্যতে এই পদ্ধতি আরও উন্নত হয়ে অন্যান্য ভাষা মডেলেও প্রয়োগ করা যেতে পারে। FlashMemory দলের এই আবিষ্কার মেমরি ব্যবস্থাপনার ক্ষেত্রে একটি নতুন দিগন্ত খুলে দিয়েছে। দীর্ঘ কনটেক্সট প্রক্রিয়াকরণ এখন আরো সাশ্রয়ী ও কার্যকর হবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...