LIVE
মডেলগুগলের DiffusionGemma: টেক্সট জেনারেশন এখন ৪ গুণ দ্রুত, আপনার কাজে কী লাভ?টুলবাংলাদেশি ডেভেলপার Claude Code দিয়ে ৪টি স্ক্যাম সিগন্যাল বানালেন, সতর্ক থাকুনহটClaude Fable 5 এলো, কোডিং ফ্রিল্যান্সারদের কাজ ৩ গুণ বাড়াবেহটClaude Fable 5 এলো, কিন্তু সুরক্ষা বলয়ে বন্দি, জানুন আপনার কী লাভইন্ডাস্ট্রিভিসা-চ্যাটজিপিটি জোট: এখন এআই দিয়েই কেনাকাটা, পেমেন্ট হবে সেকেন্ডেগবেষণাAI কাজের নিরাপত্তা যাচাই করলেন কার্পাথি, জানুন কোন কাজে ঝুঁকি বেশিমডেলClaude-এর Fable 5 এলো, কোডিং থেকে ডিজাইন পার্টনার হবে এখনটুলAI ইমেজের ওয়াটারমার্ক মুছে ফেলার ফ্রি টুল এলো, কাজ করবে বাংলাদেশেওমডেলGoogle DeepMind-এর নতুন মডেল DiffusionGemma: টেক্সট জেনারেশন ৪ গুণ দ্রুত, ফ্রিল্যান্সারদের জন্য বড় সুযোগইন্ডাস্ট্রিAnthropic-এর CEO বললেন, সরকার চাইলে বিপজ্জনক AI ব্লক করুক, আপনার চাকরি সুরক্ষিত হবেইন্ডাস্ট্রিOpenAI-এর IPO পিছিয়ে, বিনিয়োগকারীদের জন্য বড় সুযোগ আসছে এক বছরেইন্ডাস্ট্রিনন-টেকনিক্যাল ফাউন্ডারদের জন্য AI কোডিং বনাম নো-কোড: শেষ ২০% কাজে আটকাবেন নামডেলগুগলের DiffusionGemma: টেক্সট জেনারেশন এখন ৪ গুণ দ্রুত, আপনার কাজে কী লাভ?টুলবাংলাদেশি ডেভেলপার Claude Code দিয়ে ৪টি স্ক্যাম সিগন্যাল বানালেন, সতর্ক থাকুনহটClaude Fable 5 এলো, কোডিং ফ্রিল্যান্সারদের কাজ ৩ গুণ বাড়াবেহটClaude Fable 5 এলো, কিন্তু সুরক্ষা বলয়ে বন্দি, জানুন আপনার কী লাভইন্ডাস্ট্রিভিসা-চ্যাটজিপিটি জোট: এখন এআই দিয়েই কেনাকাটা, পেমেন্ট হবে সেকেন্ডেগবেষণাAI কাজের নিরাপত্তা যাচাই করলেন কার্পাথি, জানুন কোন কাজে ঝুঁকি বেশিমডেলClaude-এর Fable 5 এলো, কোডিং থেকে ডিজাইন পার্টনার হবে এখনটুলAI ইমেজের ওয়াটারমার্ক মুছে ফেলার ফ্রি টুল এলো, কাজ করবে বাংলাদেশেওমডেলGoogle DeepMind-এর নতুন মডেল DiffusionGemma: টেক্সট জেনারেশন ৪ গুণ দ্রুত, ফ্রিল্যান্সারদের জন্য বড় সুযোগইন্ডাস্ট্রিAnthropic-এর CEO বললেন, সরকার চাইলে বিপজ্জনক AI ব্লক করুক, আপনার চাকরি সুরক্ষিত হবেইন্ডাস্ট্রিOpenAI-এর IPO পিছিয়ে, বিনিয়োগকারীদের জন্য বড় সুযোগ আসছে এক বছরেইন্ডাস্ট্রিনন-টেকনিক্যাল ফাউন্ডারদের জন্য AI কোডিং বনাম নো-কোড: শেষ ২০% কাজে আটকাবেন না
হোম/নিউজ/রিসার্চ
রিসার্চ৫ মিনিট পড়া

DeepSeek-V4-এ নতুন পদ্ধতি, GPU মেমরি সংকট কমিয়ে দেবে ৩ গুণ

গবেষকরা DeepSeek-V4 আর্কিটেকচারে Lookahead Sparse Attention (LSA) নামে একটি নতুন পদ্ধতি তৈরি করেছে। এটি কেবল গুরুত্বপূর্ণ KV ক্যাশ ধরে রেখে GPU মেমরির বোঝা কমিয়ে দেবে। ফলে অতি-দীর্ঘ কনটেক্সট ইনফারেন্স দ্রুত ও সাশ্রয়ী হবে।

R
সম্পাদকীয় টিম
স্টাফ রিপোর্টার · ৩ ঘণ্টা আগে · সূত্র: Reddit r/LocalLLaMA
DeepSeek-V4-এ নতুন পদ্ধতি, GPU মেমরি সংকট কমিয়ে দেবে ৩ গুণ

গবেষকরা DeepSeek-V4 আর্কিটেকচারে Lookahead Sparse Attention (LSA) নামে একটি নতুন পদ্ধতি তৈরি করেছে। এটি কেবল গুরুত্বপূর্ণ KV ক্যাশ ধরে রেখে GPU মেমরির বোঝা কমিয়ে দেবে। ফলে অতি-দীর্ঘ কনটেক্সট ইনফারেন্স দ্রুত ও সাশ্রয়ী হবে।

বিশ্বের সবচেয়ে বড় ভাষার মডেলগুলোকে চালানোর সময় সবচেয়ে বড় বাধা হলো GPU মেমরির সীমাবদ্ধতা। প্রচলিত পদ্ধতিতে ডিকোডিংয়ের সময় মডেলটি সব পুরনো টোকেনের KV ক্যাশ (Key-Value cache) মেমরিতে জমা রাখে। কিন্তু কনটেক্সট দীর্ঘ হলে এই ক্যাশের আকার এতটাই বেড়ে যায় যে এটি GPU মেমরির পুরো জায়গা দখল করে ফেলে। সম্প্রতি Reddit-এর r/LocalLLaMA ফোরামে প্রকাশিত একটি গবেষণাপত্রে এই সমস্যার একটি সম্ভাব্য সমাধান দেখানো হয়েছে।

গবেষকরা DeepSeek-V4 আর্কিটেকচারের ওপর ভিত্তি করে Lookahead Sparse Attention (LSA) নামের একটি অভিনব ইনফারেন্স প্যারাডাইম তৈরি করেছেন। LSA-র মূল বৈশিষ্ট্য হলো এটি ভবিষ্যতের কনটেক্সট চাহিদা আগে থেকেই অনুমান করে। এতে করে মডেলটি কেবলমাত্র সেই নির্দিষ্ট KV চাঙ্কগুলোই GPU মেমরিতে রাখে যা আসন্ন প্রশ্নের উত্তর দেওয়ার জন্য সত্যিই প্রয়োজনীয়। বাকি সব অপ্রয়োজনীয় ক্যাশ ডাটা তাৎক্ষণিকভাবে মুছে ফেলা হয়।

এই প্রক্রিয়াটি কাজ করে Neural Memory Indexer নামের একটি বিশেষ উপাদানের মাধ্যমে। এই ইনডেক্সারটি মডেলের আর্কিটেকচারের ভেতরেই তৈরি করা হয়েছে। এটি প্রতিটি নতুন টোকেন আসার আগে ভবিষ্যদ্বাণী করে যে কোন পুরনো টোকেনগুলোর তথ্য ভবিষ্যতে কাজে লাগবে। এরপর এটি শুধুমাত্র সেইসব ক্রিটিক্যাল KV চাঙ্কগুলোকে ক্যাশে করে রাখে। ফলে মেমরি ব্যবহারের পরিমাণ নাটকীয়ভাবে কমে যায়।

এই গবেষণার সবচেয়ে বড় সাফল্য হলো এটি অতি-দীর্ঘ কনটেক্সট (যেমন ১ মিলিয়ন টোকেন বা তার বেশি) ইনফারেন্সকে কার্যকরী করে তুলতে পারে। আগের মডেলগুলোতে এত দীর্ঘ কনটেক্সট চালাতে গেলে GPU মেমরি ফুরিয়ে যেত বা ইনফারেন্সের গতি অনেক কমে যেত। LSA সেই সীমাবদ্ধতা দূর করে দ্রুত এবং সাশ্রয়ী ইনফারেন্সের পথ খুলে দিয়েছে।

বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এই গবেষণার তাৎপর্য অনেক। বর্তমানে স্থানীয় কম্পিউটারে বড় ভাষার মডেল চালাতে গেলে মেমরির অভাবে প্রায়ই সমস্যা হয়। LSA পদ্ধতি ব্যবহার করে কম GPU মেমরি থাকা সিস্টেমেও অতি-দীর্ঘ ডকুমেন্ট বা কোডবেস নিয়ে কাজ করা সম্ভব হবে। বিশেষ করে যারা AI-ভিত্তিক অ্যাপ্লিকেশন, চ্যাটবট বা ডেটা অ্যানালাইসিস টুল তৈরি করছেন, তাদের জন্য এটি বড় সুবিধা বয়ে আনবে।

ভবিষ্যতে এই পদ্ধতি বাণিজ্যিক মডেলগুলোতে অন্তর্ভুক্ত হলে AI পরিষেবার খরচ কমবে। কারণ ক্লাউডে মডেল চালানোর সময় GPU মেমরি ভাড়া নেওয়ার খরচ অনেকটাই কমে যাবে। গবেষকরা ইতিমধ্যে DeepSeek-V4-তে LSA-র কার্যকারিতা প্রমাণ করেছেন। আশা করা যায়, শীঘ্রই এটি ওপেন সোর্স কমিউনিটিতেও পাওয়া যাবে।

এখন দেখার বিষয়, এই লুকাহেড স্পার্স অ্যাটেনশন পদ্ধতি বাস্তব বিশ্বের জটিল কাজে কতটা কার্যকর প্রমাণিত হয়। তবে প্রাথমিক ফলাফল বলছে, এটি GPU মেমরি সংকটের এক স্থায়ী সমাধান হতে পারে।

আরও পড়ুন

🌐 তথ্যসূত্র ও স্বচ্ছতা

এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।

ট্যাগ:#রিসার্চ#AI#বাংলাদেশ#Reddit r/LocalLLaMA
AD
📧

AI নিউজ সরাসরি ইমেইলে পান

প্রতিদিনের সেরা AI খবর বাছাই করে আপনার inbox-এ পাঠাই। বিজ্ঞাপন নেই।

মূল প্রতিবেদন: Reddit r/LocalLLaMA

সোর্স দেখুন ↗

মন্তব্য

লোড হচ্ছে...