এই কৌশলটি কীভাবে 8GB GPU-তে তিনটি LLM চালাতে পারে?

C++ লেয়ার মাল্টিপ্লেক্সিং ব্যবহার করে GPU-র মেমরিতে শুধু প্রয়োজনীয় লেয়ারগুলো লোড রাখা হয়। বাকি লেয়ারগুলো CPU-তে থাকে এবং প্রয়োজনে স্থানান্তরিত হয়। ফলে মেমরি সীমা অতিক্রম করা সম্ভব হয়।

এই পদ্ধতি ব্যবহার করতে কি বিশেষ হার্ডওয়্যার দরকার?

না, একটি সাধারণ 8GB VRAM-এর GPU-ই যথেষ্ট। এটি পুরনো GPU যেমন GTX 1080 বা RTX 3060-তেও কাজ করবে। তবে সফটওয়্যার স্তরে C++ প্রোগ্রামিং জানা প্রয়োজন।

বাংলাদেশের ডেভেলপাররা কীভাবে এই কৌশল থেকে উপকৃত হতে পারে?

বাংলাদেশের ডেভেলপাররা সীমিত বাজেটে একাধিক AI মডেল একসঙ্গে চালাতে পারবে। এটি ফ্রিল্যান্সিং প্রকল্প, গবেষণা এবং শিক্ষামূলক কাজে বড় সুবিধা দেবে।

হোম/নিউজ/টুল

টুল৫ মিনিট পড়া

একটি 8GB GPU দিয়ে একসঙ্গে চালান ৩টি AI মডেল, জানুন কৌশল

একটি মাত্র 8GB GPU ব্যবহার করে তিনটি ভিন্ন Large Language Model (LLM) একসঙ্গে চালানোর একটি কার্যকর কৌশল প্রকাশ করেছে Towards Data Science। সীমিত হার্ডওয়্যার নিয়ে কাজ করা ডেভেলপারদের জন্য এই পদ্ধতি নতুন দিগন্ত খুলে দেবে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪ ঘণ্টা আগে · সূত্র: Towards Data Science

একটি 8GB GPU দিয়ে একসঙ্গে চালান ৩টি AI মডেল, জানুন কৌশল

একটি মাত্র 8GB GPU ব্যবহার করে তিনটি ভিন্ন Large Language Model (LLM) একসঙ্গে চালানোর একটি কার্যকর কৌশল প্রকাশ করেছে টেক ব্লগ Towards Data Science। এই পদ্ধতিতে C++ লেয়ার মাল্টিপ্লেক্সিং এবং অ্যাডমিশন কন্ট্রোল ব্যবহার করে 8GB VRAM-এর সীমা অতিক্রম করা সম্ভব হয়েছে।

এই কৌশলটি বিশেষভাবে গুরুত্বপূর্ণ কারণ বর্তমানে বেশিরভাগ ডেভেলপার এবং ছোট প্রতিষ্ঠানের কাছে উচ্চক্ষমতাসম্পন্ন GPU নেই। আগে একটি বড় LLM চালাতেই 8GB VRAM প্রায় অপর্যাপ্ত ছিল। এখন একই সম্পদ ব্যবহার করে তিনটি মডেল প্যারালালি চালানো যাবে।

Towards Data Science-এর প্রতিবেদন অনুযায়ী, এই সিস্টেমটি মূলত তিনটি এজেন্টের জন্য ডিজাইন করা হয়েছে। প্রতিটি এজেন্ট আলাদা LLM ব্যবহার করে কাজ করে। C++ লেয়ার মাল্টিপ্লেক্সিং নামক একটি কৌশলে GPU-র মেমরি ভাগ করে নেওয়া হয়। অর্থাৎ এক সময়ে শুধু প্রয়োজনীয় লেয়ারগুলো GPU-তে লোড থাকে, বাকি লেয়ারগুলো CPU-তে রাখা হয়।

এই পদ্ধতিতে একটি অ্যাডমিশন কন্ট্রোল মেকানিজমও কাজ করে। এটি নির্ধারণ করে কোন মডেলের কোন লেয়ার কখন GPU-তে স্থানান্তরিত হবে। ফলে মেমরি ওভারফ্লো না হয়ে মসৃণভাবে তিনটি মডেল একসঙ্গে কাজ করে। পরীক্ষায় দেখা গেছে, এই কৌশলে প্রতিটি মডেলের পারফরম্যান্সে তেমন কোনো নেতিবাচক প্রভাব পড়েনি।

বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই খবর অত্যন্ত প্রাসঙ্গিক। দেশে বেশিরভাগ ডেভেলপারই ব্যক্তিগত কম্পিউটার বা সীমিত ক্লাউড রিসোর্স ব্যবহার করে। একটি পুরনো 8GB GPU দিয়েই এখন তিনটি AI এজেন্ট একসঙ্গে চালানো সম্ভব। এটি মেশিন লার্নিং, ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এবং অটোমেশন প্রকল্পে নতুন সম্ভাবনা তৈরি করবে।

এই কৌশলটি এখনো পরীক্ষামূলক পর্যায়ে রয়েছে। তবে Towards Data Science জানিয়েছে, ভবিষ্যতে আরও অপ্টিমাইজেশন করে কম VRAM-এ আরও বেশি মডেল চালানোর চেষ্টা চলছে। সীমিত সম্পদ নিয়ে কাজ করা ডেভেলপারদের জন্য এটি একটি যুগান্তকারী সমাধান হতে পারে।

একটি 8GB GPU দিয়ে একসঙ্গে চালান ৩টি AI মডেল, জানুন কৌশল

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০