বাংলাদেশে বড় AI মডেল চালানোর খরচ কমাবে নতুন কৌশল
একজন গবেষক দেখিয়েছেন, নিম্ন কোয়ান্টাইজড মডেলকে নিম্ন তাপমাত্রা ও Top P দিয়ে স্থিতিশীল করা সম্ভব। এই কৌশল বড় MoE মডেলকে 80GB VRAM-এ CPU অফলোড ছাড়াই চালানোর পথ খুলে দিতে পারে।
একজন গবেষক দেখিয়েছেন, নিম্ন কোয়ান্টাইজড মডেলকে নিম্ন তাপমাত্রা ও Top P দিয়ে স্থিতিশীল করা সম্ভব। এই কৌশল বড় MoE মডেলকে 80GB VRAM-এ CPU অফলোড ছাড়াই চালানোর পথ খুলে দিতে পারে।
বড় ভাষার মডেল (LLM) চালানোর জন্য পর্যাপ্ত গ্রাফিক্স মেমোরি (VRAM) না থাকা ডেভেলপারদের জন্য একটি বড় বাধা। সম্প্রতি Reddit-এর r/LocalLLaMA ফোরামে একজন ব্যবহারকারী একটি সম্ভাব্য সমাধান নিয়ে আলোচনা শুরু করেছেন। তিনি দাবি করেছেন, নিম্ন কোয়ান্টাইজড মডেলের আউটপুট নিম্ন তাপমাত্রা (temperature) এবং Top P প্যারামিটার ঠিক করে আরও স্থিতিশীল করা সম্ভব।
এই কৌশলটি বিশেষভাবে গুরুত্বপূর্ণ কারণ বর্তমানে মিক্সচার অফ এক্সপার্টস (MoE) আর্কিটেকচারের মডেলগুলো 80GB VRAM-এ CPU অফলোড ছাড়া চালানো প্রায় অসম্ভব। CPU অফলোড মানে মডেলের কিছু অংশ প্রসেসরে স্থানান্তর করা, যা গতি ব্যাপকভাবে কমিয়ে দেয়। ব্যবহারকারী বলেছেন, বড় মডেলের জন্য সাধারণত ভারী কোয়ান্টাইজড ভার্সন ব্যবহার করতে হয়, যা নির্ভুলতা কমিয়ে দেয়। কিন্তু তার নতুন পর্যবেক্ষণ এই সমস্যার একটি বিকল্প পথ দেখাচ্ছে।
গবেষকটি LLM স্যাম্পলিং ভিজুয়ালাইজেশন টুল নিয়ে পরীক্ষা-নিরীক্ষা করছিলেন। তিনি খেয়াল করেন, নির্দিষ্ট তাপমাত্রা এবং Top P মানে নিম্ন বিটের মডেলগুলো আরও নির্ভরযোগ্য আউটপুট দিতে শুরু করে। তাপমাত্রা (temperature) মডেলের সৃজনশীলতা নিয়ন্ত্রণ করে। নিম্ন তাপমাত্রা মানে মডেল বেশি যুক্তিযুক্ত এবং পুনরাবৃত্তিমূলক উত্তর দেয়। Top P প্যারামিটার সম্ভাব্য শব্দের পুল ছোট করে, যা এলোমেলো উত্তর কমায়। এই দুটি প্যারামিটার একসঙ্গে সামঞ্জস্য করে নিম্ন কোয়ান্টাইজড মডেলের স্থিতিশীলতা বাড়ানো সম্ভব হতে পারে।
এই গবেষণা বাংলাদেশের ডেভেলপার এবং গবেষকদের জন্য বিশেষভাবে প্রাসঙ্গিক। দেশে অনেক ডেভেলপার এবং স্টার্টআপের কাছে 80GB VRAM-এর GPU (যেমন A100 বা 2টি RTX 3090) থাকলেও বড় মডেল চালানোর জন্য পর্যাপ্ত মেমোরি নেই। এই কৌশল তাদের নিজস্ব হার্ডওয়্যারে বড় মডেল চালানোর সুযোগ দিতে পারে। এর ফলে ফ্রিল্যান্সার এবং ছোট টিমগুলো ব্যয়বহুল ক্লাউড সার্ভিস ছাড়াই উন্নত AI মডেল নিয়ে কাজ করতে পারবে।
তবে এই পদ্ধতি এখনও পরীক্ষামূলক পর্যায়ে রয়েছে। ব্যবহারকারী নিজেও স্বীকার করেছেন, এই বিষয়ে এখনো ব্যাপক গবেষণা হয়নি। ভবিষ্যতে আরও পরীক্ষা-নিরীক্ষার মাধ্যমে এই কৌশলটি পরিশোধিত হলে এটি ছোট হার্ডওয়্যারে বড় মডেল চালানোর জন্য একটি জনপ্রিয় পদ্ধতি হয়ে উঠতে পারে। AIখবর এই বিষয়ে আরও গবেষণার অগ্রগতি নিবিড়ভাবে পর্যবেক্ষণ করবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...