ওপেন সোর্স AI ইঞ্জিনে ৩.৭৮ গুণ গতি, বাংলাদেশি ডেভেলপারদের জন্য বড় সুযোগ
ওপেন সোর্স AI ইনফারেন্স ইঞ্জিন llama.cpp-এর WebGPU ব্যাকএন্ডে k-quants ম্যাটমালের গতি নাটকীয়ভাবে বেড়েছে। M2 Pro হার্ডওয়্যারে Q3_K মিডিয়াম মডেলের প্রিফিল গতি আগের চেয়ে ৩.৭৮ গুণ দ্রুত হয়েছে। এই পরিবর্তন স্থানীয় ডিভাইসে বড় ভাষার মডেল চালানোর অভিজ্ঞতা বদলে দেবে।
ওপেন সোর্স AI ইনফারেন্স ইঞ্জিন llama.cpp-এর WebGPU ব্যাকএন্ডে k-quants ম্যাটমালের গতি নাটকীয়ভাবে বেড়েছে। M2 Pro হার্ডওয়্যারে Q3_K মিডিয়াম মডেলের প্রিফিল গতি আগের চেয়ে ৩.৭৮ গুণ দ্রুত হয়েছে। এই পরিবর্তন স্থানীয় ডিভাইসে বড় ভাষার মডেল চালানোর অভিজ্ঞতা বদলে দেবে।
ওপেন সোর্স AI সম্প্রদায়ে বড় খবর এসেছে। ggml-webgpu-তে k-quants নামক কোয়ান্টাইজড মডেলের গতি বাড়ানোর জন্য একটি গুরুত্বপূর্ণ Pull Request (PR) জমা পড়েছে। কোডটি yomaytk নামের একজন ডেভেলপার তৈরি করেছেন এবং এটি llama.cpp প্রকল্পের অন্তর্ভুক্ত হয়েছে। এই PR-এর ফলে স্থানীয় ডিভাইসে বড় ভাষার মডেল (LLM) চালানোর গতি নাটকীয়ভাবে বেড়েছে।
এই উন্নতির মূল লক্ষ্য ছিল k-quants-এর জন্য ম্যাট্রিক্স গুণন বা matmul অপারেশনকে পুনরায় সাজানো। আগের সংস্করণে Q4, Q5, Q8 এবং k-quants-এর কোড আলাদা ছিল। নতুন PR-এ পুরো সিস্টেমকে একীভূত করে আরও কার্যকর করা হয়েছে। ফলে GPU-র সম্পদ ব্যবহারের হার বেড়েছে এবং প্রতি সেকেন্ডে টোকেন (tokens per second) উৎপাদনের পরিমাণ বেড়েছে।
পরীক্ষার ফলাফল M2 Pro হার্ডওয়্যারে চমকপ্রদ। pp512 টেস্টে দেখা গেছে Q2_K মডেলের গতি বেড়েছে ২.৪৪ গুণ। Q3_K মিডিয়াম মডেলের ক্ষেত্রে গতি বেড়েছে ৩.২৭ গুণ থেকে ৩.৭৮ গুণ পর্যন্ত। উদাহরণস্বরূপ, Gemma 4B মডেলের Q3_K মিডিয়াম ভার্সন আগে প্রতি সেকেন্ডে ৭৯ টোকেন দিতে পারত। এখন সেটি ২৯৮ টোকেনে পৌঁছেছে। Q4_K এবং Q5_K মডেলের গতিও ১.৩৪ থেকে ১.৩৬ গুণ বেড়েছে।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার এবং AI গবেষকদের জন্য এই খবর অত্যন্ত গুরুত্বপূর্ণ। স্থানীয়ভাবে ল্যাপটপ বা ডেস্কটপে বড় মডেল চালানোর খরচ অনেক কমে যাবে। এখন M2 Pro বা অনুরূপ GPU-সম্পন্ন ডিভাইস ব্যবহারকারীরা দ্রুত গতিতে কোয়ান্টাইজড মডেল চালাতে পারবেন। এটি ক্লাউড API-র ওপর নির্ভরতা কমাবে এবং গোপনীয়তা রক্ষা করবে। শিক্ষার্থী ও স্টার্টআপদের জন্য এটি বিশেষ উপকারী হবে।
এই PR-এর মাধ্যমে ggml-webgpu এখন আরও শক্তিশালী বিকল্প হয়ে উঠেছে। ভবিষ্যতে আরও উন্নত মডেল এবং আরও দ্রুত গতির আশা করা যায়। স্থানীয় AI ইনফারেন্সের যাত্রায় এটি একটি বড় মাইলফলক।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...