ONNX Runtime কী এবং কেন এটি গুরুত্বপূর্ণ?

ONNX Runtime হলো একটি ক্রস-প্ল্যাটফর্ম ইনফারেন্স ইঞ্জিন যা AI মডেলকে দ্রুত চালাতে সাহায্য করে। এটি CPU-তেও GPU-র কাছাকাছি গতি দিতে পারে, যা বাংলাদেশের মতো দেশের জন্য বড় সুবিধা।

HF Transformers bfloat16 এবং ONNX Runtime FP32-এর মধ্যে পার্থক্য কী?

bfloat16 কম মেমোরি ব্যবহার করে কিন্তু গতি কম। অন্যদিকে ONNX Runtime FP32 বেশি মেমোরি ব্যবহার করলেও 37% দ্রুত কাজ করে। তাই দ্রুততার প্রয়োজন হলে ONNX Runtime ভালো।

GGUF Q6_K কী এবং এটি কখন ব্যবহার করবেন?

GGUF Q6_K একটি কোয়ান্টাইজড মডেল ফরম্যাট যা মেমোরি খুব কম ব্যবহার করে। এটি তখন ব্যবহার করবেন যখন আপনার সিস্টেমে মেমোরি সীমিত, কিন্তু গতি ততটা গুরুত্বপূর্ণ নয়।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

CPU-তে AI ৩৭% দ্রুত: ONNX Runtime-এ মডেল চালানোর নতুন রেকর্ড

একটি নতুন বেঞ্চমার্কে দেখা গেছে, ONNX Runtime FP32 মডেল CPU-তে HF Transformers bfloat16-এর চেয়ে 37% দ্রুত কাজ করে। GGUF Q6_K কম মেমোরি ব্যবহার করলেও গতি কিছুটা ধীর। এই ফলাফল CPU-ভিত্তিক AI ইনফারেন্সের ভবিষ্যৎ বদলে দিতে পারে।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ৪৫ দিন আগে · সূত্র: Reddit r/MachineLearning

CPU-তে AI ৩৭% দ্রুত: ONNX Runtime-এ মডেল চালানোর নতুন রেকর্ড

প্রসেসর-ভিত্তিক কৃত্রিম বুদ্ধিমত্তা বা CPU-ভিত্তিক AI ইনফারেন্সের জগতে একটি গুরুত্বপূর্ণ পরিবর্তন এসেছে। Reddit-এর r/MachineLearning ফোরামে প্রকাশিত একটি বেঞ্চমার্কে দেখা গেছে, ONNX Runtime FP32 মডেলটি Hugging Face Transformers bfloat16 মডেলের চেয়ে 37 শতাংশ বেশি দ্রুত কাজ করে। এই পরীক্ষাটি করা হয়েছে nvidia/parakeet-tdt-0.6b-v3 মডেল দিয়ে, যা একটি স্পিচ রিকগনিশন মডেল।

এই ফলাফল বিশেষভাবে গুরুত্বপূর্ণ কারণ এটি GPU-ছাড়া পরিবেশে AI মডেল চালানোর সম্ভাবনাকে নতুন করে দেখায়। বাংলাদেশের মতো দেশে যেখানে সব ব্যবহারকারীর কাছে উচ্চক্ষমতার গ্রাফিক্স কার্ড বা GPU নেই, সেখানে CPU-তে দ্রুত ও নির্ভুল AI চালানোর পদ্ধতি বড় একটি প্রয়োজন। এই বেঞ্চমার্ক দেখায় যে ONNX Runtime ব্যবহার করে CPU-তেই অনেক কাজ সহজে ও দ্রুত সম্পন্ন করা সম্ভব।

পরীক্ষার সেটআপে দুটি x86-64 vCPU ব্যবহার করা হয়েছে, যেখানে AVX2 ও FMA নির্দেশনা সেট সক্রিয় ছিল। মোট RAM ছিল 7.7 গিগাবাইট। কোনো GPU ছাড়াই এই পরীক্ষা চালানো হয়। পরীক্ষার জন্য 16.78 সেকেন্ডের একটি অডিও ফাইল ব্যবহার করা হয়, যা হার্ভার্ড বাক্যের একটি নমুনা। অডিওটি ছিল 16kHz-এর মনো ফরম্যাটে।

ফলাফলের তুলনা করলে দেখা যায়, HF Transformers bfloat16 মডেলের Real Time Factor বা RTF ছিল 0.519 এবং এটি প্রায় 430 মেগাবাইট মেমোরি ব্যবহার করেছে। অন্যদিকে ONNX Runtime FP32 মডেলের RTF ছিল 0.328, অর্থাৎ এটি অনেক দ্রুত কাজ করেছে। তবে এটি 2,667 মেগাবাইট মেমোরি ব্যবহার করেছে, যা আগেরটির চেয়ে বেশি। CPU ব্যবহারের হার ছিল 49.9 শতাংশ।

GGUF Q6_K ফরম্যাটের মডেলটি সবচেয়ে কম মেমোরি ব্যবহার করেছে, মাত্র 928 মেগাবাইট। কিন্তু এর RTF ছিল 0.708, যা সবচেয়ে ধীর। CPU ব্যবহারের হার ছিল 99.8 শতাংশ, অর্থাৎ এটি প্রসেসরের সবটুকু শক্তি ব্যবহার করে কাজ করেছে। এই ফলাফল থেকে বোঝা যায়, মেমোরি বাঁচাতে গেলে গতি কমে যেতে পারে।

বাংলাদেশের ডেভেলপার ও গবেষকদের জন্য এই তথ্য অত্যন্ত মূল্যবান। যারা ল্যাপটপ বা ডেস্কটপে GPU ছাড়া AI মডেল চালান, তারা ONNX Runtime ব্যবহার করে দ্রুত ফলাফল পেতে পারেন। বিশেষ করে স্পিচ রিকগনিশন, টেক্সট প্রসেসিং বা ছোট মডেলের কাজের ক্ষেত্রে এটি বড় একটি সুবিধা। ফ্রিল্যান্সার ও শিক্ষার্থীরাও এই পদ্ধতি ব্যবহার করে নিজেদের প্রকল্পে AI যুক্ত করতে পারবেন।

ভবিষ্যতে CPU-ভিত্তিক ইনফারেন্স আরও উন্নত হবে বলে আশা করা যায়। ONNX Runtime ইতিমধ্যে একটি শক্তিশালী টুল হিসেবে প্রমাণিত হয়েছে। তবে মেমোরি ও গতির মধ্যে ভারসাম্য রেখে সঠিক টুল বাছাই করা এখন ডেভেলপারদের ওপর নির্ভর করছে।

CPU-তে AI ৩৭% দ্রুত: ONNX Runtime-এ মডেল চালানোর নতুন রেকর্ড

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০