NVIDIA Parakeet এখন C++ এ, পাইথন ছাড়াই ৫ গুণ গতি পাবেন বাংলাদেশি ডেভেলপাররা
একজন ডেভেলপার NVIDIA-এর Parakeet স্পিচ-টু-টেক্সট মডেলকে pure C++/ggml-এ পোর্ট করেছেন। ফলে Python বা PyTorch ছাড়াই এটি CPU ও GPU-তে চলে এবং NeMo-র তুলনায় 5x পর্যন্ত দ্রুত কাজ করে। বাংলাদেশের এআই ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এটি একটি বড় সুযোগ এনে দিয়েছে।
একজন ডেভেলপার NVIDIA-এর Parakeet স্পিচ-টু-টেক্সট মডেলকে pure C++/ggml-এ পোর্ট করেছেন। ফলে Python বা PyTorch ছাড়াই এটি CPU ও GPU-তে চলে এবং NeMo-র তুলনায় 5x পর্যন্ত দ্রুত কাজ করে। বাংলাদেশের এআই ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এটি একটি বড় সুযোগ এনে দিয়েছে।
একজন ডেভেলপার NVIDIA-এর Parakeet স্পিচ-টু-টেক্সট মডেলকে pure C++/ggml-এ পোর্ট করেছেন। এই পোর্টিংটি Reddit-এর r/LocalLLaMA কমিউনিটিতে শেয়ার করা হয়েছে। এটি একটি গুরুত্বপূর্ণ অগ্রগতি কারণ এখন Python বা PyTorch ছাড়াই এই মডেল চালানো যাবে।
এই নতুন ইমপ্লিমেন্টেশনটি NeMo রানটাইমের সাথে আউটপুটে byte-for-byte মিল রাখে। অর্থাৎ f32/f16 পাথে Word Error Rate বা WER শূন্য। সবচেয়ে বড় কথা হলো এটি GPU-তে NeMo-র নিজস্ব PyTorch রানটাইমের চেয়ে 5x পর্যন্ত দ্রুত কাজ করে। বড় TDT ও হাইব্রিড মডেলগুলিতে এই গতি বৃদ্ধি সবচেয়ে বেশি লক্ষণীয়।
Parakeet মডেলটি FastConformer আর্কিটেকচারের উপর ভিত্তি করে তৈরি। এটি CTC, RNNT এবং হাইব্রিড মডেল সমর্থন করে। ggml ইঞ্জিনটি llama.cpp ও whisper.cpp-এর পেছনের ইঞ্জিন হিসেবে পরিচিত। এই পোর্টিংয়ের ফলে মডেলটি CPU এবং একাধিক GPU ব্যাকএন্ডে চলে। CUDA, HIP, Vulkan ও Metal ব্যাকএন্ড সমর্থিত।
বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এই খবরটি বিশেষভাবে গুরুত্বপূর্ণ। এখন তারা কোনো ভারী Python পরিবেশ বা ক্লাউড সার্ভিস ছাড়াই নিজেদের কম্পিউটারে স্পিচ-টু-টেক্সট মডেল চালাতে পারবেন। এটি লোকাল ডিপ্লয়মেন্টের খরচ ও জটিলতা অনেক কমিয়ে দেবে। শিক্ষার্থী ও গবেষকরাও সহজেই এই প্রযুক্তি নিয়ে পরীক্ষা-নিরীক্ষা করতে পারবেন।
এই উন্নয়নের ফলে স্পিচ রিকগনিশন প্রযুক্তি আরও সহজলভ্য হবে। ছোট ও মাঝারি ব্যবসাগুলো এখন নিজেদের সার্ভারে এই মডেল স্থাপন করতে পারবে। কল সেন্টার, ট্রান্সক্রিপশন সার্ভিস ও অটোমেশন টুল তৈরিতে এটি বড় ভূমিকা রাখবে। বিশেষ করে যেখানে গোপনীয়তা ও ডেটা সুরক্ষা গুরুত্বপূর্ণ, সেখানে লোকাল ডিপ্লয়মেন্ট অপরিহার্য।
ভবিষ্যতে এই পোর্টিংটি আরও অপ্টিমাইজ হবে বলে আশা করা যাচ্ছে। কমিউনিটি ইতিমধ্যে বিভিন্ন ব্যাকএন্ড ও মডেল সাইজ নিয়ে কাজ শুরু করেছে। এটি ওপেন সোর্স ইকোসিস্টেমে একটি বড় সংযোজন হবে বলে বিশেষজ্ঞরা মনে করছেন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...