কুইকটোক এলো ওপেন সোর্সে, টিকটোকেনের চেয়ে ১১ গুণ দ্রুত টোকেনাইজেশন
একটি নতুন C++ টোকেনাইজার কুইকটোক টিকটোকেনের চেয়ে ৪ থেকে ১১ গুণ দ্রুত কাজ করে। এটি বাইট-আইডেন্টিক্যাল আউটপুট দেয় এবং OpenAI, Llama-3 ও Qwen2.5 টোকেনাইজার সাপোর্ট করে। ডেভেলপারদের জন্য এটি টোকেনাইজেশন ওয়ার্কফ্লোতে বড় গতি আনতে পারে।
একটি নতুন C++ টোকেনাইজার কুইকটোক টিকটোকেনের চেয়ে ৪ থেকে ১১ গুণ দ্রুত কাজ করে। এটি বাইট-আইডেন্টিক্যাল আউটপুট দেয় এবং OpenAI, Llama-3 ও Qwen2.5 টোকেনাইজার সাপোর্ট করে। ডেভেলপারদের জন্য এটি টোকেনাইজেশন ওয়ার্কফ্লোতে বড় গতি আনতে পারে।
টোকেনাইজেশন প্রক্রিয়ায় গতি আনতে একটি নতুন ওপেন সোর্স টুল প্রকাশ পেয়েছে। কুইকটোক (quicktok) নামের এই টুলটি C++ ভাষায় লেখা একটি BPE টোকেনাইজার। এটি টিকটোকেন (tiktoken) ও bpe-openai-এর চেয়ে বহুগুণ দ্রুত কাজ করে।
কুইকটোক টিকটোকেনের চেয়ে ৪ থেকে ১১ গুণ দ্রুত এবং bpe-openai-এর চেয়ে ২ থেকে ৩.৬ গুণ দ্রুত টোকেন তৈরি করে। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো এর আউটপুট টিকটোকেনের সাথে বাইট-আইডেন্টিক্যাল। অর্থাৎ একই টেক্সট থেকে একই টোকেন আইডি তৈরি হয়, কিন্তু অনেক কম সময়ে।
এই টুলটি cl100k, o200k, GPT-OSS, Llama-3 এবং Qwen2.5/3 টোকেনাইজার সাপোর্ট করে। এটি bpe-openai-এর মতো একই অ্যালগরিদম ব্যবহার করে, তবে ডেটা স্ট্রাকচার ইঞ্জিনিয়ারিংয়ের মাধ্যমে ব্যাপক গতি বৃদ্ধি করা হয়েছে। রেডিটের r/MachineLearning সাবরেডিটে ডেভেলপার জানিয়েছেন, এই প্রকল্পে দীর্ঘদিন কাজ করার পর এটি প্রকাশ করা হয়েছে।
টোকেনাইজেশন বড় ভাষার মডেল (LLM) ব্যবহারের সময় একটি গুরুত্বপূর্ণ ধাপ। টেক্সটকে ছোট ছোট টোকেনে ভাঙতে হয়। দ্রুত টোকেনাইজেশন মানে দ্রুত প্রসেসিং। বিশেষ করে বড় ডেটাসেট নিয়ে কাজ করার সময় বা রিয়েল-টাইম অ্যাপ্লিকেশনে এই গতি বড় পার্থক্য তৈরি করে।
বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য কুইকটোক একটি কার্যকর টুল হতে পারে। যারা বড় ভাষার মডেল নিয়ে কাজ করেন, বিশেষ করে OpenAI API ব্যবহার করেন বা নিজস্ব মডেল ট্রেন করেন, তারা টোকেনাইজেশনের সময় বাঁচাতে পারবেন। কম্পিউট রিসোর্স কম থাকলেও দ্রুত টোকেনাইজেশন সম্ভব হবে। ফ্রিল্যান্সাররা তাদের প্রজেক্টে এই টুল ব্যবহার করে ক্লায়েন্টকে দ্রুত সেবা দিতে পারবেন।
কুইকটোকের কোড ওপেন সোর্স হিসেবে প্রকাশিত হয়েছে। ডেভেলপাররা এটি নিজেদের প্রজেক্টে ব্যবহার করতে পারবেন এবং কন্ট্রিবিউটও করতে পারবেন। ভবিষ্যতে আরও টোকেনাইজার সাপোর্ট এবং আরও গতি বৃদ্ধির সম্ভাবনা রয়েছে। টোকেনাইজেশনের ক্ষেত্রে এটি একটি গুরুত্বপূর্ণ অগ্রগতি।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/MachineLearning
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...