ওপেন সোর্স AI এখন ভিডিও বুঝবে, সাধারণ ল্যাপটপেই চলবে
ওপেন সোর্স AI ইনফারেন্স ইঞ্জিন llama.cpp-এ ভিডিও ইনপুট সাপোর্ট যুক্ত হয়েছে। এখন জেমা ও কুয়েনের মতো মাল্টিমোডাল মডেল সরাসরি ভিডিও বুঝতে পারবে। সাধারণ ব্যবহারকারীর হার্ডওয়্যারেই চলবে এই সুবিধা।
ওপেন সোর্স AI ইনফারেন্স ইঞ্জিন llama.cpp-এ ভিডিও ইনপুট সাপোর্ট যুক্ত হয়েছে। এখন জেমা ও কুয়েনের মতো মাল্টিমোডাল মডেল সরাসরি ভিডিও বুঝতে পারবে। সাধারণ ব্যবহারকারীর হার্ডওয়্যারেই চলবে এই সুবিধা।
ওপেন সোর্স AI জগতে বড় পরিবর্তন এসেছে। জনপ্রিয় ইনফারেন্স ইঞ্জিন llama.cpp-এ ভিডিও ইনপুট সাপোর্ট যুক্ত হয়েছে। Pull Request #24269-এর মাধ্যমে এই সুবিধা আনা হয়েছে। ডেভেলপার ngxson এই পুল রিকোয়েস্টটি জমা দিয়েছেন।
এই আপডেটের ফলে Gemma ও Qwen-এর মতো মাল্টিমোডাল মডেল এখন সরাসরি ভিডিও প্রসেস করতে পারবে। অর্থাৎ এই মডেলগুলো শুধু টেক্সট বা ছবি নয়, ভিডিওও বুঝতে পারবে। ব্যবহারকারীরা নিজেদের লোকাল মেশিনে ভিডিও দেখিয়ে AI-কে প্রশ্ন করতে পারবেন।
এই পুল রিকোয়েস্টটি llama.cpp-এর কোডবেসে ভিডিও প্রসেসিং ক্ষমতা যোগ করেছে। এর আগে এই ইঞ্জিন শুধু টেক্সট ও ইমেজ ইনপুট নিতে পারত। এখন ভিডিও ফ্রেমগুলোকে প্রসেস করে মডেলের কাছে পাঠানোর ব্যবস্থা করা হয়েছে। Reddit-এর r/LocalLLaMA সাবরেডিটে এই খবরটি শেয়ার করা হয়েছে। সেখানে u/jacek2023 পোস্টটি করেছেন।
এই আপডেটের সবচেয়ে বড় সুবিধা হলো এটি কনজিউমার হার্ডওয়্যারে চলে। অর্থাৎ আপনার সাধারণ ল্যাপটপ বা ডেস্কটপ কম্পিউটারেই এই ভিডিও প্রসেসিং কাজ করবে। আগে ভিডিও বোঝার জন্য শক্তিশালী GPU বা ক্লাউড সার্ভিসের প্রয়োজন হতো। এখন সেটা আর নেই।
বাংলাদেশের ডেভেলপার ও ফ্রিল্যান্সারদের জন্য এটি একটি গুরুত্বপূর্ণ খবর। এখন তারা লোকাল মেশিনে বসেই ভিডিও ডেটা নিয়ে কাজ করতে পারবেন। যেমন একটি ভিডিও থেকে গুরুত্বপূর্ণ তথ্য বের করা, ভিডিও কন্টেন্ট বিশ্লেষণ করা, বা অটোমেটিক ক্যাপশন তৈরি করা। এর জন্য কোনো ক্লাউড সার্ভিসের খরচ হবে না। শিক্ষার্থীরাও গবেষণার জন্য এই টুল ব্যবহার করতে পারবেন।
ভবিষ্যতে llama.cpp-তে আরও মাল্টিমোডাল মডেল যুক্ত হবে বলে আশা করা যাচ্ছে। এই আপডেট ওপেন সোর্স AI-কে আরও শক্তিশালী ও সহজলভ্য করে তুলেছে। যারা নিজেদের ডেটা নিয়ে কাজ করতে চান, তাদের জন্য এটি একটি দারুণ সুযোগ।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/LocalLLaMA
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...