গুগলের নতুন Croissant ফরম্যাটে ML ডেটাসেট বুঝতে সময় কমবে ৩ গুণ
গুগল রিসার্চ এবং MLCommons যৌথভাবে 'Croissant' নামে একটি নতুন মেটাডেটা ফরম্যাট চালু করেছে। এটি মেশিন লার্নিং ডেটাসেট বুঝতে এবং পুনরায় ব্যবহার করতে সময় কমিয়ে দেবে।
গুগল রিসার্চ এবং MLCommons যৌথভাবে 'Croissant' নামে একটি নতুন মেটাডেটা ফরম্যাট চালু করেছে। এটি মেশিন লার্নিং ডেটাসেট বুঝতে এবং পুনরায় ব্যবহার করতে সময় কমিয়ে দেবে।
গুগল রিসার্চ এবং MLCommons যৌথভাবে 'Croissant' নামে একটি নতুন মেটাডেটা ফরম্যাট চালু করেছে। এই ফরম্যাটটি মেশিন লার্নিং ডেটাসেটকে আরও সহজে বোঝার এবং পুনরায় ব্যবহার করার উপযোগী করে তুলবে।
মেশিন লার্নিং (ML) অনুশীলনকারীরা প্রায়ই বিদ্যমান ডেটাসেট ব্যবহার করে মডেল প্রশিক্ষণের জন্য অনেক সময় ব্যয় করে। তাদের ডেটার সংগঠন বোঝা বা কোন সাবসেট ফিচার হিসেবে ব্যবহার করবে তা নির্ধারণ করতে সময় চলে যায়। এই সমস্যা ML অগ্রগতির পথে একটি মৌলিক বাধা হয়ে দাঁড়িয়েছে।
Croissant এই বাধা দূর করার জন্য তৈরি করা হয়েছে। এটি একটি স্ট্যান্ডার্ড মেটাডেটা ফরম্যাট যা ডেটাসেটের কাঠামো, বৈশিষ্ট্য এবং ব্যবহারের নিয়ম বর্ণনা করে। এর ফলে ডেটাসেট নিয়ে কাজ শুরু করতে সময় কম লাগবে এবং ভুল বোঝাবুঝির সম্ভাবনা কমবে।
গুগল রিসার্চের সফটওয়্যার ইঞ্জিনিয়ার ওমর বেনজেল্লুন এবং গুগল কোর এমএল-এর সফটওয়্যার ইঞ্জিনিয়ার ও এমএলকমন্স অ্যাসোসিয়েশনের প্রেসিডেন্ট পিটার ম্যাটসন এই প্রকল্পের নেতৃত্ব দিচ্ছেন। তারা জানিয়েছেন, Croissant ডেটাসেটের বিস্তারিত তথ্য যেমন ফিচারের নাম, ডেটা টাইপ এবং লাইসেন্সিং তথ্য সরবরাহ করবে।
এই ফরম্যাটটি মূলত ডেটাসেটের জন্য একটি 'লেবেল' বা 'ট্যাগ' হিসেবে কাজ করে। এটি ডেটাসেটের ভেতরের ডেটা ফাইলগুলোর সম্পর্ক এবং তাদের ব্যবহারের নিয়ম সহজ ভাষায় বর্ণনা করে। ফলে একজন ডেটা সায়েন্টিস্ট বা ডেভেলপার দ্রুত বুঝতে পারবেন একটি ডেটাসেট তার কাজের জন্য উপযুক্ত কিনা।
বাংলাদেশের ডেটা সায়েন্টিস্ট, ফ্রিল্যান্সার এবং প্রযুক্তি শিক্ষার্থীদের জন্য এই খবর বিশেষ গুরুত্বপূর্ণ। তারা প্রায়ই বিভিন্ন উৎস থেকে ডেটাসেট সংগ্রহ করে মডেল তৈরি করে। Croissant ব্যবহার করে তারা দ্রুত ডেটাসেট নির্বাচন করতে পারবে এবং সময় বাঁচাতে পারবে।
ভবিষ্যতে Croissant আরও জনপ্রিয় হয়ে উঠলে এটি ML ডেটাসেট শেয়ারিং এবং পুনর্ব্যবহারের একটি স্ট্যান্ডার্ড মাধ্যম হয়ে উঠতে পারে। গুগল রিসার্চ এবং MLCommons এই ফরম্যাটটি ওপেন সোর্স হিসেবে প্রকাশ করেছে। ফলে যে কেউ এটি ব্যবহার করতে পারবে এবং এতে অবদান রাখতে পারবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Google Research
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...