Swahili AI-তে ভুল ৪ গুণ বেশি, জানুন কীভাবে সমাধান হবে
একটি নতুন গবেষণায় দেখা গেছে, সাধারণ ভাষার মডেলগুলো Swahili ভাষায় ইংরেজির তুলনায় 4 গুণ বেশি ভুল করে। এর কারণ ভাষার জটিলতা নয়, বরং তথ্যের অভাব। Common Crawl ডেটাসেটে Swahili-এর পরিমাণ ইংরেজির তুলনায় 500 গুণ কম।
একটি নতুন গবেষণায় দেখা গেছে, সাধারণ ভাষার মডেলগুলো Swahili ভাষায় ইংরেজির তুলনায় 4 গুণ বেশি ভুল করে। এর কারণ ভাষার জটিলতা নয়, বরং তথ্যের অভাব। Common Crawl ডেটাসেটে Swahili-এর পরিমাণ ইংরেজির তুলনায় 500 গুণ কম।
বাংলাদেশের AI ও প্রযুক্তি সংবাদমাধ্যম AIখবর জানিয়েছে, ভাষা মডেলের জগতে একটি বড় বৈষম্য উন্মোচিত হয়েছে। 2025 সালের একটি বেঞ্চমার্ক গবেষণা (arXiv:2509.04516) নিশ্চিত করেছে যে, সাধারণ-উদ্দেশ্যের ভাষার মডেলগুলো Swahili ভাষায় ইংরেজির তুলনায় চার গুণ বেশি ভুল তৈরি করে। এমনকি সহজ তথ্যভিত্তিক কাজেও এই ত্রুটির হার একই রকম।
পূর্ব আফ্রিকার AI ডেভেলপাররা দীর্ঘদিন ধরে এই সমস্যা লক্ষ্য করছিলেন। গবেষণাটি তাদের পর্যবেক্ষণকেই বৈজ্ঞানিকভাবে প্রমাণ করেছে। এই বৈষম্যের মূল কারণ ভাষার জটিলতা নয়। এটি সম্পূর্ণভাবে তথ্যের অভাবজনিত সমস্যা।
এই সমস্যার শিকড় খুঁজতে গেলে দেখা যায়, LLM বা বৃহৎ ভাষার মডেল প্রশিক্ষণের প্রধান উৎস Common Crawl ডেটাসেটটি প্রায় 50 শতাংশ ইংরেজি এবং মাত্র 0.1 শতাংশ Swahili। এর মানে হলো, Swahili ভাষার জন্য ইংরেজির তুলনায় 500 গুণ কম তথ্য রয়েছে। ভাষার মডেলগুলো Swahili ভাষায় ব্যর্থ হয় কারণ ভাষাটি কঠিন, তা নয়। তারা ব্যর্থ হয় কারণ তারা কখনোই এই ভাষার যথেষ্ট নমুনা দেখেনি। এই অবস্থাকে 'ডেটা স্টারভেশন' বা তথ্য ক্ষুধা বলা হচ্ছে।
গবেষকরা এই সমস্যা সমাধানের জন্য কাজ করছেন। তারা ছোট কিন্তু উচ্চ-মানের Swahili ডেটাসেট তৈরি এবং কিউরেট করার পদ্ধতি নিয়ে পরীক্ষা-নিরীক্ষা চালাচ্ছেন। এর মধ্যে রয়েছে স্থানীয় সংবাদপত্র, বই এবং ওয়েবসাইট থেকে তথ্য সংগ্রহ করা। এছাড়াও, ট্রান্সফার লার্নিং এবং ফাইন-টিউনিং-এর মতো কৌশল ব্যবহার করে অল্প তথ্য দিয়েও মডেলের কর্মক্ষমতা বাড়ানোর চেষ্টা চলছে।
বাংলাদেশের জন্য এই গবেষণার বিশেষ তাৎপর্য রয়েছে। বাংলাদেশেও বাংলা ভাষার জন্য একই রকম তথ্যের অভাব রয়েছে। Common Crawl-এ বাংলার অবস্থান Swahili-এর চেয়ে খুব বেশি ভালো নয়। বাংলাদেশি ডেভেলপার এবং গবেষকরা এই গবেষণা থেকে শিক্ষা নিয়ে বাংলা ভাষার জন্য উন্নত AI মডেল তৈরি করতে পারেন। ফ্রিল্যান্সার এবং শিক্ষার্থীদের জন্যও এটি একটি গুরুত্বপূর্ণ বার্তা। তারা নিজেদের ভাষাভিত্তিক প্রকল্পে তথ্যের অভাব মোকাবিলার কৌশল বুঝতে পারবেন।
ভবিষ্যতে, ভাষাভিত্তিক বৈষম্য দূর করাই AI-এর সার্বজনীন ব্যবহার নিশ্চিত করার মূল চাবিকাঠি। Swahili-র জন্য করা এই কাজ বাংলাসহ অন্যান্য 'নিম্ন-সম্পদ' ভাষার জন্যও পথ দেখাবে। তথ্যের অভাব একটি সমাধানযোগ্য সমস্যা, এবং সঠিক উদ্যোগই পারে AI-কে সবার জন্য আরও সমান ও কার্যকর করে তুলতে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...