AI গবেষণায় বড় ধাক্কা, একই সেটিংসে ভিন্ন ফলাফল, বাংলাদেশের ফ্রিল্যান্সারদের সতর্ক থাকতে হবে
Nexus Labs-এর গবেষকরা দেখেছেন, temperature=0 এবং seed=42 সেট করেও একই 800টি প্রম্পটের স্যুটে ভিন্ন ভিন্ন ফলাফল আসছে। কারণটি স্যাম্পলার নয়, বরং ইনফারেন্স ইঞ্জিনের ব্যাচ-নির্ভর ফ্লোটিং-পয়েন্ট অপারেশন এবং নীরব প্রোভাইডার রাউটিং। তিনটি সমাধান খুঁজে পেয়েছেন তারা।
Nexus Labs-এর গবেষকরা দেখেছেন, temperature=0 এবং seed=42 সেট করেও একই 800টি প্রম্পটের স্যুটে ভিন্ন ভিন্ন ফলাফল আসছে। কারণটি স্যাম্পলার নয়, বরং ইনফারেন্স ইঞ্জিনের ব্যাচ-নির্ভর ফ্লোটিং-পয়েন্ট অপারেশন এবং নীরব প্রোভাইডার রাউটিং। তিনটি সমাধান খুঁজে পেয়েছেন তারা।
এআই মডেলের মূল্যায়ন (eval) কি সত্যিই নির্ভরযোগ্য? Nexus Labs-এর ইভাল টিম দেখিয়েছে, temperature=0 এবং seed=42 সেট করেও একই 800টি প্রম্পটের স্যুটে ভিন্ন ভিন্ন ফলাফল আসতে পারে। প্রতিষ্ঠানটির ইভাল টিমের প্রধান জানিয়েছেন, তারা পুরো এক সপ্তাহ ধরে এই সমস্যার পেছনে ছুটেছেন।
গবেষকরা প্রথমে ভেবেছিলেন স্যাম্পলার বা এলোমেলো সংখ্যা জেনারেটরে সমস্যা আছে। কিন্তু পরে তারা আবিষ্কার করেন, আসল কারণটি আরও গভীরে লুকিয়ে আছে। ইনফারেন্স ইঞ্জিনের ব্যাচ-নির্ভর ফ্লোটিং-পয়েন্ট অপারেশন এবং নীরব প্রোভাইডার রাউটিং এই অসঙ্গতির জন্য দায়ী।
ফ্লোটিং-পয়েন্ট অপারেশন বলতে বোঝায়, যখন কম্পিউটার দশমিক সংখ্যা নিয়ে গণনা করে। ব্যাচ প্রক্রিয়াকরণের সময় এই গণনার ক্রম পরিবর্তিত হলে ফলাফলে সামান্য পার্থক্য দেখা দেয়। অন্যদিকে, নীরব প্রোভাইডার রাউটিং বলতে বোঝায়, যখন কোনো API স্বয়ংক্রিয়ভাবে বিভিন্ন সার্ভারে অনুরোধ পাঠায়। ব্যবহারকারীকে না জানিয়েই এই রাউটিং ঘটে এবং প্রতিটি সার্ভারের হার্ডওয়্যার ও সফটওয়্যার কনফিগারেশন ভিন্ন হতে পারে।
Nexus Labs ছোট ছোট মডেল ফাইন-টিউন করে এন্টারপ্রাইজ এজেন্ট অটোমেশনের জন্য। তাদের পুরো রিলিজ প্রক্রিয়া নির্ভর করে একটি মাত্র সংখ্যার ওপর: 800টি প্রম্পটের স্যুটে পাস রেট। এই পাস রেট যদি প্রতিবার ভিন্ন হয়, তবে মডেলের গুণমান যাচাই করা অসম্ভব হয়ে পড়ে।
গবেষকরা তিনটি সমাধান খুঁজে পেয়েছেন যা এই সমস্যা দূর করতে পারে। প্রথম সমাধানটি হলো ব্যাচ সাইজ স্থির রাখা এবং ইনফারেন্স ইঞ্জিনের ফ্লোটিং-পয়েন্ট অপারেশনের ক্রম নিয়ন্ত্রণ করা। দ্বিতীয় সমাধানটি হলো প্রোভাইডার রাউটিং বন্ধ করে নির্দিষ্ট একটি সার্ভারে সব অনুরোধ পাঠানো। তৃতীয় সমাধানটি হলো প্রতিটি ইভাল রানের আগে মডেলের ওয়েট এবং কনফিগারেশন সম্পূর্ণরূপে রিসেট করা।
বাংলাদেশের প্রযুক্তি খাতের জন্য এই গবেষণার গুরুত্ব অনেক। স্থানীয় স্টার্টআপ এবং গবেষণা প্রতিষ্ঠান যারা নিজস্ব এআই মডেল তৈরি করে, তারা প্রায়ই ইভাল স্কোরের ওপর নির্ভর করে। যদি এই স্কোর নির্ভরযোগ্য না হয়, তবে মডেলের প্রকৃত দক্ষতা বোঝা কঠিন হয়ে পড়ে। বিশেষ করে ফ্রিল্যান্সার এবং ছোট দলের জন্য, যাদের কাছে বড় কম্পিউটিং রিসোর্স নেই, এই সমস্যা আরও প্রকট।
ভবিষ্যতে এআই মডেলের মূল্যায়ন আরও নির্ভরযোগ্য করতে এই ধরনের গবেষণা অত্যন্ত গুরুত্বপূর্ণ। Nexus Labs-এর আবিষ্কার দেখিয়ে দিয়েছে, শুধু temperature এবং seed ঠিক করলেই হয় না। ইভাল পাইপলাইনের প্রতিটি স্তরকে নিয়ন্ত্রণে আনতে হবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to ML
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...