temperature=0 এবং seed=42 সেট করেও কেন এলএলএম ইভাল রিপ্রোডিউসিবল হয় না?

কারণটি স্যাম্পলার নয়, বরং ইনফারেন্স ইঞ্জিনের ব্যাচ-নির্ভর ফ্লোটিং-পয়েন্ট অপারেশন এবং নীরব প্রোভাইডার রাউটিং। ব্যাচ প্রক্রিয়াকরণের সময় গণনার ক্রম পরিবর্তিত হলে ফলাফলে সামান্য পার্থক্য দেখা দেয়।

এই সমস্যার সমাধান কী কী?

তিনটি সমাধান রয়েছে: ব্যাচ সাইজ স্থির রাখা ও ফ্লোটিং-পয়েন্ট অপারেশনের ক্রম নিয়ন্ত্রণ করা, প্রোভাইডার রাউটিং বন্ধ করে নির্দিষ্ট সার্ভার ব্যবহার করা, এবং প্রতিটি ইভাল রানের আগে মডেলের ওয়েট ও কনফিগারেশন সম্পূর্ণ রিসেট করা।

বাংলাদেশের ডেভেলপারদের জন্য এই গবেষণার গুরুত্ব কী?

স্থানীয় স্টার্টআপ ও গবেষণা প্রতিষ্ঠান যারা নিজস্ব এআই মডেল তৈরি করে, তারা ইভাল স্কোরের ওপর নির্ভর করে। এই গবেষণা দেখায় যে নির্ভরযোগ্য ইভালের জন্য শুধু temperature ও seed নয়, পুরো পাইপলাইন নিয়ন্ত্রণ করা জরুরি।

হোম/নিউজ/রিসার্চ

রিসার্চ৫ মিনিট পড়া

AI গবেষণায় বড় ধাক্কা, একই সেটিংসে ভিন্ন ফলাফল, বাংলাদেশের ফ্রিল্যান্সারদের সতর্ক থাকতে হবে

Nexus Labs-এর গবেষকরা দেখেছেন, temperature=0 এবং seed=42 সেট করেও একই 800টি প্রম্পটের স্যুটে ভিন্ন ভিন্ন ফলাফল আসছে। কারণটি স্যাম্পলার নয়, বরং ইনফারেন্স ইঞ্জিনের ব্যাচ-নির্ভর ফ্লোটিং-পয়েন্ট অপারেশন এবং নীরব প্রোভাইডার রাউটিং। তিনটি সমাধান খুঁজে পেয়েছেন তারা।

সম্পাদকীয় টিম

স্টাফ রিপোর্টার · ২ ঘণ্টা আগে · সূত্র: dev.to ML

AI গবেষণায় বড় ধাক্কা, একই সেটিংসে ভিন্ন ফলাফল, বাংলাদেশের ফ্রিল্যান্সারদের সতর্ক থাকতে হবে

এআই মডেলের মূল্যায়ন (eval) কি সত্যিই নির্ভরযোগ্য? Nexus Labs-এর ইভাল টিম দেখিয়েছে, temperature=0 এবং seed=42 সেট করেও একই 800টি প্রম্পটের স্যুটে ভিন্ন ভিন্ন ফলাফল আসতে পারে। প্রতিষ্ঠানটির ইভাল টিমের প্রধান জানিয়েছেন, তারা পুরো এক সপ্তাহ ধরে এই সমস্যার পেছনে ছুটেছেন।

গবেষকরা প্রথমে ভেবেছিলেন স্যাম্পলার বা এলোমেলো সংখ্যা জেনারেটরে সমস্যা আছে। কিন্তু পরে তারা আবিষ্কার করেন, আসল কারণটি আরও গভীরে লুকিয়ে আছে। ইনফারেন্স ইঞ্জিনের ব্যাচ-নির্ভর ফ্লোটিং-পয়েন্ট অপারেশন এবং নীরব প্রোভাইডার রাউটিং এই অসঙ্গতির জন্য দায়ী।

ফ্লোটিং-পয়েন্ট অপারেশন বলতে বোঝায়, যখন কম্পিউটার দশমিক সংখ্যা নিয়ে গণনা করে। ব্যাচ প্রক্রিয়াকরণের সময় এই গণনার ক্রম পরিবর্তিত হলে ফলাফলে সামান্য পার্থক্য দেখা দেয়। অন্যদিকে, নীরব প্রোভাইডার রাউটিং বলতে বোঝায়, যখন কোনো API স্বয়ংক্রিয়ভাবে বিভিন্ন সার্ভারে অনুরোধ পাঠায়। ব্যবহারকারীকে না জানিয়েই এই রাউটিং ঘটে এবং প্রতিটি সার্ভারের হার্ডওয়্যার ও সফটওয়্যার কনফিগারেশন ভিন্ন হতে পারে।

Nexus Labs ছোট ছোট মডেল ফাইন-টিউন করে এন্টারপ্রাইজ এজেন্ট অটোমেশনের জন্য। তাদের পুরো রিলিজ প্রক্রিয়া নির্ভর করে একটি মাত্র সংখ্যার ওপর: 800টি প্রম্পটের স্যুটে পাস রেট। এই পাস রেট যদি প্রতিবার ভিন্ন হয়, তবে মডেলের গুণমান যাচাই করা অসম্ভব হয়ে পড়ে।

গবেষকরা তিনটি সমাধান খুঁজে পেয়েছেন যা এই সমস্যা দূর করতে পারে। প্রথম সমাধানটি হলো ব্যাচ সাইজ স্থির রাখা এবং ইনফারেন্স ইঞ্জিনের ফ্লোটিং-পয়েন্ট অপারেশনের ক্রম নিয়ন্ত্রণ করা। দ্বিতীয় সমাধানটি হলো প্রোভাইডার রাউটিং বন্ধ করে নির্দিষ্ট একটি সার্ভারে সব অনুরোধ পাঠানো। তৃতীয় সমাধানটি হলো প্রতিটি ইভাল রানের আগে মডেলের ওয়েট এবং কনফিগারেশন সম্পূর্ণরূপে রিসেট করা।

বাংলাদেশের প্রযুক্তি খাতের জন্য এই গবেষণার গুরুত্ব অনেক। স্থানীয় স্টার্টআপ এবং গবেষণা প্রতিষ্ঠান যারা নিজস্ব এআই মডেল তৈরি করে, তারা প্রায়ই ইভাল স্কোরের ওপর নির্ভর করে। যদি এই স্কোর নির্ভরযোগ্য না হয়, তবে মডেলের প্রকৃত দক্ষতা বোঝা কঠিন হয়ে পড়ে। বিশেষ করে ফ্রিল্যান্সার এবং ছোট দলের জন্য, যাদের কাছে বড় কম্পিউটিং রিসোর্স নেই, এই সমস্যা আরও প্রকট।

ভবিষ্যতে এআই মডেলের মূল্যায়ন আরও নির্ভরযোগ্য করতে এই ধরনের গবেষণা অত্যন্ত গুরুত্বপূর্ণ। Nexus Labs-এর আবিষ্কার দেখিয়ে দিয়েছে, শুধু temperature এবং seed ঠিক করলেই হয় না। ইভাল পাইপলাইনের প্রতিটি স্তরকে নিয়ন্ত্রণে আনতে হবে।

AI গবেষণায় বড় ধাক্কা, একই সেটিংসে ভিন্ন ফলাফল, বাংলাদেশের ফ্রিল্যান্সারদের সতর্ক থাকতে হবে

আরও পড়ুন

AI নিউজ সরাসরি ইমেইলে পান

মন্তব্য০