AI-কে বশে রাখার পদ্ধতি কি পুরনো মনোবিজ্ঞানের পুনরাবৃত্তি, জানুন প্রভাব
কৃত্রিম বুদ্ধিমত্তাকে মানব-বান্ধব করার জন্য ব্যবহৃত RLHF পদ্ধতিকে বিহেভিওরিজমের আধুনিক সংস্করণ বলে অভিহিত করা হয়েছে। একটি Reddit পোস্টে দাবি করা হয়েছে, এটি আসলে স্কিনারের অপারেন্ট কন্ডিশনিং-এর পুনরাবৃত্তি মাত্র।
কৃত্রিম বুদ্ধিমত্তাকে মানব-বান্ধব করার জন্য ব্যবহৃত RLHF পদ্ধতিকে বিহেভিওরিজমের আধুনিক সংস্করণ বলে অভিহিত করা হয়েছে। একটি Reddit পোস্টে দাবি করা হয়েছে, এটি আসলে স্কিনারের অপারেন্ট কন্ডিশনিং-এর পুনরাবৃত্তি মাত্র।
বিশ্বের শীর্ষস্থানীয় AI কোম্পানিগুলো যে পদ্ধতিতে কৃত্রিম বুদ্ধিমত্তাকে 'মানুষের সাথে সামঞ্জস্যপূর্ণ' বা এলাইনড করার চেষ্টা করছে, তা নিয়ে প্রশ্ন উঠেছে। Reddit-এর r/artificial ফোরামে একটি মতামতমূলক পোস্টে দাবি করা হয়েছে, বর্তমান AI এলাইনমেন্টের মূল পদ্ধতি RLHF (রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক) আসলে বিহেভিওরিজম নামক পুরনো মনোবিজ্ঞানের একটি আধুনিক সংস্করণ মাত্র। পোস্টটি অনুসারে, বিংশ শতাব্দীর শেষার্ধে যে মনোবৈজ্ঞানিক দৃষ্টিভঙ্গি ত্যাগ করার চেষ্টা করা হয়েছিল, AI শিল্প এখন সেটাকেই নতুন নামে ফিরিয়ে এনেছে।
পোস্টটির লেখক RLHF-এর কার্যপ্রণালীকে খুব সহজভাবে ব্যাখ্যা করেছেন। মডেল একটি আউটপুট তৈরি করে, মানুষ সেটিকে রেটিং দেয়, এবং সেই রেটিং অনুযায়ী গ্রেডিয়েন্ট আপডেটের মাধ্যমে উচ্চ-রেটেড আউটপুটকে শক্তিশালী ও নিম্ন-রেটেড আউটপুটকে দুর্বল করে দেওয়া হয়। লেখকের ভাষায়, 'এটি অপারেন্ট কন্ডিশনিং। এটি একটি লস ফাংশন যুক্ত স্কিনার।' অর্থাৎ, এটি বিখ্যাত মনোবিজ্ঞানী বি.এফ. স্কিনারের ইঁদুর নিয়ে করা পরীক্ষার মতো, যেখানে একটি নির্দিষ্ট আচরণের জন্য পুরস্কার বা শাস্তি দেওয়া হয়।
এই সমালোচনার মূল বক্তব্য হলো, RLHF পদ্ধতি AI-কে সত্যিকার অর্থে বোঝার বা নৈতিক সিদ্ধান্ত নেওয়ার ক্ষমতা দেয় না। এটি কেবল আচরণকে নিয়ন্ত্রণ করে। একটি শিশুকে যেমন শুধু 'ভালো' আচরণের জন্য পুরস্কৃত করলে সে নৈতিকতা বোঝে না, তেমনি AI-কেও শুধু মানুষের পছন্দের উত্তর দিতে শেখানো হচ্ছে। এটি এলাইনমেন্টের একটি অতিমাত্রায় সরলীকৃত এবং সমস্যাযুক্ত পদ্ধতি বলে মনে করছেন সমালোচকরা।
বাংলাদেশের প্রযুক্তি ও AI সম্প্রদায়ের জন্য এই বিতর্ক বিশেষ গুরুত্বপূর্ণ। দেশের শিক্ষার্থী, গবেষক এবং ফ্রিল্যান্সাররা যারা ChatGPT, Google Bard বা অন্যান্য বড় ভাষার মডেল নিয়ে কাজ করেন, তাদের বুঝতে হবে এই মডেলগুলি কীভাবে 'শিখছে' এবং তাদের সীমাবদ্ধতা কোথায়। শুধু আউটপুটের ভিত্তিতে মডেল মূল্যায়ন করলে ভুল সিদ্ধান্তে পৌঁছানোর ঝুঁকি থাকে। বিশেষ করে যখন AI-কে সংবেদনশীল কাজে যেমন আইনি পরামর্শ বা চিকিৎসা সংক্রান্ত তথ্য দেওয়ার জন্য ব্যবহার করা হয়, তখন এই পদ্ধতিগত দুর্বলতা বোঝা জরুরি।
তবে এটি মনে রাখা দরকার যে, এই পোস্টটি একটি মতামত, কোনো পিয়ার-রিভিউড গবেষণাপত্র নয়। OpenAI, Google, Anthropic-এর মতো কোম্পানিগুলো RLHF-এর সীমাবদ্ধতা জানে এবং তারা আরও উন্নত এলাইনমেন্ট কৌশল যেমন কনস্টিটিউশনাল AI এবং ডিবেট নিয়ে কাজ করছে। তবুও, এই সমালোচনা AI গবেষণার একটি মৌলিক প্রশ্ন সামনে আনে: আমরা কি সত্যিই একটি বুদ্ধিমান সিস্টেম তৈরি করছি, নাকি শুধু একটি অত্যন্ত উন্নত 'বানরের নাচ' শেখাচ্ছি?
ভবিষ্যতে AI এলাইনমেন্টের জন্য আরও গভীর এবং বহুমাত্রিক পদ্ধতির প্রয়োজন হবে। শুধু আচরণ নিয়ন্ত্রণ নয়, বরং অন্তর্নিহিত মূল্যবোধ এবং যুক্তি শেখানোর চেষ্টা করতে হবে। বাংলাদেশের AI বিশেষজ্ঞ এবং শিক্ষার্থীদের এই বিতর্ক অনুসরণ করা উচিত, কারণ এটি তাদের নিজস্ব গবেষণা এবং অ্যাপ্লিকেশন তৈরিতে সাহায্য করবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: Reddit r/artificial
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...