২২ হাজার কেবি ফাইল পেয়ে ডেটা সায়েন্টিস্ট বানালেন নিজের টুল, জানুন কী লাভ
একজন ডেটা সায়েন্টিস্ট Repomix টুল ব্যবহার করে তার প্রজেক্টের সব ফাইল একত্র করে একটি 22,085 KB ফাইল পান। পরে তিনি নিজের প্রয়োজন অনুযায়ী একটি নতুন টুল তৈরি করেন।
একজন ডেটা সায়েন্টিস্ট Repomix টুল ব্যবহার করে তার প্রজেক্টের সব ফাইল একত্র করে একটি 22,085 KB ফাইল পান। পরে তিনি নিজের প্রয়োজন অনুযায়ী একটি নতুন টুল তৈরি করেন।
কিছু মাস আগে একজন বন্ধু দুটি টুল দেখান — Repomix এবং code2prompt। ধারণাটি সহজ ছিল: আপনার প্রজেক্ট ফোল্ডারে এগুলো নির্দেশ করুন, তারা সবকিছু একটি ফাইলে প্যাকেজ করে, আপনি সেটি একটি LLM-এ পেস্ট করে পুরো কোডবেস সম্পর্কে প্রশ্ন করতে পারেন। তার বিশুদ্ধ Python প্রজেক্টের জন্য টুল দুটি দারুণ কাজ করেছিল।
কিন্তু আমি তখন একটি ডেটা অ্যানালিটিক্স প্রজেক্টে কাজ করছিলাম — ডাইমেনশন এবং ফ্যাক্ট CSV ফাইল, একটি SQL ডাম্প, কিছু Power BI ফাইল, ML মডেলসহ Jupyter নোটবুক। আমি Repomix চালালাম এবং পেলাম 22,085 KB আউটপুট ফাইল। code2promptও একই অবস্থা তৈরি করল। এই বিশাল ফাইল LLM-এ দেওয়া অসম্ভব ছিল।
এই সমস্যার সমাধান করতে গিয়ে আমি নিজেই একটি টুল তৈরি করার সিদ্ধান্ত নিলাম। আমার লক্ষ্য ছিল শুধু প্রাসঙ্গিক ফাইলগুলো নির্বাচন করা এবং সেগুলোকে একটি ছোট, কার্যকর ফরম্যাটে রূপান্তর করা। নতুন টুলটি শুধু টেক্সট ফাইল এবং ছোট ডেটাসেট নিয়ে কাজ করে, বাইনারি বা বড় ফাইল বাদ দেয়।
Repomix এবং code2prompt মূলত কোডবেস বিশ্লেষণের জন্য তৈরি। এরা সব ফাইলকে একত্রিত করে একটি বড় ফাইল তৈরি করে। কিন্তু ডেটা সায়েন্স প্রজেক্টে প্রচুর বাইনারি ফাইল, বড় CSV এবং SQL ডাম্প থাকে। এগুলো LLM-এর জন্য অপ্রয়োজনীয় এবং ফাইলের আকার বাড়িয়ে দেয়।
আমার তৈরি টুলটি প্রথমে ফাইল টাইপ ফিল্টার করে। এটি শুধু .py, .ipynb, .sql, .txt, .md, .csv (ছোট আকারের) ফাইলগুলো নির্বাচন করে। তারপর সেগুলোকে একটি একক টেক্সট ফাইলে মার্জ করে। এই পদ্ধতিতে ফাইলের আকার 20 গুণ পর্যন্ত কমে যায়। ফলে LLM দ্রুত এবং নির্ভুলভাবে উত্তর দিতে পারে।
বাংলাদেশের ডেটা সায়েন্টিস্ট এবং ডেভেলপারদের জন্য এই ঘটনা গুরুত্বপূর্ণ। দেশে ডেটা অ্যানালিটিক্স এবং ML প্রজেক্টের সংখ্যা বাড়ছে। ফ্রিল্যান্সাররা প্রায়ই বড় প্রজেক্ট নিয়ে কাজ করেন। তাদের জন্য একটি অপ্টিমাইজড টুল থাকা মানে সময় এবং সম্পদের সাশ্রয়। নিজের প্রয়োজন বুঝে টুল কাস্টমাইজ করার ধারণাটিও শিক্ষণীয়।
ভবিষ্যতে আরও স্মার্ট টুল তৈরি হবে যা প্রজেক্টের ধরন বুঝে স্বয়ংক্রিয়ভাবে ফাইল নির্বাচন করবে। আমার তৈরি টুলটি ওপেন সোর্স হিসেবে প্রকাশ করার পরিকল্পনা আছে। আশা করি এটি অন্যদেরও কাজে লাগবে।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to AI
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...