বাংলাদেশি ডেভেলপারদের জন্য বড় সুখবর: ১০০+ ফাইলকে Markdown-এ রূপান্তরের ৩ স্ক্রিপ্ট
বাংলাদেশের ডেভেলপারদের জন্য বড় খবর। MarkItDown টুল ব্যবহার করে মাত্র এক বিকেলে শত শত PDF, DOCX ও PPTX ফাইলকে LLM-প্রস্তুত Markdown-এ রূপান্তরের তিনটি ব্যবহারিক স্ক্রিপ্ট প্রকাশ করেছে dev.to।
বাংলাদেশের ডেভেলপারদের জন্য বড় খবর। MarkItDown টুল ব্যবহার করে মাত্র এক বিকেলে শত শত PDF, DOCX ও PPTX ফাইলকে LLM-প্রস্তুত Markdown-এ রূপান্তরের তিনটি ব্যবহারিক স্ক্রিপ্ট প্রকাশ করেছে dev.to।
বাংলাদেশের ডেভেলপার, ফ্রিল্যান্সার ও শিক্ষার্থীদের জন্য একটি বড় সমস্যার সমাধান নিয়ে এলো dev.to-এর AI বিভাগ। একটি পোস্টে প্রকাশিত তিনটি ব্যবহারিক স্ক্রিপ্টের সাহায্যে এখন একসাথে ১০০টির বেশি ডকুমেন্টকে Markdown ফরম্যাটে রূপান্তর করা সম্ভব। এই পদ্ধতি বিশেষভাবে কার্যকর যারা নিজস্ব ডেটাসেট দিয়ে বড় ভাষার মডেল বা LLM ট্রেনিং করছেন।
লেখক জানিয়েছেন, তার কাছে তিন বছরের ক্লায়েন্ট প্রকল্পের ৩০০টি PDF, ৫০টি DOCX ফাইল এবং অসংখ্য PPTX ডেক জমা ছিল। সেগুলোকে এলএলএম পাইপলাইনে ব্যবহারের জন্য পরিষ্কার Markdown-এ রূপান্তর করা দরকার ছিল। একে একে খুলে কপি-পেস্ট করা সময়সাপেক্ষ এবং অদক্ষ। তাই তিনি MarkItDown নামের একটি ওপেন সোর্স টুল ব্যবহার করে মাত্র এক বিকেলে পুরো কাজ শেষ করেছেন।
MarkItDown হলো মাইক্রোসফটের তৈরি একটি টুল যা PDF, DOCX ও PPTX ফাইলকে নির্ভুলভাবে Markdown-এ রূপান্তর করতে পারে। LLM প্রশিক্ষণের জন্য Markdown সবচেয়ে উপযুক্ত ফরম্যাট কারণ এটি টেক্সটের গঠন, হেডার, লিস্ট ও লিংক সংরক্ষণ করে। সাধারণ প্লেইন টেক্সটের তুলনায় Markdown মডেলকে বিষয়বস্তু বুঝতে সাহায্য করে।
প্রথম স্ক্রিপ্টটি শুধুমাত্র PDF ফাইল নিয়ে কাজ করে। এটি একটি ডিরেক্টরির সব PDF স্ক্যান করে প্রতিটি পৃষ্ঠাকে আলাদা Markdown ফাইল হিসেবে সংরক্ষণ করে। দ্বিতীয় স্ক্রিপ্টটি DOCX ও PPTX ফাইল পরিচালনা করে। এটি মাইক্রোসফট ওয়ার্ড ও পাওয়ারপয়েন্টের ফরম্যাটিং ধরে রেখে টেক্সট বের করে। তৃতীয় স্ক্রিপ্টটি একটি অল-ইন-ওয়ান সমাধান যা তিন ধরনের ফাইলই একসঙ্গে প্রক্রিয়া করে এবং আউটপুট ফোল্ডারে সুসংগঠিতভাবে রাখে।
বাংলাদেশের প্রেক্ষাপটে এই পদ্ধতি অত্যন্ত গুরুত্বপূর্ণ। স্থানীয় ডেভেলপাররা প্রায়ই বাংলা ভাষার ডকুমেন্ট নিয়ে কাজ করেন। সরকারি অফিসের PDF, ব্যাংকের রিপোর্ট বা শিক্ষাপ্রতিষ্ঠানের নথি থেকে ডেটা বের করে LLM-এ ইনপুট দেওয়ার প্রয়োজন হয়। এই স্ক্রিপ্টগুলো সেই কাজকে আগের চেয়ে ১০ গুণ দ্রুত করে দেবে। একজন ডেভেলপার একদিনের কাজ এখন মাত্র ২-৩ ঘণ্টায় শেষ করতে পারবেন।
তবে কিছু সীমাবদ্ধতাও আছে। MarkItDown বর্তমানে শুধুমাত্র ইংরেজি ও ল্যাটিন অক্ষরভিত্তিক ভাষার জন্য অপ্টিমাইজড। বাংলা ইউনিকোড টেক্সটের ক্ষেত্রে কিছু ফরম্যাটিং সমস্যা হতে পারে। তবুও এটি একটি চমৎকার শুরু। ভবিষ্যতে বাংলা ভাষার জন্য আরও উন্নত সমাধান আসতে পারে।
যারা নিজস্ব ডেটাসেট দিয়ে AI মডেল ট্রেনিং করতে চান, তাদের জন্য এই স্ক্রিপ্টগুলো সময় ও শ্রম বাঁচানোর একটি কার্যকর উপায়। dev.to-এর মূল পোস্টে কোড ও ব্যবহারবিধি বিস্তারিত দেওয়া আছে। বাংলাদেশের ডেভেলপার সম্প্রদায়ের জন্য এটি একটি মূল্যবান সংযোজন।
আরও পড়ুন
এই সংবাদটি আন্তর্জাতিক সূত্রের তথ্য অবলম্বনে AI-সহায়তায় বাংলায় উপস্থাপন ও বাংলাদেশের প্রেক্ষাপটে সম্পাদিত। মূল তথ্যের জন্য নিচের সূত্র দেখুন।
মূল প্রতিবেদন: dev.to AI
সোর্স দেখুন ↗মন্তব্য০
লোড হচ্ছে...