मुझे एक पाठ वर्गीकरण समस्या से निपटना है। एक वेब क्रॉलर एक निश्चित डोमेन के वेबपेजों को क्रॉल करता है और प्रत्येक वेबपेज के लिए मैं यह पता लगाना चाहता हूं कि यह केवल एक विशिष्ट वर्ग का है या नहीं। यही है, अगर मैं इस वर्ग को सकारात्मक कहता हूं, तो प्रत्येक क्रॉल किए गए वेबपेज सकारात्मक या वर्ग के लिए सकारात्मक या गैर-सकारात्मक वर्ग के हैं ।
मेरे पास पहले से ही क्लास पॉजिटिव के लिए वेबपेजों का एक बड़ा प्रशिक्षण सेट है । लेकिन कक्षा गैर-सकारात्मक के लिए एक प्रशिक्षण सेट कैसे बनाया जाए जो यथासंभव प्रतिनिधि है? मेरा मतलब है, मैं मूल रूप से प्रत्येक और उस वर्ग के लिए हर चीज का उपयोग कर सकता हूं। क्या मैं सिर्फ कुछ मनमाने पन्ने जमा कर सकता हूँ जो निश्चित रूप से सकारात्मक श्रेणी के नहीं हैं ? मुझे यकीन है कि एक पाठ वर्गीकरण एल्गोरिदम का प्रदर्शन (मैं एक बेवे बेज़ एल्गोरिथ्म का उपयोग करना पसंद करता हूं) अत्यधिक इस बात पर निर्भर करता है कि मैं कक्षा गैर-सकारात्मक के लिए कौन से वेबपृष्ठ चुनता हूं ।
तो मैं क्या करूँ? क्या कोई मुझे एक सलाह दे सकता है? आपका बहुत बहुत धन्यवाद!