मैं कुछ संकेतों की तलाश कर रहा हूं कि स्टॉपवार्ड की सूची को कैसे क्यूरेट किया जाए। क्या कोई जानता है / क्या कोई प्रीप्रोसेसिंग और फ़िल्टरिंग के लिए डेटासेट सूचियों को स्वयं डेटासेट से निकालने के लिए एक अच्छी विधि सुझा सकता है?
आँकड़े:
चर की लंबाई (खोजकर्ता और पूरे वाक्य (200 अक्षर तक)) के कई वर्षों में मानव पाठ इनपुट की एक बड़ी राशि। पाठ में बहुत सारे स्पैम होते हैं (जैसे बॉट से मशीन इनपुट, एकल शब्द, बेवकूफ खोजें, उत्पाद खोज ...) और उपयोगी होने के लिए केवल कुछ% लगता है। मुझे एहसास हुआ कि कभी-कभी (केवल बहुत कम ही) लोग वास्तव में शांत प्रश्न पूछकर मेरा पक्ष खोजते हैं। ये प्रश्न इतने मस्त हैं, कि मुझे लगता है कि यह देखने लायक है कि लोग समय के साथ कैसे खोजते हैं और मेरी वेबसाइट का उपयोग करने के लिए लोगों ने किन विषयों में रुचि ली है।
मेरी समस्या:
यह है कि मैं वास्तव में प्रीप्रोसेसिंग (यानी स्पैम को छोड़ना) के साथ संघर्ष कर रहा हूं। मैंने पहले ही वेब (एनएलटीके आदि) से कुछ स्टॉपवार्ड सूची की कोशिश की, लेकिन ये वास्तव में इस डेटासेट के बारे में मेरी जरूरतों की मदद नहीं करते हैं।
अपने विचारों और चर्चा लोगों के लिए धन्यवाद!
stop words। बंद करो-wrods कुछ भाषा के सबसे आम शब्दों, उदाहरण के लिए की एक सूची है I, the, aऔर इतने पर। आप अपने एल्गोरिथ्म को प्रशिक्षित करने से पहले अपने पाठ से इस शब्द को हटा देंगे, जो यह पहचानने की कोशिश करेगा कि कौन सा पाठ स्पैम है या नहीं। इसने आपको यह पहचानने में मदद नहीं की कि कौन सा पाठ स्पैम है या नहीं, यह आपके सीखने के एल्गोरिथ्म को कुछ सुधार दे सकता है।