मैं कुछ संकेतों की तलाश कर रहा हूं कि स्टॉपवार्ड की सूची को कैसे क्यूरेट किया जाए। क्या कोई जानता है / क्या कोई प्रीप्रोसेसिंग और फ़िल्टरिंग के लिए डेटासेट सूचियों को स्वयं डेटासेट से निकालने के लिए एक अच्छी विधि सुझा सकता है?
आँकड़े:
चर की लंबाई (खोजकर्ता और पूरे वाक्य (200 अक्षर तक)) के कई वर्षों में मानव पाठ इनपुट की एक बड़ी राशि। पाठ में बहुत सारे स्पैम होते हैं (जैसे बॉट से मशीन इनपुट, एकल शब्द, बेवकूफ खोजें, उत्पाद खोज ...) और उपयोगी होने के लिए केवल कुछ% लगता है। मुझे एहसास हुआ कि कभी-कभी (केवल बहुत कम ही) लोग वास्तव में शांत प्रश्न पूछकर मेरा पक्ष खोजते हैं। ये प्रश्न इतने मस्त हैं, कि मुझे लगता है कि यह देखने लायक है कि लोग समय के साथ कैसे खोजते हैं और मेरी वेबसाइट का उपयोग करने के लिए लोगों ने किन विषयों में रुचि ली है।
मेरी समस्या:
यह है कि मैं वास्तव में प्रीप्रोसेसिंग (यानी स्पैम को छोड़ना) के साथ संघर्ष कर रहा हूं। मैंने पहले ही वेब (एनएलटीके आदि) से कुछ स्टॉपवार्ड सूची की कोशिश की, लेकिन ये वास्तव में इस डेटासेट के बारे में मेरी जरूरतों की मदद नहीं करते हैं।
अपने विचारों और चर्चा लोगों के लिए धन्यवाद!
stop words
। बंद करो-wrods कुछ भाषा के सबसे आम शब्दों, उदाहरण के लिए की एक सूची है I
, the
, a
और इतने पर। आप अपने एल्गोरिथ्म को प्रशिक्षित करने से पहले अपने पाठ से इस शब्द को हटा देंगे, जो यह पहचानने की कोशिश करेगा कि कौन सा पाठ स्पैम है या नहीं। इसने आपको यह पहचानने में मदद नहीं की कि कौन सा पाठ स्पैम है या नहीं, यह आपके सीखने के एल्गोरिथ्म को कुछ सुधार दे सकता है।